Word2Vec:是否可以在 NLP 中针对权重进行训练?
Word2Vec: Is it possible to train with respect to weight in NLP?
我使用 Gensim
的 Word2Vec
来训练最相似的词。
我的数据集全部 post 来自我的大学社区网站。
每个数据集的组成如下:
(title) + (contents) + (all comments) // String
例如,
data[0] => "This is title. Contents is funny. What so funny?. Not funny for me"
所以,我有大约 400,000 个像上面这样的数据,并将它们作为一个向量,并尝试通过 Word2Vec
训练这些数据。
我想知道是否可以让 Word2Vec
考虑 WEIGHT,这意味着,如果我给某个数据向量赋予权重,Word2Vec
训练这个数据的方式是每个词在该数据向量具有更强的关系(相似性)。
例如,如果我给数据集权重 5,I like Pizza, Chicken
,单词 Pizza
和 Chicken
(或 like
和 Pizza
等) 比其他数据向量的词有更强的关系。
可以吗?
抱歉解释不当,但我的母语不是英语。如果需要更详细的信息,请post评论。
word2vec 算法的定义或 gensim 实现中没有这种可配置的权重。
您可以尝试重复那些您希望产生更大影响的文本示例。 (理想情况下,这样的重复不会背靠背,而是在整个数据集中洗牌。)
因此,与重复次数较少的示例相比,这些示例会更频繁地影响基础模型的训练,占总训练时间的更大比例——改变所涉及单词的相对位置。 可能 会得到您想要的最终结果。
我使用 Gensim
的 Word2Vec
来训练最相似的词。
我的数据集全部 post 来自我的大学社区网站。
每个数据集的组成如下:
(title) + (contents) + (all comments) // String
例如,
data[0] => "This is title. Contents is funny. What so funny?. Not funny for me"
所以,我有大约 400,000 个像上面这样的数据,并将它们作为一个向量,并尝试通过 Word2Vec
训练这些数据。
我想知道是否可以让 Word2Vec
考虑 WEIGHT,这意味着,如果我给某个数据向量赋予权重,Word2Vec
训练这个数据的方式是每个词在该数据向量具有更强的关系(相似性)。
例如,如果我给数据集权重 5,I like Pizza, Chicken
,单词 Pizza
和 Chicken
(或 like
和 Pizza
等) 比其他数据向量的词有更强的关系。
可以吗?
抱歉解释不当,但我的母语不是英语。如果需要更详细的信息,请post评论。
word2vec 算法的定义或 gensim 实现中没有这种可配置的权重。
您可以尝试重复那些您希望产生更大影响的文本示例。 (理想情况下,这样的重复不会背靠背,而是在整个数据集中洗牌。)
因此,与重复次数较少的示例相比,这些示例会更频繁地影响基础模型的训练,占总训练时间的更大比例——改变所涉及单词的相对位置。 可能 会得到您想要的最终结果。