Word2Vec：是否可以在 NLP 中针对权重进行训练？

Question

我使用 Gensim 的 Word2Vec 来训练最相似的词。

我的数据集全部 post 来自我的大学社区网站。

每个数据集的组成如下：

(title) + (contents) + (all comments)  // String

例如，

data[0] => "This is title. Contents is funny. What so funny?. Not funny for me"

所以，我有大约 400,000 个像上面这样的数据，并将它们作为一个向量，并尝试通过 Word2Vec 训练这些数据。

我想知道是否可以让 Word2Vec 考虑 WEIGHT，这意味着，如果我给某个数据向量赋予权重，Word2Vec 训练这个数据的方式是每个词在该数据向量具有更强的关系（相似性）。

例如，如果我给数据集权重 5，I like Pizza, Chicken，单词 Pizza 和 Chicken（或 like 和 Pizza 等) 比其他数据向量的词有更强的关系。

可以吗？

抱歉解释不当，但我的母语不是英语。如果需要更详细的信息，请post评论。

Answer 1

word2vec 算法的定义或 gensim 实现中没有这种可配置的权重。

您可以尝试重复那些您希望产生更大影响的文本示例。（理想情况下，这样的重复不会背靠背，而是在整个数据集中洗牌。）

因此，与重复次数较少的示例相比，这些示例会更频繁地影响基础模型的训练，占总训练时间的更大比例——改变所涉及单词的相对位置。可能会得到您想要的最终结果。

Word2Vec: Is it possible to train with respect to weight in NLP?