Word2Vec:是否可以在 NLP 中针对权重进行训练?

Word2Vec: Is it possible to train with respect to weight in NLP?

我使用 GensimWord2Vec 来训练最相似的词。

我的数据集全部 post 来自我的大学社区网站。

每个数据集的组成如下:

(title) + (contents) + (all comments)  // String

例如,

data[0] => "This is title. Contents is funny. What so funny?. Not funny for me"

所以,我有大约 400,000 个像上面这样的数据,并将它们作为一个向量,并尝试通过 Word2Vec 训练这些数据。

我想知道是否可以让 Word2Vec 考虑 WEIGHT,这意味着,如果我给某个数据向量赋予权重,Word2Vec 训练这个数据的方式是每个词在该数据向量具有更强的关系(相似性)。

例如,如果我给数据集权重 5,I like Pizza, Chicken,单词 PizzaChicken(或 likePizza 等) 比其他数据向量的词有更强的关系。

可以吗?

抱歉解释不当,但我的母语不是英语。如果需要更详细的信息,请post评论。

word2vec 算法的定义或 gensim 实现中没有这种可配置的权重。

您可以尝试重复那些您希望产生更大影响的文本示例。 (理想情况下,这样的重复不会背靠背,而是在整个数据集中洗牌。)

因此,与重复次数较少的示例相比,这些示例会更频繁地影响基础模型的训练,占总训练时间的更大比例——改变所涉及单词的相对位置。 可能 会得到您想要的最终结果。