具有不同上下文的gensim

gensim with different context

我正在使用 gensim library for word2vec。我想在不相关的文本示例上训练模型，例如："The cat is brown. What time is it?"

我已经为模型创建了以下输入：

[["The", "cat", "is", "brown"], ["What", "time", "is", "it"]]，但是我想知道模型是否假定 "brown" 和 "What" 处于同一上下文中。

试图在 api 中找到答案，但找不到。

gensim API 不会在同一上下文中考虑 "brown" 和 "What"。在句子边界附近使用不均匀的 windows。因此，对于您的示例，如果 window 大小假设为 1，则 (context, target) 对将如下所示：

([cat],The), ([The,is],cat), ([cat,brown],is), ([is],brown) ([time],What), ([What,is],time), ([time,it],is), ([is],it)

我希望这能消除你的疑虑。