window大小如何影响word2vec，我们如何根据不同的任务选择window大小？

How is the window size affect word2vec and how do we choose window size according to different tasks?

nlp
word2vec

例如，如果我选择两个 window 大小，5 和 50，并训练 word2vec 模型，50 的训练时间会更长吗？ 50 个的嵌入会更侧重于文本的语义，而 5 个更侧重于单个单词吗？顺便说一句，以上两个问题只是我 thinking/exmaples 我正在寻找的问题。我真正的问题只是标题“window 大小如何影响 word2vec 以及我们如何根据不同的任务选择 window 大小？”

更大的 window 需要更长的训练时间。

更大的 window 将对 'skip-gram' 模式下的运行时间产生更强的影响，其中更大的 window 意味着更多的个体中心词预测和错误反向传播。它会对 'CBOW' 模式下的运行时间产生更温和的影响，这只是意味着每个 prediction/backpropagation.

的输入向量和最终效果的扇出更多的平均

关于它如何影响生成的词向量的特征，在先前的回答中有一些讨论和相关的研究论文：Word2Vec: Effect of window size used

通常，您会像优化任何其他可调参数一样优化 window 值，方法是设计一些可重复的方法来为您的实际任务（或 close/correlated模拟），然后尝试一系列值以查看哪些分数最符合您的评估。

window大小如何影响word2vec，我们如何根据不同的任务选择window大小？

How is the window size affect word2vec and how do we choose window size according to different tasks?

nlp

word2vec