window大小如何影响word2vec,我们如何根据不同的任务选择window大小?
How is the window size affect word2vec and how do we choose window size according to different tasks?
例如,如果我选择两个 window 大小,5 和 50,并训练 word2vec 模型,50 的训练时间会更长吗? 50 个的嵌入会更侧重于文本的语义,而 5 个更侧重于单个单词吗?
顺便说一句,以上两个问题只是我 thinking/exmaples 我正在寻找的问题。我真正的问题只是标题“window 大小如何影响 word2vec 以及我们如何根据不同的任务选择 window 大小?”
更大的 window
需要更长的训练时间。
更大的 window 将对 'skip-gram' 模式下的运行时间产生更强的影响,其中更大的 window 意味着更多的个体中心词预测和错误反向传播。它会对 'CBOW' 模式下的运行时间产生更温和的影响,这只是意味着每个 prediction/backpropagation.
的输入向量和最终效果的扇出更多的平均
关于它如何影响生成的词向量的特征,在先前的回答中有一些讨论和相关的研究论文:Word2Vec: Effect of window size used
通常,您会像优化任何其他可调参数一样优化 window
值,方法是设计一些可重复的方法来为您的实际任务(或 close/correlated模拟),然后尝试一系列值以查看哪些分数最符合您的评估。
例如,如果我选择两个 window 大小,5 和 50,并训练 word2vec 模型,50 的训练时间会更长吗? 50 个的嵌入会更侧重于文本的语义,而 5 个更侧重于单个单词吗? 顺便说一句,以上两个问题只是我 thinking/exmaples 我正在寻找的问题。我真正的问题只是标题“window 大小如何影响 word2vec 以及我们如何根据不同的任务选择 window 大小?”
更大的 window
需要更长的训练时间。
更大的 window 将对 'skip-gram' 模式下的运行时间产生更强的影响,其中更大的 window 意味着更多的个体中心词预测和错误反向传播。它会对 'CBOW' 模式下的运行时间产生更温和的影响,这只是意味着每个 prediction/backpropagation.
的输入向量和最终效果的扇出更多的平均关于它如何影响生成的词向量的特征,在先前的回答中有一些讨论和相关的研究论文:Word2Vec: Effect of window size used
通常,您会像优化任何其他可调参数一样优化 window
值,方法是设计一些可重复的方法来为您的实际任务(或 close/correlated模拟),然后尝试一系列值以查看哪些分数最符合您的评估。