Word2vec 损失函数爆炸式增长

Word2vec loss function explodes

我正在使用来自 tensorflow 教程的 basic word2vec 脚本。

我运行它在一个大约100M的文本文件上，它开始很好，但一段时间后损失函数爆炸了。

我想更好地了解当我使用负采样时会发生这种情况。您是否认为我的数据集太小或某些内部属性可能已关闭？

根据我的经验，当学习率太大时会发生这种情况。我尝试了不同的值，如果学习率大于 1.0，则使用 skip-gram 和 > 0.5 使用 cbow 会发生这种情况。