gensim LDA训练

gensim LDA training

我正在为一个项目使用 gensim LDA 模型。我似乎找不到适当数量的主题。我的问题是,可以肯定的是,每次我训练模型时它都会重新启动,对吗? 例如,我尝试了 47 个主题,结果很糟糕;然后我回到单元格,将 47 个主题更改为 80 个主题,然后再次 运行。它完全开始了新的训练并抹去了它在 47 个主题中学到的东西,对吧?

我在 LDA 上的结果很糟糕,相似度达到 100% 或 0%,而且我在参数调整方面遇到了麻烦。 LSI 给了我优异的成绩。 谢谢!

是的,每次训练 LDA 时,它都会忘记到目前为止所学的内容。

一些可能有助于您获得更好结果的建议和意见:

  • 确保您已适当地预处理文本。这通常包括删除标点符号和数字,删除停用词和过于频繁或罕见的词,(可选)对文本进行词形还原。预处理取决于文本的语言和领域。
  • 关于超参数,您可以对 alpha 和 beta 使用“自动”模式,让模型学习 alpha 和 beta 的最佳值。如果要修复它们,通常建议使用小于 1 的值。 Check this
  • LDA是一个概率模型,这意味着如果你用相同的超参数重新训练它,每次都会得到不同的结果。