LDA 检测新出现的主题
LDA detect new emerging topics
感谢您的光临。我有一个定向问题 - 我已经使用 Gensims Mallet 包装器构建了一个 Latent Dirichlet Allocation。我在 OldDataSet.csv 上训练了一次模型并测量了一致性。我一直用它来传递NewDataSet.csv通过进行主题分配。我需要一些指导,了解我如何能够预测我的预训练模型分配的准确程度 NewDataSet.csv。该一致性分数仅检查预训练模型的准确性,而不检查分配的数据集。我想要一种方法来跟踪历史主题的出现并检测新主题的出现而无需重新训练模型。就像说这些是 OldDataSet.csv:
中的主题
- 威士忌
- 探戈
- 狐步舞
它将分配 NewDataSet.csv 1. whiskey 2. Tango 或 3. Foxtrot 但更准确的分配可能是:
- 威士忌
- 探戈
- 阿尔法
如果我保持 运行 相同的模型,我可能会错过这个新主题。如果存在一个数字分数可以衡量主题与 NewDataSet.csv 的紧密程度,那将节省大量时间。谢谢 Stack,你总是救我 :)
我找到了一个称为动态主题建模的解决方案。我已经链接了一篇记录其用途的文章。它仍在研究中,但它基本上是一种考虑时间的 LDA,可以打印随时间变化的主题。
https://github.com/rare-technologies/gensim/blob/develop/docs/notebooks/ldaseqmodel.ipynb
另请查看 Bleis 的 google 关于此事的谈话:
感谢您的光临。我有一个定向问题 - 我已经使用 Gensims Mallet 包装器构建了一个 Latent Dirichlet Allocation。我在 OldDataSet.csv 上训练了一次模型并测量了一致性。我一直用它来传递NewDataSet.csv通过进行主题分配。我需要一些指导,了解我如何能够预测我的预训练模型分配的准确程度 NewDataSet.csv。该一致性分数仅检查预训练模型的准确性,而不检查分配的数据集。我想要一种方法来跟踪历史主题的出现并检测新主题的出现而无需重新训练模型。就像说这些是 OldDataSet.csv:
中的主题- 威士忌
- 探戈
- 狐步舞
它将分配 NewDataSet.csv 1. whiskey 2. Tango 或 3. Foxtrot 但更准确的分配可能是:
- 威士忌
- 探戈
- 阿尔法
如果我保持 运行 相同的模型,我可能会错过这个新主题。如果存在一个数字分数可以衡量主题与 NewDataSet.csv 的紧密程度,那将节省大量时间。谢谢 Stack,你总是救我 :)
我找到了一个称为动态主题建模的解决方案。我已经链接了一篇记录其用途的文章。它仍在研究中,但它基本上是一种考虑时间的 LDA,可以打印随时间变化的主题。
https://github.com/rare-technologies/gensim/blob/develop/docs/notebooks/ldaseqmodel.ipynb
另请查看 Bleis 的 google 关于此事的谈话: