从 Apache Spark 中的 LDA 主题模型获取自动主题标签

Get Automatic Topic Labels from LDA topic model in Apache Spark

我正在 Apache-Spark 中进行主题建模,以根据非结构化数据对某些产品进行分类。

到目前为止,我已经应用主题建模 (LDA) 并获取主题,但我想知道是否有任何方法可以从 LDA 给出的主题中自动推断主题标签。

LDA returns字典中每个术语代表特定主题的概率分布。如果您在 LDAModel 上调用 describeTopics(n),您会收到一个 DataFrame,其中包含每个主题的术语权重到术语索引的映射。

如果您需要推断主题标签,我假设您想要获得最能代表特定主题的人类可读术语。但是,没有直接的方法可以免费从 LDAModel 获取此信息。相反,您需要对其调用 describeTopics,然后用您的字典压缩术语索引。