Glove (gensim) 词典的主题连贯性

Topic Coherence with Dictionary from Glove (gensim)

我正在尝试评估一个自制的主题模型。为此,我正在使用主题列表(由关键字表示),并希望使用 gensim.models.coherencemodel.CoherenceModel,并在语料库上调用它,语料库是一个字符串列表(每个字符串都是一个文档)。 CoherenceModel 需要一个 Dictionary,但我不明白这对应于什么,也不知道如何获得它。 我正在使用 sklearn 中的 TfidfVectorizer 对文本进行矢量化,并使用 gensim 中的 glove 嵌入来计算模型中的相似性。

根据文档,可以从语料库创建 Dictionary,其中语料库是 list of lists of str。同样的语料库应该在 CoherenceModeltext 参数中传递。