我可以使用哪些方法来计算 quanteda 中单词之间的相关性?

Which methods can I use to calculate correlation among words in quanteda?

我的问题是 this 的延续。

清理我的文本数据并使用 wordcloud 将其可视化后,我想看看哪些词相互关联。问题来了:

  1. quanteda有函数textstat_simil,但是它说 相似度。那么,在这种情况下,"similarity" 和 "correlation" 是一回事吗? (距离也有关系吗?)

  2. 此外,我的dfm看起来像一个二进制矩阵。在这种情况下是 phi 相关性(来自卡方统计)更明确?我可以吗 通过 quanteda?

  3. 计算
  4. 各位大佬有没有除源码之外的其他内容 github 更详细地解释了计算方法 相似性或距离措施? (我无法理解 this 代码,抱歉)。

感谢您的耐心等待!

要计算特征之间的 Pearson 乘积矩相关性,您可以使用:

textstat_simil(x, method = “correlation”, margin = “features”)

文档说的很清楚,相关方法是默认的。

Pearson 相关性不是最适合二进制数据的,我们目前没有实施更适合分类或有序数据的 Spearman 或其他相关性方法。但是,您始终可以将 dfm 强制转换为普通矩阵(使用 as.matrix()),然后使用 stats::cor() 方法,其中包括 Spearman 的方法。

至于最后一个问题,我们使用标准执行这些措施。如果您想更清楚地了解它们的含义,我建议您询问 Cross-Validated。