我可以使用哪些方法来计算 quanteda 中单词之间的相关性？

Question

我的问题是 this 的延续。

清理我的文本数据并使用 wordcloud 将其可视化后，我想看看哪些词相互关联。问题来了：

quanteda有函数textstat_simil，但是它说 相似度。那么，在这种情况下，"similarity" 和 "correlation" 是一回事吗？（距离也有关系吗？）
此外，我的dfm看起来像一个二进制矩阵。在这种情况下是 phi 相关性（来自卡方统计）更明确？我可以吗通过 quanteda?
各位大佬有没有除源码之外的其他内容 github 更详细地解释了计算方法相似性或距离措施？（我无法理解 this 代码，抱歉）。

感谢您的耐心等待！

Answer 1

要计算特征之间的 Pearson 乘积矩相关性，您可以使用：

textstat_simil(x, method = “correlation”, margin = “features”)

文档说的很清楚，相关方法是默认的。

Pearson 相关性不是最适合二进制数据的，我们目前没有实施更适合分类或有序数据的 Spearman 或其他相关性方法。但是，您始终可以将 dfm 强制转换为普通矩阵（使用 as.matrix()），然后使用 stats::cor() 方法，其中包括 Spearman 的方法。

至于最后一个问题，我们使用标准执行这些措施。如果您想更清楚地了解它们的含义，我建议您询问 Cross-Validated。

Which methods can I use to calculate correlation among words in quanteda?