我可以使用哪些方法来计算 quanteda 中单词之间的相关性?
Which methods can I use to calculate correlation among words in quanteda?
我的问题是 this 的延续。
清理我的文本数据并使用 wordcloud
将其可视化后,我想看看哪些词相互关联。问题来了:
quanteda
有函数textstat_simil
,但是它说
相似度。那么,在这种情况下,"similarity" 和 "correlation" 是一回事吗? (距离也有关系吗?)
此外,我的dfm看起来像一个二进制矩阵。在这种情况下是 phi
相关性(来自卡方统计)更明确?我可以吗
通过 quanteda
?
计算
- 各位大佬有没有除源码之外的其他内容
github 更详细地解释了计算方法
相似性或距离措施? (我无法理解
this
代码,抱歉)。
感谢您的耐心等待!
要计算特征之间的 Pearson 乘积矩相关性,您可以使用:
textstat_simil(x, method = “correlation”, margin = “features”)
文档说的很清楚,相关方法是默认的。
Pearson 相关性不是最适合二进制数据的,我们目前没有实施更适合分类或有序数据的 Spearman 或其他相关性方法。但是,您始终可以将 dfm 强制转换为普通矩阵(使用 as.matrix()
),然后使用 stats::cor()
方法,其中包括 Spearman 的方法。
至于最后一个问题,我们使用标准执行这些措施。如果您想更清楚地了解它们的含义,我建议您询问 Cross-Validated。
我的问题是 this 的延续。
清理我的文本数据并使用 wordcloud
将其可视化后,我想看看哪些词相互关联。问题来了:
quanteda
有函数textstat_simil
,但是它说 相似度。那么,在这种情况下,"similarity" 和 "correlation" 是一回事吗? (距离也有关系吗?)此外,我的dfm看起来像一个二进制矩阵。在这种情况下是 phi 相关性(来自卡方统计)更明确?我可以吗 通过
quanteda
? 计算
- 各位大佬有没有除源码之外的其他内容 github 更详细地解释了计算方法 相似性或距离措施? (我无法理解 this 代码,抱歉)。
感谢您的耐心等待!
要计算特征之间的 Pearson 乘积矩相关性,您可以使用:
textstat_simil(x, method = “correlation”, margin = “features”)
文档说的很清楚,相关方法是默认的。
Pearson 相关性不是最适合二进制数据的,我们目前没有实施更适合分类或有序数据的 Spearman 或其他相关性方法。但是,您始终可以将 dfm 强制转换为普通矩阵(使用 as.matrix()
),然后使用 stats::cor()
方法,其中包括 Spearman 的方法。
至于最后一个问题,我们使用标准执行这些措施。如果您想更清楚地了解它们的含义,我建议您询问 Cross-Validated。