R 文本挖掘和随机森林

R Text Mining and Random Forest

我正在处理一个数据集,该数据集包含一堆原始文本,我正在对其进行矢量化并在我的矩阵中用于随机森林回归。我的问题是,如果它是稀疏矩阵,我应该将每个单词视为 .factor 还是 .numeric?哪一个加快了计算时间?

我的理解是 R 矩阵将因子强制转换为字符,因此您最好使用数字。

我对 RandomForest 不是很熟悉 -- 我对它的作用有一个大概的了解,但我不确定它的 R 实现的核心。如果您需要给它一个设计矩阵(例如,当您手动实现它们时方差分析或 GLM 如何工作),您可以尝试使用 model.matrix 函数。