R 文本挖掘和随机森林

R Text Mining and Random Forest

我正在处理一个数据集，该数据集包含一堆原始文本，我正在对其进行矢量化并在我的矩阵中用于随机森林回归。我的问题是，如果它是稀疏矩阵，我应该将每个单词视为 .factor 还是 .numeric？哪一个加快了计算时间？

我的理解是 R 矩阵将因子强制转换为字符，因此您最好使用数字。

我对 RandomForest 不是很熟悉 -- 我对它的作用有一个大概的了解，但我不确定它的 R 实现的核心。如果您需要给它一个设计矩阵（例如，当您手动实现它们时方差分析或 GLM 如何工作），您可以尝试使用 model.matrix 函数。