"Weka: training and test set are not compatible" 的替代方案?

Altrnative of "Weka: training and test set are not compatible"?

"Weka: training and test set are not compatible" 可以使用批量过滤解决,但在训练模型时我没有 test.arff。命令 "stringToWord vector"(在 CLI 上)导致我的问题。

所以我的问题是,Caret package(R) 或 Scikit learn (Python) 能否为此提供任何替代方案。 笔记: 1. "stringToWord vector" 提供的功能是必须的。 2. 我不想在测试时重新训练我的模型,因为这会花费很多时间。

鉴于您提到的要求,您可以在训练和测试期间使用 Weka 的过滤分类器选项。我不会重复我录制的视频 here and here

但基本思想不是将 StringToWord 向量用作直接过滤器,而是将其用作 FilteredClassifier 选项中的过滤选项。您生成的模型将只有一次。然后,您可以直接将模型应用于未标记的数据,而无需重新训练它们,也无需再次对未标记的数据应用 StringToWord 向量。 FilteredClassifier 将为您解决这些问题。