Weka 中的分类精度

Classfication accuracy on Weka

我正在使用 Weka GUI 进行分类。我是 Weka 的新手,对选项感到困惑

为了训练我的分类算法(例如 J48),我用交叉验证训练了 10 次,准确率相当不错 (97%)。当我测试我的分类时——准确率下降到大约 72%。我感到很困惑。请问有什么建议吗?我是这样做的:

然后

是我做的方式不对吗?为什么准确率从 97% 悲惨地下降到 72%?还是仅进行 10 次交叉验证就足以训练和测试分类器?

注意:我的训练和测试数据集具有相同的属性和标签。唯一的区别是,我有更多关于测试集的数据,我认为这不会成为问题。

我认为您使用 WEKA 的方式没有任何问题。

你提到你的测试集比训练集大?分裂是什么?通常的经验法则是,测试集应该是整个数据集的 1/4,即比训练集小 3 倍,绝对不能大。仅此一项就可以解释从 97% 到 72% 的下降,顺便说一下,这对于现实生活中的情况来说还算不错。

此外,如果您构建学习曲线 https://weka.wikispaces.com/Learning+curves 也会很有帮助,因为它将解释您是否存在偏差或方差问题。从您的价值观来看,您的方差似乎很大(即数据集的参数太多),因此添加更多示例或更改训练集和测试集之间的划分可能会有所帮助。

更新 我 运行 通过 运行domforest 对有问题的数据集进行了快速分析,我的表现与作者发布的相似。详细信息和代码可在 gitpage http://omdv.github.io/2016/03/10/WEKA-Whosebug

上找到