外行人的 NaiveBayes、J48 和 RandomTree

NaiveBayes, J48 and RandomTree in layman's terms

我很难理解这两个分类器的工作原理。到目前为止,我已经推导出 NaiveBayes 通过 'uncoupling' 多个证据来预测结果,并将每个证据视为独立的。但是,与 J48 或 RandomTree 等其他分类算法相比,它们之间究竟有何不同?

例如,下面的table显示了两个数据集中正确分类实例的百分比。我可以得出结论,所选的这两个分类器都最适合 Labor 数据集,因为与糖尿病数据集相比,它们都可以正确分类更多实例。

http://i.stack.imgur.com/TtB3Q.png

但是,如下所示,NaiveBayes 在 Glass 数据集上的表现非常糟糕。这背后的原因是什么?是否取决于数据集中出现异常的可能性(即我们可以根据标准差或均值确定)?

http://i.stack.imgur.com/CHfVb.png

对于上述结果,是否有人能够提供对这两个分类器的外行描述?

(对不起,由于我的声誉低,我不能post张图片)。

glass 数据集中,所有值("RI" 除外)都是百分比,每一行的总和约为 100%。因此,根据定义,它们不是独立的。

例如,如果玻璃含有 50% 的硅 (Si) 和 30% 的铝,则这两种成分单独占理论 100% 的 80%。所以对于所有其他元素(Mg、Fe、Na、K 等),剩下的 100% 只剩下 20%。所以Si值会趋向于自动与任何微量元素负相关,微量元素之间会趋向于相互相关。

在环境统计中,这被称为 "closed data" 问题。阅读本文的介绍以获取更多信息:环境(成分)数据的单变量统计分析: 问题和可能性(我刚刚用谷歌搜索了这个)

解决此问题的一种方法是测量浓度 << 1% 的微量元素。这些确实可以视为独立的。