外行人的 NaiveBayes、J48 和 RandomTree

NaiveBayes, J48 and RandomTree in layman's terms

我很难理解这两个分类器的工作原理。到目前为止，我已经推导出 NaiveBayes 通过 'uncoupling' 多个证据来预测结果，并将每个证据视为独立的。但是，与 J48 或 RandomTree 等其他分类算法相比，它们之间究竟有何不同？

例如，下面的table显示了两个数据集中正确分类实例的百分比。我可以得出结论，所选的这两个分类器都最适合 Labor 数据集，因为与糖尿病数据集相比，它们都可以正确分类更多实例。

但是，如下所示，NaiveBayes 在 Glass 数据集上的表现非常糟糕。这背后的原因是什么？是否取决于数据集中出现异常的可能性（即我们可以根据标准差或均值确定）？

对于上述结果，是否有人能够提供对这两个分类器的外行描述？

（对不起，由于我的声誉低，我不能post张图片）。

在 glass 数据集中，所有值（"RI" 除外）都是百分比，每一行的总和约为 100%。因此，根据定义，它们不是独立的。

例如，如果玻璃含有 50% 的硅 (Si) 和 30% 的铝，则这两种成分单独占理论 100% 的 80%。所以对于所有其他元素（Mg、Fe、Na、K 等），剩下的 100% 只剩下 20%。所以Si值会趋向于自动与任何微量元素负相关，微量元素之间会趋向于相互相关。

在环境统计中，这被称为 "closed data" 问题。阅读本文的介绍以获取更多信息：环境（成分）数据的单变量统计分析：问题和可能性（我刚刚用谷歌搜索了这个）

解决此问题的一种方法是测量浓度 << 1% 的微量元素。这些确实可以视为独立的。