使用更多功能时,功能选择中的错误栏会增加吗?
Error bars in feature selection increase when using more features?
我正在关注 this example 使用随机森林确定特征重要性。当使用大量特征并且仅使用这些特征的一个子集时,这些是我分别观察到的结果:
在使用所有可能的特征时,错误栏急剧增加是否有特殊原因?负数有什么意义吗? (注:两个图中x轴上的特定标签不一定对应。)
当您只使用最重要的特征时,发生错误的可能性就会降低(或者模型错误地学习不应学习的模式的可能性就会降低)。
不使用特征重要性
- 您的模型很有可能在不应该捕捉的模式中捕捉模式,因此在不应该捕捉的地方重视不太重要的特征。
- 此外,随机森林是决策树的集合,有些可能会捕获正确的特征重要性,有些可能不会。
- 最重要的错误率如此之高,因为在某些树中,它们可能完全被忽略或被赋予最低重要性。虽然有些人可能会正确捕捉它
- 因此,频谱的两端都导致了如此高的错误率。
使用特征重要性
- 您连续消除了最不重要的特征,导致在连续的树中根本不会考虑该特征(因此特征重要性发生任何错误的可能性较小)
- 连续这样做可以提高更重要的特征被一次又一次选择进行分裂的机会,因此误差范围相对较小
我正在关注 this example 使用随机森林确定特征重要性。当使用大量特征并且仅使用这些特征的一个子集时,这些是我分别观察到的结果:
在使用所有可能的特征时,错误栏急剧增加是否有特殊原因?负数有什么意义吗? (注:两个图中x轴上的特定标签不一定对应。)
当您只使用最重要的特征时,发生错误的可能性就会降低(或者模型错误地学习不应学习的模式的可能性就会降低)。
不使用特征重要性
- 您的模型很有可能在不应该捕捉的模式中捕捉模式,因此在不应该捕捉的地方重视不太重要的特征。
- 此外,随机森林是决策树的集合,有些可能会捕获正确的特征重要性,有些可能不会。
- 最重要的错误率如此之高,因为在某些树中,它们可能完全被忽略或被赋予最低重要性。虽然有些人可能会正确捕捉它
- 因此,频谱的两端都导致了如此高的错误率。
使用特征重要性
- 您连续消除了最不重要的特征,导致在连续的树中根本不会考虑该特征(因此特征重要性发生任何错误的可能性较小)
- 连续这样做可以提高更重要的特征被一次又一次选择进行分裂的机会,因此误差范围相对较小