什么是距离敏感数据,它与其他数据有何不同?任何示例都会有所帮助

What is a Distance Sensitive Data how it Differs from other Data? Any Examples will be helpful

我在阅读分类算法 KNN 时遇到了一个术语距离敏感数据。我无法找到距离敏感数据到底是什么,它的分类是什么,如何判断我们的数据是否对距离敏感?

假设 xixj 是案例 i 和 j 中观察到的特征的向量。然后,您可能知道,kNN 基于距离 ||xi-xj||,如欧式。

现在如果xixj 只包含一个特征,以米为单位的个人身高,我们很好,因为没有其他 "competing" 特征。假设接下来我们添加以千为单位的年薪。因此,我们查看向量之间的距离,例如 (1.7, 50000) 和 (1.8, 100000)。

然后,在欧几里得距离的情况下,薪水特征明显支配高度,这几乎就像我们单独使用薪水特征一样。也就是说,

||xi-xj||2 ≈ |50000-100000|.

但是,如果这两个特征实际上具有相似的重要性,那么我们就做得不好。如果薪水实际上无关紧要,我们应该单独使用身高,那就更糟了。有趣的是,在弱条件下,即使在如此糟糕的情况下,我们的分类器仍然具有良好的特性,例如普遍一致性。问题是在有限样本中,我们的分类器性能很差,所以收敛很慢。

所以,为了解决这个问题,人们可能需要考虑不同的距离,以便对比例做一些事情。通常人们会对每个特征进行标准化(将均值设置为零,将方差设置为 1),但这也不是一个完整的解决方案。有各种建议可以做什么(参见,例如,here)。

另一方面,基于决策树的算法不受此影响。在那些情况下,我们只是寻找一个点来分割变量。例如,如果薪水取值 [0,100000] 并且拆分为 40000,则 Salary/10 将拆分为 4000,这样结果就不会改变。