用于计算 k 最近邻的距离度量
distance measure used to calculate k nearest neighbour
我正在阅读关于k个最近邻居的信息,示例中给出的距离度量如下。
它说Ri是第i个分量的范围。我对这里使用哪种距离度量感到困惑?我了解欧几里德距离,但似乎并非如此。你能帮忙解释一下 "range of the i-th component" 是什么以及这是哪个距离度量吗?非常感谢。如果需要更多信息,请告诉我。
范围是训练数据集中该特征(列)的最大值和最小值之差。
您可以将其视为 L1
范数,因为我们只取最大值和最小值之间的绝对距离。通常这样做是为了标准化跨特征的距离计算,以便某些特征不应主导距离计算。
给出的公式只是针对欧几里得距离,只是在计算距离时对数据进行了归一化。
KNN 需要对数据进行归一化,因为如果不这样做,则具有较高值的特征将在决定输出时占主导地位。
上面的KNN公式省略了显式的归一化步骤,在计算距离的时候原地做。
注意:- 这里,i
表示第 ith 列而不是行。
这里是公式的实际解释,
Ri = ximax - xi分钟
在归一化过程中,我们使用以下变换对每一行进行变换,
xi = xi / (ximax - ximin)
因此,当计算距离时公式有效,
d2 = ((a1 - xmin)-(b1 - xmin))2 / R12 + ((a2 - xmin)-(b2 - xmin))2 / R22 + ... + ((an - xmin)-(bn - xmin))2 / Rn2
这是有效的,
d2 = (a1 - b1) 2 / R12 + (a2 - b2)2 / R22 + ... + (a n- bn)2 / Rn2
,如上图所示
我正在阅读关于k个最近邻居的信息,示例中给出的距离度量如下。
它说Ri是第i个分量的范围。我对这里使用哪种距离度量感到困惑?我了解欧几里德距离,但似乎并非如此。你能帮忙解释一下 "range of the i-th component" 是什么以及这是哪个距离度量吗?非常感谢。如果需要更多信息,请告诉我。
范围是训练数据集中该特征(列)的最大值和最小值之差。
您可以将其视为 L1
范数,因为我们只取最大值和最小值之间的绝对距离。通常这样做是为了标准化跨特征的距离计算,以便某些特征不应主导距离计算。
给出的公式只是针对欧几里得距离,只是在计算距离时对数据进行了归一化。
KNN 需要对数据进行归一化,因为如果不这样做,则具有较高值的特征将在决定输出时占主导地位。 上面的KNN公式省略了显式的归一化步骤,在计算距离的时候原地做。
注意:- 这里,i
表示第 ith 列而不是行。
这里是公式的实际解释,
Ri = ximax - xi分钟
在归一化过程中,我们使用以下变换对每一行进行变换,
xi = xi / (ximax - ximin)
因此,当计算距离时公式有效,
d2 = ((a1 - xmin)-(b1 - xmin))2 / R12 + ((a2 - xmin)-(b2 - xmin))2 / R22 + ... + ((an - xmin)-(bn - xmin))2 / Rn2
这是有效的,
d2 = (a1 - b1) 2 / R12 + (a2 - b2)2 / R22 + ... + (a n- bn)2 / Rn2
,如上图所示