Class 相关性及其影响

Class correlation and its effects

我在这里查看鸢尾花数据集:https://archive.ics.uci.edu/ml/machine-learning-databases/iris/,我发现了这个:

 Summary Statistics:
 Min  Max   Mean    SD   Class Correlation
sepal length: 4.3  7.9   5.84  0.83    0.7826   
sepal width: 2.0  4.4   3.05  0.43   -0.4194
petal length: 1.0  6.9   3.76  1.76    0.9490  (high!)
petal width: 0.1  2.5   1.20  0.76    0.9565  (high!)

class 相关性意味着什么?人们可以从它对特定特征的高或低推断出什么?

该参数似乎描述了 Intraclass correlation,这是 class 或组内相似性的度量。

较高的值表示 class 中的样本趋于相似,而较低的值则相反。

Class Class(a.k.a 目标变量或响应)与其他特征(a.k.a 自变量)之间的相关性为 Pearson's Correlation Coefficient

Pearson 相关系数绝对值 值介于 0 到 1 之间(1 表示完美关系)。

例如,在你的 Iris 数据集中,有 3 Classes(即 Species of Iris),即:Setosa、Versicolour 和弗吉尼亚.

另一方面,你有4个特征,即:萼片长度、萼片宽度、花瓣长度和花瓣宽度

从上面找到 class 与数据集中的一个特征之间的相关性很好,...为什么?看看 feature/attribute 对 class 值多少钱。换句话说,class 对该属性的可靠性。


例如,从您的数据集中,花瓣宽度 与 classes (corr=0.9565) 的相关性最高,这意味着:花瓣的变化宽度高度导致 classes 线性变化!

因此,花瓣宽度 特征对于为数据集建模以及预测任何未来未见的新示例非常重要!

花瓣长度也是如此,与其他classes有很高的相关性。


根据经验,皮尔逊相关绝对值可以解释如下:

  • 弱:从 0.1 到 0.29
  • 中级:从 0.3 到 0.49
  • 强:0.5 到 1

这是根据科恩的标准。