Class 相关性及其影响
Class correlation and its effects
我在这里查看鸢尾花数据集:https://archive.ics.uci.edu/ml/machine-learning-databases/iris/,我发现了这个:
Summary Statistics:
Min Max Mean SD Class Correlation
sepal length: 4.3 7.9 5.84 0.83 0.7826
sepal width: 2.0 4.4 3.05 0.43 -0.4194
petal length: 1.0 6.9 3.76 1.76 0.9490 (high!)
petal width: 0.1 2.5 1.20 0.76 0.9565 (high!)
class 相关性意味着什么?人们可以从它对特定特征的高或低推断出什么?
该参数似乎描述了 Intraclass correlation,这是 class 或组内相似性的度量。
较高的值表示 class 中的样本趋于相似,而较低的值则相反。
Class Class(a.k.a 目标变量或响应)与其他特征(a.k.a 自变量)之间的相关性为 Pearson's Correlation Coefficient。
Pearson 相关系数绝对值 值介于 0 到 1 之间(1 表示完美关系)。
例如,在你的 Iris 数据集中,有 3 Classes(即 Species of Iris),即:Setosa、Versicolour 和弗吉尼亚.
另一方面,你有4个特征,即:萼片长度、萼片宽度、花瓣长度和花瓣宽度。
从上面找到 class 与数据集中的一个特征之间的相关性很好,...为什么?看看 feature/attribute 对 class 值多少钱。换句话说,class 对该属性的可靠性。
例如,从您的数据集中,花瓣宽度 与 classes (corr=0.9565
) 的相关性最高,这意味着:花瓣的变化宽度高度导致 classes 线性变化!
因此,花瓣宽度 特征对于为数据集建模以及预测任何未来未见的新示例非常重要!
花瓣长度也是如此,与其他classes有很高的相关性。
根据经验,皮尔逊相关绝对值可以解释如下:
- 弱:从 0.1 到 0.29
- 中级:从 0.3 到 0.49
- 强:0.5 到 1
这是根据科恩的标准。
我在这里查看鸢尾花数据集:https://archive.ics.uci.edu/ml/machine-learning-databases/iris/,我发现了这个:
Summary Statistics:
Min Max Mean SD Class Correlation
sepal length: 4.3 7.9 5.84 0.83 0.7826
sepal width: 2.0 4.4 3.05 0.43 -0.4194
petal length: 1.0 6.9 3.76 1.76 0.9490 (high!)
petal width: 0.1 2.5 1.20 0.76 0.9565 (high!)
class 相关性意味着什么?人们可以从它对特定特征的高或低推断出什么?
该参数似乎描述了 Intraclass correlation,这是 class 或组内相似性的度量。
较高的值表示 class 中的样本趋于相似,而较低的值则相反。
Class Class(a.k.a 目标变量或响应)与其他特征(a.k.a 自变量)之间的相关性为 Pearson's Correlation Coefficient。
Pearson 相关系数绝对值 值介于 0 到 1 之间(1 表示完美关系)。
例如,在你的 Iris 数据集中,有 3 Classes(即 Species of Iris),即:Setosa、Versicolour 和弗吉尼亚.
另一方面,你有4个特征,即:萼片长度、萼片宽度、花瓣长度和花瓣宽度。
从上面找到 class 与数据集中的一个特征之间的相关性很好,...为什么?看看 feature/attribute 对 class 值多少钱。换句话说,class 对该属性的可靠性。
例如,从您的数据集中,花瓣宽度 与 classes (corr=0.9565
) 的相关性最高,这意味着:花瓣的变化宽度高度导致 classes 线性变化!
因此,花瓣宽度 特征对于为数据集建模以及预测任何未来未见的新示例非常重要!
花瓣长度也是如此,与其他classes有很高的相关性。
根据经验,皮尔逊相关绝对值可以解释如下:
- 弱:从 0.1 到 0.29
- 中级:从 0.3 到 0.49
- 强:0.5 到 1
这是根据科恩的标准。