皮尔逊相关系数,这是正确的方法吗?
Pearson correlation coefficient, is it the right way?
我有两个数据集,我想找出它们的相关程度。
数据集代表两支球队的比赛结果,1代表胜,0代表平,-1代表负。
例如5 场比赛
team1 = [1,1,0,-1,0]
team2 = [0,1,0,1,0]
计算皮尔逊相关系数直到一支球队赢得最后 5 场比赛为止都很好,因此是一个常量数组,例如
team1 = [1,1,1,1,1]
在这种情况下,无论 team2 做了什么,皮尔逊相关系数都将是未定义的。
我觉得这很奇怪,因为如果 team2 也赢得了 5 场比赛的大部分比赛,那么相关性实际上应该接近 1,而不是未定义。
反之,如果team2输掉大部分比赛,根据我的理解,相关性应该接近-1。
我是不是做错了什么?或者我的数据需要另一种方法来找出数据集之间的关系有多强?
提前致谢
所以,我找到了这个好资源:
http://www.ashukumar27.io/similarity_functions/
我想我会选择更适合我的用例的欧氏距离
我有两个数据集,我想找出它们的相关程度。
数据集代表两支球队的比赛结果,1代表胜,0代表平,-1代表负。
例如5 场比赛
team1 = [1,1,0,-1,0]
team2 = [0,1,0,1,0]
计算皮尔逊相关系数直到一支球队赢得最后 5 场比赛为止都很好,因此是一个常量数组,例如
team1 = [1,1,1,1,1]
在这种情况下,无论 team2 做了什么,皮尔逊相关系数都将是未定义的。
我觉得这很奇怪,因为如果 team2 也赢得了 5 场比赛的大部分比赛,那么相关性实际上应该接近 1,而不是未定义。
反之,如果team2输掉大部分比赛,根据我的理解,相关性应该接近-1。
我是不是做错了什么?或者我的数据需要另一种方法来找出数据集之间的关系有多强?
提前致谢
所以,我找到了这个好资源: http://www.ashukumar27.io/similarity_functions/
我想我会选择更适合我的用例的欧氏距离