如何找到数值、分类(MCQ-单一响应)和(MCQ-多重响应)之间的相关性?
How to find correlation among numerical, categorical (MCQ-Single Response) and (MCQ-Multiple Response)?
我有一个带有数字的问卷数据集,MCQ-Single Response 和 MCQ-Multiple Response.There 总共有 22 列。数据集看起来像这样:
Age ChooseTransport WillgobyTrain ....
52 1011001 2
21 1000100 1
25 1110000 1
46 0001000 -1
32 1000001 2
'Age' 是一个数值变量。 'ChooseTransport' 是 MCQ- Multiple response with 7 choices,其中 1 表示用户已选择该选项,0 表示未选择。 'WillgobyTrain' 是一个 MCQ-Single Response 并且有选择号。
我想找到正确的度量来找到这些不同类型变量之间的相关性。
首先你应该将ChooseTransport
分成7列然后尝试使用data.corr()
(如果你的数据是pandas.DataFrame
)。
要拆分 ChooseTransport
试试这个:
for row_index, answer in enumerate(data['ChooseTransport']):
for i in range(7):
name = 'ChooseTransport_' + str(i)
data.loc[row_index, name] = int(answer[i])
然后删除旧列 ChooseTransport
:
data.drop(columns=['ChooseTransport'], inplace=True)
最后使用data.corr()
:
data.corr()
可视化使用seaborn
:
import seaborn as sns
sns.heatmap(data.corr())
我有一个带有数字的问卷数据集,MCQ-Single Response 和 MCQ-Multiple Response.There 总共有 22 列。数据集看起来像这样:
Age ChooseTransport WillgobyTrain ....
52 1011001 2
21 1000100 1
25 1110000 1
46 0001000 -1
32 1000001 2
'Age' 是一个数值变量。 'ChooseTransport' 是 MCQ- Multiple response with 7 choices,其中 1 表示用户已选择该选项,0 表示未选择。 'WillgobyTrain' 是一个 MCQ-Single Response 并且有选择号。
我想找到正确的度量来找到这些不同类型变量之间的相关性。
首先你应该将ChooseTransport
分成7列然后尝试使用data.corr()
(如果你的数据是pandas.DataFrame
)。
要拆分 ChooseTransport
试试这个:
for row_index, answer in enumerate(data['ChooseTransport']):
for i in range(7):
name = 'ChooseTransport_' + str(i)
data.loc[row_index, name] = int(answer[i])
然后删除旧列 ChooseTransport
:
data.drop(columns=['ChooseTransport'], inplace=True)
最后使用data.corr()
:
data.corr()
可视化使用seaborn
:
import seaborn as sns
sns.heatmap(data.corr())