如何找到数值、分类(MCQ-单一响应)和(MCQ-多重响应)之间的相关性?

How to find correlation among numerical, categorical (MCQ-Single Response) and (MCQ-Multiple Response)?

我有一个带有数字的问卷数据集,MCQ-Single Response 和 MCQ-Multiple Response.There 总共有 22 列。数据集看起来像这样:

Age    ChooseTransport   WillgobyTrain  ....
52      1011001                 2
21      1000100                 1
25      1110000                 1
46      0001000                -1
32      1000001                 2

'Age' 是一个数值变量。 'ChooseTransport' 是 MCQ- Multiple response with 7 choices,其中 1 表示用户已选择该选项,0 表示未选择。 'WillgobyTrain' 是一个 MCQ-Single Response 并且有选择号。

我想找到正确的度量来找到这些不同类型变量之间的相关性。

首先你应该将ChooseTransport分成7列然后尝试使用data.corr()(如果你的数据是pandas.DataFrame)。

要拆分 ChooseTransport 试试这个:

for row_index, answer in enumerate(data['ChooseTransport']):
    for i in range(7):
        name = 'ChooseTransport_' + str(i)
        data.loc[row_index, name] = int(answer[i])

然后删除旧列 ChooseTransport:

data.drop(columns=['ChooseTransport'], inplace=True)

最后使用data.corr():

data.corr()  

可视化使用seaborn:

import seaborn as sns
sns.heatmap(data.corr())