计算字符串列之间的相关性
Calculate correlation between columns of strings
我有一个 df,其中包含专栏 professional 和 media。我想计算这两列之间的相关性。
是否有计算字符串列相关性的小窍门?或者我是否已将每个职业和媒体转换为一个数字,然后计算与 .corr() 的相关性?
我发现了一个类似的问题 (),但我想检查字符串,而不是字符串中的每个单词。
df
profession media
0 media lawyer print
1 student online
2 student print
3 professor online
4 media lawyer online
您可以将数据类型转换为分类,然后执行此操作
df['profession']=df['profession'].astype('category').cat.codes
df['media']=df['media'].astype('category').cat.codes
df.corr()
我有一个 df,其中包含专栏 professional 和 media。我想计算这两列之间的相关性。
是否有计算字符串列相关性的小窍门?或者我是否已将每个职业和媒体转换为一个数字,然后计算与 .corr() 的相关性?
我发现了一个类似的问题 (
df
profession media
0 media lawyer print
1 student online
2 student print
3 professor online
4 media lawyer online
您可以将数据类型转换为分类,然后执行此操作
df['profession']=df['profession'].astype('category').cat.codes
df['media']=df['media'].astype('category').cat.codes
df.corr()