我可以使用 pd.cut 和 reg.expressions 来划分客舱值(泰坦尼克号数据集)吗?
Can I use pd.cut with reg.expressions to divide up the cabin values (Titanic Dataset)?
数据集 Cabin_hunt 中的样本如下所示:
Fare Cabin Pclass Ticket \
583 40.1250 A10 1 13049
208 27.7208 A11 1 PC 17613
475 52.0000 A14 1 110465
556 39.6000 A16 1 11755
331 29.7000 A18 1 PC 17580
284 26.0000 A19 1 113056
599 56.9292 A20 1 PC 17485
737 512.3292 B101 1 PC 17755
815 0.0000 B102 1 112058
215 42.5000 B11 1 113038
329 57.9792 B18 1 111361
523 57.9792 B18 1 111361
269 135.6333 C99 1 PC 17760
97 63.3583 D10 D12 1 PC 17759
350 63.3583 D10 D12 3 PC 17759
765 77.9583 D11 3 13502
我想按首字母将小木屋分组,但我不想删除后面的数字,因为我可能想根据各自的数字进一步划分每个组。
创建组后,我计划绘制由 Pclasses 分隔的每个组,以查看 Cabin 字母和 Pclass 之间的任何相关性。
我正在考虑使用 pd.cut 但似乎我必须使用正则表达式?
d =pd.cut(Cabin_hunt.Cabin,('A','B','C','D','E','F' ,'G')
我试图用方括号表示一组字符,如下所示:
'A[0-9][0-9]'
但是我不知道如何激活括号的特殊用法。
尽管如此,如果我使用 pd.cut 按字母分割 'Cabins',我将只能访问该列,对吗?看起来不是整个数据框。我希望能够同时绘制 Cabin 和 PClass。
谢谢。
使用 groupby
和 Cabin_hunt.Cabin.str[0]
Cabin_hunt.groupby([Cabin_hunt.Cabin.str[0], Cabin_hunt.Pclass]).size().unstack()
数据集 Cabin_hunt 中的样本如下所示:
Fare Cabin Pclass Ticket \
583 40.1250 A10 1 13049
208 27.7208 A11 1 PC 17613
475 52.0000 A14 1 110465
556 39.6000 A16 1 11755
331 29.7000 A18 1 PC 17580
284 26.0000 A19 1 113056
599 56.9292 A20 1 PC 17485
737 512.3292 B101 1 PC 17755
815 0.0000 B102 1 112058
215 42.5000 B11 1 113038
329 57.9792 B18 1 111361
523 57.9792 B18 1 111361
269 135.6333 C99 1 PC 17760
97 63.3583 D10 D12 1 PC 17759
350 63.3583 D10 D12 3 PC 17759
765 77.9583 D11 3 13502
我想按首字母将小木屋分组,但我不想删除后面的数字,因为我可能想根据各自的数字进一步划分每个组。
创建组后,我计划绘制由 Pclasses 分隔的每个组,以查看 Cabin 字母和 Pclass 之间的任何相关性。
我正在考虑使用 pd.cut 但似乎我必须使用正则表达式? d =pd.cut(Cabin_hunt.Cabin,('A','B','C','D','E','F' ,'G')
我试图用方括号表示一组字符,如下所示:
'A[0-9][0-9]'
但是我不知道如何激活括号的特殊用法。
尽管如此,如果我使用 pd.cut 按字母分割 'Cabins',我将只能访问该列,对吗?看起来不是整个数据框。我希望能够同时绘制 Cabin 和 PClass。
谢谢。
使用 groupby
和 Cabin_hunt.Cabin.str[0]
Cabin_hunt.groupby([Cabin_hunt.Cabin.str[0], Cabin_hunt.Pclass]).size().unstack()