我可以使用 pd.cut 和 reg.expressions 来划分客舱值（泰坦尼克号数据集）吗？

Question

数据集 Cabin_hunt 中的样本如下所示：

     Fare      Cabin  Pclass   Ticket  \
583  40.1250   A10       1     13049   
208  27.7208   A11       1  PC 17613   
475  52.0000   A14       1    110465   
556  39.6000   A16       1     11755   
331  29.7000   A18       1  PC 17580   
284  26.0000   A19       1    113056   
599  56.9292   A20       1  PC 17485   
737  512.3292  B101      1  PC 17755   
815   0.0000   B102      1    112058   
215  42.5000   B11       1    113038   
329  57.9792   B18       1    111361   
523  57.9792   B18       1    111361   
269  135.6333  C99       1  PC 17760   
97   63.3583   D10 D12   1  PC 17759   
350  63.3583   D10 D12   3  PC 17759   
765  77.9583   D11       3     13502

我想按首字母将小木屋分组，但我不想删除后面的数字，因为我可能想根据各自的数字进一步划分每个组。

创建组后，我计划绘制由 Pclasses 分隔的每个组，以查看 Cabin 字母和 Pclass 之间的任何相关性。

我正在考虑使用 pd.cut 但似乎我必须使用正则表达式？ d =pd.cut(Cabin_hunt.Cabin,('A','B','C','D','E','F' ,'G')

我试图用方括号表示一组字符，如下所示：

'A[0-9][0-9]'

但是我不知道如何激活括号的特殊用法。

尽管如此，如果我使用 pd.cut 按字母分割 'Cabins'，我将只能访问该列，对吗？看起来不是整个数据框。我希望能够同时绘制 Cabin 和 PClass。

谢谢。

Answer 1

使用 groupby 和 Cabin_hunt.Cabin.str[0]

Cabin_hunt.groupby([Cabin_hunt.Cabin.str[0], Cabin_hunt.Pclass]).size().unstack()

我可以使用 pd.cut 和 reg.expressions 来划分客舱值（泰坦尼克号数据集）吗？

Can I use pd.cut with reg.expressions to divide up the cabin values (Titanic Dataset)?

regex

pandas

seaborn