如何加入 pandas 数据框,以便 seaborn boxplot 或 violinplot 可以使用列作为色调?
How to join pandas dataframe so that seaborn boxplot or violinplot can use a column as hue?
我有一个包含多列的数据框,我可以轻松地使用 seaborn 将其绘制在箱线图(或小提琴图等)中,如下所示:
data1 = {'p0':[1.,2.,5,0.], 'p1':[2., 1.,1,3], 'p2':[3., 3.,2., 4.]}
df1 = pd.DataFrame.from_dict(data1)
sns.boxplot(data=df1)
我现在需要的是将这个数据框与另一个数据框合并,这样我就可以将它们绘制在一个箱线图中,就像这里所做的那样:http://seaborn.pydata.org/examples/grouped_boxplot.html
我试过添加一列并连接。结果似乎还可以
data1 = {'p0':[1.,2.,5,0.], 'p1':[2., 1.,1,3], 'p2':[3., 3.,2., 4.]}
data2 = {'p0':[3.,1.,5,1.], 'p1':[3., 2.,3,3], 'p2':[1., 2.,2., 5.]}
df1 = pd.DataFrame.from_dict(data1)
df1['method'] = 'A'
df2 = pd.DataFrame.from_dict(data2)
df2['method'] = 'B'
df_all = pd.concat([df1,df2])
sns.boxplot(data=df_all)
这可行,但它将方法 A 和 B 的数据绘制在一起。然而这失败了:
sns.boxplot(data=df_all, hue='method')
因为我需要指定 x 和 y。如果我将 x 指定为 x=['p0', 'p1', 'p2']
,则对 3 列进行平均。
所以我想我可以用不同的方式合并数据帧,这样它的表示就很简单了。
sns.boxplot(data=df1, hue='method')
仅包含第一个数据帧 (df1
) 的信息。如果您只使用 df1
,df1["method"]
中的所有行都具有相同的值 ("A"),因此所有行的颜色都相同。
一个选项是连接两个数据帧;例如:
result = pd.concat([df1, df2])
sns.boxplot(data=result, hue='method')
更新问题:
如果传递 data=pandas.Dataframe()
作为参数,则应使用数据框的列名定义 x
和 y
参数。
试试这个:
fig,ax = plt.subplots(1,2,sharey=True)
for i,g in enumerate(df_all.groupby(by=df_all.method)):
sns.boxplot(g[1],ax=ax[i])
ax[i].set_title(g[0])
结果:
我认为要使它以简单的方式工作,这里需要的是像这样的数据框:
value method p
1.0 A p0
2.1 A p0
3.0 A p1
1.3 B p0
4.3 B p1
然后你可以用sns.boxplot(data=df, hue='method', x='p', y='value')
得到你想要的
我正在研究如何将 df1 和 df2 轻松合并到像这样的数据框中,但我并不是真正的 pandas 专家。
编辑:想通了,需要用到melt
方法:
df3 = pd.concat([df1.melt(id_vars='method', var_name='p'),
df2.melt(id_vars='method', var_name='p')],
ignore_index=True)
sns.boxplot(x='p', y='value', hue='method', data=df3)
我有一个包含多列的数据框,我可以轻松地使用 seaborn 将其绘制在箱线图(或小提琴图等)中,如下所示:
data1 = {'p0':[1.,2.,5,0.], 'p1':[2., 1.,1,3], 'p2':[3., 3.,2., 4.]}
df1 = pd.DataFrame.from_dict(data1)
sns.boxplot(data=df1)
我现在需要的是将这个数据框与另一个数据框合并,这样我就可以将它们绘制在一个箱线图中,就像这里所做的那样:http://seaborn.pydata.org/examples/grouped_boxplot.html
我试过添加一列并连接。结果似乎还可以
data1 = {'p0':[1.,2.,5,0.], 'p1':[2., 1.,1,3], 'p2':[3., 3.,2., 4.]}
data2 = {'p0':[3.,1.,5,1.], 'p1':[3., 2.,3,3], 'p2':[1., 2.,2., 5.]}
df1 = pd.DataFrame.from_dict(data1)
df1['method'] = 'A'
df2 = pd.DataFrame.from_dict(data2)
df2['method'] = 'B'
df_all = pd.concat([df1,df2])
sns.boxplot(data=df_all)
这可行,但它将方法 A 和 B 的数据绘制在一起。然而这失败了:
sns.boxplot(data=df_all, hue='method')
因为我需要指定 x 和 y。如果我将 x 指定为 x=['p0', 'p1', 'p2']
,则对 3 列进行平均。
所以我想我可以用不同的方式合并数据帧,这样它的表示就很简单了。
sns.boxplot(data=df1, hue='method')
仅包含第一个数据帧 (df1
) 的信息。如果您只使用 df1
,df1["method"]
中的所有行都具有相同的值 ("A"),因此所有行的颜色都相同。
一个选项是连接两个数据帧;例如:
result = pd.concat([df1, df2])
sns.boxplot(data=result, hue='method')
更新问题:
如果传递 data=pandas.Dataframe()
作为参数,则应使用数据框的列名定义 x
和 y
参数。
试试这个:
fig,ax = plt.subplots(1,2,sharey=True)
for i,g in enumerate(df_all.groupby(by=df_all.method)):
sns.boxplot(g[1],ax=ax[i])
ax[i].set_title(g[0])
结果:
我认为要使它以简单的方式工作,这里需要的是像这样的数据框:
value method p
1.0 A p0
2.1 A p0
3.0 A p1
1.3 B p0
4.3 B p1
然后你可以用sns.boxplot(data=df, hue='method', x='p', y='value')
我正在研究如何将 df1 和 df2 轻松合并到像这样的数据框中,但我并不是真正的 pandas 专家。
编辑:想通了,需要用到melt
方法:
df3 = pd.concat([df1.melt(id_vars='method', var_name='p'),
df2.melt(id_vars='method', var_name='p')],
ignore_index=True)
sns.boxplot(x='p', y='value', hue='method', data=df3)