将多个列值合并为 python pandas 中的一列
Merge multiple column values into one column in python pandas
我有一个这样的 pandas 数据框:
Column1 Column2 Column3 Column4 Column5
0 a 1 2 3 4
1 a 3 4 5
2 b 6 7 8
3 c 7 7
我现在要做的是获取一个包含 Column1 和一个新的 columnA 的新数据框。此 columnA 应包含列 2 -(to) n 的所有值(其中 n 是从 Column2 到行末的列数),如下所示:
Column1 ColumnA
0 a 1,2,3,4
1 a 3,4,5
2 b 6,7,8
3 c 7,7
我怎样才能最好地解决这个问题?任何意见将是有益的。提前致谢!
您可以按行调用 apply
将 axis=1
传递给 apply
,然后将 dtype 转换为 str
和 join
:
In [153]:
df['ColumnA'] = df[df.columns[1:]].apply(
lambda x: ','.join(x.dropna().astype(str)),
axis=1
)
df
Out[153]:
Column1 Column2 Column3 Column4 Column5 ColumnA
0 a 1 2 3 4 1,2,3,4
1 a 3 4 5 NaN 3,4,5
2 b 6 7 8 NaN 6,7,8
3 c 7 7 NaN NaN 7,7
在这里我调用 dropna
来摆脱 NaN
,但是我们需要再次转换为 int
所以我们不会以浮点数作为 str.
我建议使用.assign
df2 = df.assign(ColumnA = df.Column2.astype(str) + ', ' + \
df.Column3.astype(str) + ', ' df.Column4.astype(str) + ', ' \
df.Column4.astype(str) + ', ' df.Column5.astype(str))
它很简单,可能很长,但对我有用
如果你有很多列,比如说 - 数据框中有 1000 列,你想根据 particular column name
合并几列,例如-Column2
有问题和任意号。该列之后的列数(例如,'Column2
之后的 3 列,包括 OP 要求的 Column2
)。
我们可以使用 .get_loc()
- as answered
获取列的位置
source_col_loc = df.columns.get_loc('Column2') # column position starts from 0
df['ColumnA'] = df.iloc[:,source_col_loc+1:source_col_loc+4].apply(
lambda x: ",".join(x.astype(str)), axis=1)
df
Column1 Column2 Column3 Column4 Column5 ColumnA
0 a 1 2 3 4 1,2,3,4
1 a 3 4 5 NaN 3,4,5
2 b 6 7 8 NaN 6,7,8
3 c 7 7 NaN NaN 7,7
要删除 NaN
,请使用 .dropna()
or .fillna()
希望对您有所帮助!
我有一个这样的 pandas 数据框:
Column1 Column2 Column3 Column4 Column5
0 a 1 2 3 4
1 a 3 4 5
2 b 6 7 8
3 c 7 7
我现在要做的是获取一个包含 Column1 和一个新的 columnA 的新数据框。此 columnA 应包含列 2 -(to) n 的所有值(其中 n 是从 Column2 到行末的列数),如下所示:
Column1 ColumnA
0 a 1,2,3,4
1 a 3,4,5
2 b 6,7,8
3 c 7,7
我怎样才能最好地解决这个问题?任何意见将是有益的。提前致谢!
您可以按行调用 apply
将 axis=1
传递给 apply
,然后将 dtype 转换为 str
和 join
:
In [153]:
df['ColumnA'] = df[df.columns[1:]].apply(
lambda x: ','.join(x.dropna().astype(str)),
axis=1
)
df
Out[153]:
Column1 Column2 Column3 Column4 Column5 ColumnA
0 a 1 2 3 4 1,2,3,4
1 a 3 4 5 NaN 3,4,5
2 b 6 7 8 NaN 6,7,8
3 c 7 7 NaN NaN 7,7
在这里我调用 dropna
来摆脱 NaN
,但是我们需要再次转换为 int
所以我们不会以浮点数作为 str.
我建议使用.assign
df2 = df.assign(ColumnA = df.Column2.astype(str) + ', ' + \
df.Column3.astype(str) + ', ' df.Column4.astype(str) + ', ' \
df.Column4.astype(str) + ', ' df.Column5.astype(str))
它很简单,可能很长,但对我有用
如果你有很多列,比如说 - 数据框中有 1000 列,你想根据 particular column name
合并几列,例如-Column2
有问题和任意号。该列之后的列数(例如,'Column2
之后的 3 列,包括 OP 要求的 Column2
)。
我们可以使用 .get_loc()
- as answered
source_col_loc = df.columns.get_loc('Column2') # column position starts from 0
df['ColumnA'] = df.iloc[:,source_col_loc+1:source_col_loc+4].apply(
lambda x: ",".join(x.astype(str)), axis=1)
df
Column1 Column2 Column3 Column4 Column5 ColumnA
0 a 1 2 3 4 1,2,3,4
1 a 3 4 5 NaN 3,4,5
2 b 6 7 8 NaN 6,7,8
3 c 7 7 NaN NaN 7,7
要删除 NaN
,请使用 .dropna()
or .fillna()
希望对您有所帮助!