Pandas 根据拆分另一列添加新列

Question

我有一个 pandas 数据框，如下所示：

A              B
US,65,AMAZON   2016
US,65,EBAY     2016

我的目标是变成这样：

A              B      country    code    com
US.65.AMAZON   2016   US         65      AMAZON
US.65.AMAZON   2016   US         65      EBAY

我知道 here and here 之前有人问过这个问题，但是 none 对我有用。我试过：

df['country','code','com'] = df.Field.str.split('.')

和

df2 = pd.DataFrame(df.Field.str.split('.').tolist(),columns = ['country','code','com','A','B'])

我错过了什么吗？非常感谢任何帮助。

Answer 1

您可以将 split 与参数 expand=True 一起使用，并在左侧添加一个 []：

df[['country','code','com']] = df.A.str.split(',', expand=True)

然后 replace , 到 .:

df.A = df.A.str.replace(',','.')

print (df)
              A     B country code     com
0  US.65.AMAZON  2016      US   65  AMAZON
1    US.65.EBAY  2016      US   65    EBAY

如果没有 NaN 值，则使用 DataFrame 构造函数的另一种解决方案：

df[['country','code','com']] = pd.DataFrame([ x.split(',') for x in df['A'].tolist() ])
df.A = df.A.str.replace(',','.')
print (df)
              A     B country code     com
0  US.65.AMAZON  2016      US   65  AMAZON
1    US.65.EBAY  2016      US   65    EBAY

您也可以在构造函数中使用列名，但是 concat 是必需的：

df1=pd.DataFrame([x.split(',') for x in df['A'].tolist()],columns= ['country','code','com'])
df.A = df.A.str.replace(',','.')
df = pd.concat([df, df1], axis=1)
print (df)
              A     B country code     com
0  US.65.AMAZON  2016      US   65  AMAZON
1    US.65.EBAY  2016      US   65    EBAY

Answer 2

为了获得新的列，我更愿意按如下方式进行：

df['Country'] = df['A'].apply(lambda x: x[0])
df['Code'] = df['A'].apply(lambda x: x[1])
df['Com'] = df['A'].apply(lambda x: x[2])

至于用 . 替换 , 可以使用以下内容：

df['A'] = df['A'].str.replace(',','.')

Answer 3

这不会给出预期的输出它只会给 df['A'] 第一个值 'U'

可以根据提供的数据创建列 df1=pd.DataFrame([x.split(',') for x in df['A'].tolist()],columns= ['country','code' ,'com'])

代替 lambda 也可以使用

Pandas 根据拆分另一列添加新列

Pandas add new columns based on splitting another column

python

split

multiple-columns

dataframe

pandas