Pandas 根据拆分另一列添加新列
Pandas add new columns based on splitting another column
我有一个 pandas 数据框,如下所示:
A B
US,65,AMAZON 2016
US,65,EBAY 2016
我的目标是变成这样:
A B country code com
US.65.AMAZON 2016 US 65 AMAZON
US.65.AMAZON 2016 US 65 EBAY
我知道 here and here 之前有人问过这个问题,但是 none 对我有用。我试过:
df['country','code','com'] = df.Field.str.split('.')
和
df2 = pd.DataFrame(df.Field.str.split('.').tolist(),columns = ['country','code','com','A','B'])
我错过了什么吗?非常感谢任何帮助。
您可以将 split
与参数 expand=True
一起使用,并在左侧添加一个 []
:
df[['country','code','com']] = df.A.str.split(',', expand=True)
然后 replace
,
到 .
:
df.A = df.A.str.replace(',','.')
print (df)
A B country code com
0 US.65.AMAZON 2016 US 65 AMAZON
1 US.65.EBAY 2016 US 65 EBAY
如果没有 NaN
值,则使用 DataFrame
构造函数的另一种解决方案:
df[['country','code','com']] = pd.DataFrame([ x.split(',') for x in df['A'].tolist() ])
df.A = df.A.str.replace(',','.')
print (df)
A B country code com
0 US.65.AMAZON 2016 US 65 AMAZON
1 US.65.EBAY 2016 US 65 EBAY
您也可以在构造函数中使用列名,但是 concat
是必需的:
df1=pd.DataFrame([x.split(',') for x in df['A'].tolist()],columns= ['country','code','com'])
df.A = df.A.str.replace(',','.')
df = pd.concat([df, df1], axis=1)
print (df)
A B country code com
0 US.65.AMAZON 2016 US 65 AMAZON
1 US.65.EBAY 2016 US 65 EBAY
为了获得新的列,我更愿意按如下方式进行:
df['Country'] = df['A'].apply(lambda x: x[0])
df['Code'] = df['A'].apply(lambda x: x[1])
df['Com'] = df['A'].apply(lambda x: x[2])
至于用 . 替换 , 可以使用以下内容:
df['A'] = df['A'].str.replace(',','.')
这不会给出预期的输出
它只会给 df['A'] 第一个值 'U'
可以根据提供的数据创建列
df1=pd.DataFrame([x.split(',') for x in df['A'].tolist()],columns= ['country','code' ,'com'])
代替 lambda 也可以使用
我有一个 pandas 数据框,如下所示:
A B
US,65,AMAZON 2016
US,65,EBAY 2016
我的目标是变成这样:
A B country code com
US.65.AMAZON 2016 US 65 AMAZON
US.65.AMAZON 2016 US 65 EBAY
我知道 here and here 之前有人问过这个问题,但是 none 对我有用。我试过:
df['country','code','com'] = df.Field.str.split('.')
和
df2 = pd.DataFrame(df.Field.str.split('.').tolist(),columns = ['country','code','com','A','B'])
我错过了什么吗?非常感谢任何帮助。
您可以将 split
与参数 expand=True
一起使用,并在左侧添加一个 []
:
df[['country','code','com']] = df.A.str.split(',', expand=True)
然后 replace
,
到 .
:
df.A = df.A.str.replace(',','.')
print (df)
A B country code com
0 US.65.AMAZON 2016 US 65 AMAZON
1 US.65.EBAY 2016 US 65 EBAY
如果没有 NaN
值,则使用 DataFrame
构造函数的另一种解决方案:
df[['country','code','com']] = pd.DataFrame([ x.split(',') for x in df['A'].tolist() ])
df.A = df.A.str.replace(',','.')
print (df)
A B country code com
0 US.65.AMAZON 2016 US 65 AMAZON
1 US.65.EBAY 2016 US 65 EBAY
您也可以在构造函数中使用列名,但是 concat
是必需的:
df1=pd.DataFrame([x.split(',') for x in df['A'].tolist()],columns= ['country','code','com'])
df.A = df.A.str.replace(',','.')
df = pd.concat([df, df1], axis=1)
print (df)
A B country code com
0 US.65.AMAZON 2016 US 65 AMAZON
1 US.65.EBAY 2016 US 65 EBAY
为了获得新的列,我更愿意按如下方式进行:
df['Country'] = df['A'].apply(lambda x: x[0])
df['Code'] = df['A'].apply(lambda x: x[1])
df['Com'] = df['A'].apply(lambda x: x[2])
至于用 . 替换 , 可以使用以下内容:
df['A'] = df['A'].str.replace(',','.')
这不会给出预期的输出 它只会给 df['A'] 第一个值 'U'
可以根据提供的数据创建列 df1=pd.DataFrame([x.split(',') for x in df['A'].tolist()],columns= ['country','code' ,'com'])
代替 lambda 也可以使用