Python、pandas 将列一分为二
Python, pandas splitting column into two
我有一个包含多列的数据框,其中一列是日期列。目前该列中的数据采用以下形式:02/01/2012 9:30
但是我想将其分成两个单独的列,date:02/01/2012 和时间:9:30
我找到了以下解决方案:
df = pd.DataFrame(df.date.str.split(' ',1).tolist(), columns = ['date','time'])
然而,这会创建一个新的数据框,其中仅包含两个新的拆分列,而不包含其他列。
有没有办法在不创建新数据框的情况下拆分现有数据框的列?
解决此问题的计算效率最高的方法是什么? (我正在处理的数据集包含大约 2000 万行)
试试这个:
df[['date','time']] = df.pop('date').str.split(expand=True)
演示
In [274]: df
Out[274]:
date
0 02/01/2012 9:30
1 02/01/2012 9:30
2 02/01/2012 9:30
In [275]: df[['date','time']] = df.pop('date').str.split(expand=True)
In [276]: df
Out[276]:
date time
0 02/01/2012 9:30
1 02/01/2012 9:30
2 02/01/2012 9:30
如果您的 date
列是字符串,而您只想拆分它们...那么这应该可行
date_time = df.date.str.split(expand=True).rename(columns={0: 'date', 1: 'time'})
df = df.drop('date', 1).join(date_time)
print(df)
A B date time
0 1 2 02/01/2012 9:30
设置
假设一个数据帧df
df = pd.DataFrame(dict(date=['02/01/2012 9:30'], A=[1], B=[2]))
print(df)
A B date
0 1 2 02/01/2012 9:30
但是,假设您的 date
列实际上是日期时间
df = pd.DataFrame(dict(date=pd.to_datetime(['02/01/2012 9:30']), A=[1], B=[2]))
print(df)
A B date
0 1 2 2012-02-01 09:30:00
然后我们
df = df.assign(date=df.date.dt.date, time=df.date.dt.time)
print(df)
A B date
0 1 2 2012-02-01 09:30:00
我有一个包含多列的数据框,其中一列是日期列。目前该列中的数据采用以下形式:02/01/2012 9:30
但是我想将其分成两个单独的列,date:02/01/2012 和时间:9:30
我找到了以下解决方案:
df = pd.DataFrame(df.date.str.split(' ',1).tolist(), columns = ['date','time'])
然而,这会创建一个新的数据框,其中仅包含两个新的拆分列,而不包含其他列。
有没有办法在不创建新数据框的情况下拆分现有数据框的列?
解决此问题的计算效率最高的方法是什么? (我正在处理的数据集包含大约 2000 万行)
试试这个:
df[['date','time']] = df.pop('date').str.split(expand=True)
演示
In [274]: df
Out[274]:
date
0 02/01/2012 9:30
1 02/01/2012 9:30
2 02/01/2012 9:30
In [275]: df[['date','time']] = df.pop('date').str.split(expand=True)
In [276]: df
Out[276]:
date time
0 02/01/2012 9:30
1 02/01/2012 9:30
2 02/01/2012 9:30
如果您的 date
列是字符串,而您只想拆分它们...那么这应该可行
date_time = df.date.str.split(expand=True).rename(columns={0: 'date', 1: 'time'})
df = df.drop('date', 1).join(date_time)
print(df)
A B date time
0 1 2 02/01/2012 9:30
设置
假设一个数据帧df
df = pd.DataFrame(dict(date=['02/01/2012 9:30'], A=[1], B=[2]))
print(df)
A B date
0 1 2 02/01/2012 9:30
但是,假设您的 date
列实际上是日期时间
df = pd.DataFrame(dict(date=pd.to_datetime(['02/01/2012 9:30']), A=[1], B=[2]))
print(df)
A B date
0 1 2 2012-02-01 09:30:00
然后我们
df = df.assign(date=df.date.dt.date, time=df.date.dt.time)
print(df)
A B date
0 1 2 2012-02-01 09:30:00