Pandas - 在方法链中使用 assign 和 if-else 语句
Pandas - using assign and if-else statement in method chaining
我有 R 背景,我正在尝试从 pandas 中的 dplyr 复制 mutate()
函数。
我有一个如下所示的数据框:
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
'age': [42, 52, 36, 24, 73],
'preTestScore': [4, 24, 31, 2, 3],
'postTestScore': [25, 94, 57, 62, 70]}
df = pd.DataFrame(data, columns = ['name', 'age', 'preTestScore', 'postTestScore'])
我现在正在尝试使用 assign
方法创建一个名为 age_bracket
的新列,如下所示:
(df.
assign(age_bracket= lambda x: "under 25" if x['age'] < 25 else
("25-34" if x['age'] < 35 else "35+"))
这引发了以下我无法理解的错误:
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()
我对以下解决方案不感兴趣:
df['age_bracket'] = np.where(df.age < 25, 'under 25',
(np.where(df.age < 35, "25-34", "35+")))
因为我不想改变底层的 df。我正在尝试在方法链接方面做得更好,这样我就可以在不更改底层 df 的情况下以不同的方式快速探索我的 df。
有什么建议吗?
这是可能的,但不推荐,因为循环(在 apply
函数的底层):
df = (df.
assign(age_bracket= lambda x: x['age'].apply(lambda y: "under 25" if y < 25 else
("25-34" if y < 35 else "35+"))))
print (df)
name age preTestScore postTestScore age_bracket
0 Jason 42 4 25 35+
1 Molly 52 24 94 35+
2 Tina 36 31 57 35+
3 Jake 24 2 62 under 25
4 Amy 73 3 70 35+
df = df.assign(age_bracket= np.select([df.age < 25,df.age < 35], ['under 25', "25-34"], "35+"))
但最好在这里使用 cut
:
df = (df.assign(age_bracket= lambda x: pd.cut(x['age'],
bins=[0, 25, 35, 150],
labels=["under 25", "25-34", "35+"])))
为什么不使用 np.where 赋值?
df.assign(age_bracket = np.where(df.age < 25, 'under 25',
(np.where(df.age < 35, "25-34", "35+"))))
您将返回带有新列的原始数据框的副本。
但我同意@jezrael pd.cut
我的意见更好。
输出:
name age preTestScore postTestScore age_bracket
0 Jason 42 4 25 35+
1 Molly 52 24 94 35+
2 Tina 36 31 57 35+
3 Jake 24 2 62 under 25
4 Amy 73 3 70 35+
在 python 中使用与在 R 中相同的语法很容易,使用 datar
:
>>> from datar.all import f, tibble, mutate, if_else
>>>
>>> data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
... 'age': [42, 52, 36, 24, 73],
... 'preTestScore': [4, 24, 31, 2, 3],
... 'postTestScore': [25, 94, 57, 62, 70]}
>>>
>>> df = tibble(**data)
>>> df >> mutate(age_bracket=if_else(
... f.age < 25,
... "under 25",
... if_else(f.age < 35, "25-34", "35+")
... ))
name age preTestScore postTestScore age_bracket
<object> <int64> <int64> <int64> <object>
0 Jason 42 4 25 35+
1 Molly 52 24 94 35+
2 Tina 36 31 57 35+
3 Jake 24 2 62 under 25
4 Amy 73 3 70 35+
免责声明:我是 datar
软件包的作者。
pyjanitor has a case_when implementaton in dev
that could be helpful in this case, the implementation idea is inspired by if_else in pydatatable
and fcase in R's data.table
; under the hood, it uses pd.Series.mask:
# pip install git+https://github.com/pyjanitor-devs/pyjanitor.git
import pandas as pd
import janitor as jn
df.case_when(
df.age.lt(25), 'under 25', # 1st condition, result
df.age.lt(35), '25-34', # 2nd condition, result
'35+', # default
column_name = 'age_bracket')
name age preTestScore postTestScore age_bracket
0 Jason 42 4 25 35+
1 Molly 52 24 94 35+
2 Tina 36 31 57 35+
3 Jake 24 2 62 under 25
4 Amy 73 3 70 35+
但是对于这个用例,由于您是按类别划分的,pd.cut
@jezrael 的解决方案更有效。
我有 R 背景,我正在尝试从 pandas 中的 dplyr 复制 mutate()
函数。
我有一个如下所示的数据框:
data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
'age': [42, 52, 36, 24, 73],
'preTestScore': [4, 24, 31, 2, 3],
'postTestScore': [25, 94, 57, 62, 70]}
df = pd.DataFrame(data, columns = ['name', 'age', 'preTestScore', 'postTestScore'])
我现在正在尝试使用 assign
方法创建一个名为 age_bracket
的新列,如下所示:
(df.
assign(age_bracket= lambda x: "under 25" if x['age'] < 25 else
("25-34" if x['age'] < 35 else "35+"))
这引发了以下我无法理解的错误:
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()
我对以下解决方案不感兴趣:
df['age_bracket'] = np.where(df.age < 25, 'under 25',
(np.where(df.age < 35, "25-34", "35+")))
因为我不想改变底层的 df。我正在尝试在方法链接方面做得更好,这样我就可以在不更改底层 df 的情况下以不同的方式快速探索我的 df。
有什么建议吗?
这是可能的,但不推荐,因为循环(在 apply
函数的底层):
df = (df.
assign(age_bracket= lambda x: x['age'].apply(lambda y: "under 25" if y < 25 else
("25-34" if y < 35 else "35+"))))
print (df)
name age preTestScore postTestScore age_bracket
0 Jason 42 4 25 35+
1 Molly 52 24 94 35+
2 Tina 36 31 57 35+
3 Jake 24 2 62 under 25
4 Amy 73 3 70 35+
df = df.assign(age_bracket= np.select([df.age < 25,df.age < 35], ['under 25', "25-34"], "35+"))
但最好在这里使用 cut
:
df = (df.assign(age_bracket= lambda x: pd.cut(x['age'],
bins=[0, 25, 35, 150],
labels=["under 25", "25-34", "35+"])))
为什么不使用 np.where 赋值?
df.assign(age_bracket = np.where(df.age < 25, 'under 25',
(np.where(df.age < 35, "25-34", "35+"))))
您将返回带有新列的原始数据框的副本。
但我同意@jezrael pd.cut
我的意见更好。
输出:
name age preTestScore postTestScore age_bracket
0 Jason 42 4 25 35+
1 Molly 52 24 94 35+
2 Tina 36 31 57 35+
3 Jake 24 2 62 under 25
4 Amy 73 3 70 35+
在 python 中使用与在 R 中相同的语法很容易,使用 datar
:
>>> from datar.all import f, tibble, mutate, if_else
>>>
>>> data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'],
... 'age': [42, 52, 36, 24, 73],
... 'preTestScore': [4, 24, 31, 2, 3],
... 'postTestScore': [25, 94, 57, 62, 70]}
>>>
>>> df = tibble(**data)
>>> df >> mutate(age_bracket=if_else(
... f.age < 25,
... "under 25",
... if_else(f.age < 35, "25-34", "35+")
... ))
name age preTestScore postTestScore age_bracket
<object> <int64> <int64> <int64> <object>
0 Jason 42 4 25 35+
1 Molly 52 24 94 35+
2 Tina 36 31 57 35+
3 Jake 24 2 62 under 25
4 Amy 73 3 70 35+
免责声明:我是 datar
软件包的作者。
pyjanitor has a case_when implementaton in dev
that could be helpful in this case, the implementation idea is inspired by if_else in pydatatable
and fcase in R's data.table
; under the hood, it uses pd.Series.mask:
# pip install git+https://github.com/pyjanitor-devs/pyjanitor.git
import pandas as pd
import janitor as jn
df.case_when(
df.age.lt(25), 'under 25', # 1st condition, result
df.age.lt(35), '25-34', # 2nd condition, result
'35+', # default
column_name = 'age_bracket')
name age preTestScore postTestScore age_bracket
0 Jason 42 4 25 35+
1 Molly 52 24 94 35+
2 Tina 36 31 57 35+
3 Jake 24 2 62 under 25
4 Amy 73 3 70 35+
但是对于这个用例,由于您是按类别划分的,pd.cut
@jezrael 的解决方案更有效。