Pandas

Question

我有 R 背景，我正在尝试从 pandas 中的 dplyr 复制 mutate() 函数。

我有一个如下所示的数据框：

data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'age': [42, 52, 36, 24, 73], 
        'preTestScore': [4, 24, 31, 2, 3],
        'postTestScore': [25, 94, 57, 62, 70]}
df = pd.DataFrame(data, columns = ['name', 'age', 'preTestScore', 'postTestScore'])

我现在正在尝试使用 assign 方法创建一个名为 age_bracket 的新列，如下所示：

(df.
    assign(age_bracket= lambda x: "under 25" if x['age'] < 25 else
        ("25-34" if x['age'] < 35 else "35+"))

这引发了以下我无法理解的错误：

ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all()

我对以下解决方案不感兴趣：

df['age_bracket'] = np.where(df.age < 25, 'under 25',
     (np.where(df.age < 35, "25-34", "35+")))

因为我不想改变底层的 df。我正在尝试在方法链接方面做得更好，这样我就可以在不更改底层 df 的情况下以不同的方式快速探索我的 df。

有什么建议吗？

Answer 1

这是可能的，但不推荐，因为循环（在 apply 函数的底层）：

df = (df.
    assign(age_bracket= lambda x: x['age'].apply(lambda y: "under 25" if y < 25 else
        ("25-34" if y < 35 else "35+"))))
print (df)
    name  age  preTestScore  postTestScore age_bracket
0  Jason   42             4             25         35+
1  Molly   52            24             94         35+
2   Tina   36            31             57         35+
3   Jake   24             2             62    under 25
4    Amy   73             3             70         35+

或numpy.select:

df = df.assign(age_bracket= np.select([df.age < 25,df.age < 35], ['under 25', "25-34"], "35+"))

但最好在这里使用 cut:

df = (df.assign(age_bracket= lambda x: pd.cut(x['age'], 
                                              bins=[0, 25, 35, 150],
                                              labels=["under 25", "25-34", "35+"])))

Answer 2

为什么不使用 np.where 赋值？

df.assign(age_bracket = np.where(df.age < 25, 'under 25',
     (np.where(df.age < 35, "25-34", "35+"))))

您将返回带有新列的原始数据框的副本。

但我同意@jezrael pd.cut 我的意见更好。

输出：

    name  age  preTestScore  postTestScore age_bracket
0  Jason   42             4             25         35+
1  Molly   52            24             94         35+
2   Tina   36            31             57         35+
3   Jake   24             2             62    under 25
4    Amy   73             3             70         35+

Answer 3

在 python 中使用与在 R 中相同的语法很容易，使用 datar:

>>> from datar.all import f, tibble, mutate, if_else
>>> 
>>> data = {'name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
...         'age': [42, 52, 36, 24, 73], 
...         'preTestScore': [4, 24, 31, 2, 3],
...         'postTestScore': [25, 94, 57, 62, 70]}
>>> 
>>> df = tibble(**data)
>>> df >> mutate(age_bracket=if_else(
...   f.age < 25, 
...   "under 25",
...   if_else(f.age < 35, "25-34", "35+")
... ))
      name     age  preTestScore  postTestScore age_bracket
  <object> <int64>       <int64>        <int64>    <object>
0    Jason      42             4             25         35+
1    Molly      52            24             94         35+
2     Tina      36            31             57         35+
3     Jake      24             2             62    under 25
4      Amy      73             3             70         35+

免责声明：我是 datar 软件包的作者。

Answer 4

pyjanitor has a case_when implementaton in dev that could be helpful in this case, the implementation idea is inspired by if_else in pydatatable and fcase in R's data.table; under the hood, it uses pd.Series.mask:

# pip install git+https://github.com/pyjanitor-devs/pyjanitor.git
import pandas as pd
import janitor as jn

df.case_when(
   df.age.lt(25), 'under 25',  # 1st condition, result
   df.age.lt(35), '25-34',    # 2nd condition, result
   '35+',                     # default
   column_name = 'age_bracket')

    name  age  preTestScore  postTestScore age_bracket
0  Jason   42             4             25         35+
1  Molly   52            24             94         35+
2   Tina   36            31             57         35+
3   Jake   24             2             62    under 25
4    Amy   73             3             70         35+

但是对于这个用例，由于您是按类别划分的，pd.cut @jezrael 的解决方案更有效。

Pandas - 在方法链中使用 assign 和 if-else 语句

Pandas - using assign and if-else statement in method chaining

python

method-chaining

dplyr