使用多列条件创建变量 (PANDAS)

Question

我有一个名为 HouseholdSize 的列和一个名为 Independent 的列。如果 HouseholdSize 等于 1 且 Independent 不等于 1，我想创建一个等于 1 的变量。我当前的代码如下所示：

        df["HH1flag"] = df.where((df.HouseholdSize ==1) & (df.Independent != 1).notnull().astype(int))
            HH1flag = df[df.HH1flag == 1]
            pd.DataFrame(HH1flag, columns=["LocIdent","HouseholdSize","Independent"]).to_csv(Targcsv, mode='ab')

我收到以下错误： AttributeError: 'float' 对象没有属性 'all'

编辑：在 EdChum 的帮助下，我为这个问题添加了更多信息。我修改后的代码的简化版本如下所示：

import pandas as pd
from pandas import *
import csv

FileName='HouseholdSizeTest.xlsx'
data=pd.read_excel(FileName,'Sheet1')
df=pd.DataFrame(data)
Targcsv=('target.csv')

HH1Text= [['Table C.1 HouseholdSize Check 1']]
with open(Targcsv,'ab') as f:
    titles=csv.writer(f)
    titles.writerow([])
    titles.writerows(HH1Text)
    titles.writerow([])

df["HH1flag"] = df[(df.HouseholdSize ==1) & (df.Independent != 1)].notnull().astype(int)
HH1flag = df[df.HH1flag == 1]
pd.DataFrame(HH1flag, columns=["LocIdent","HouseholdSize","Independent"]).to_csv(Targcsv, mode='ab')

同一行出现新错误。错误是 ValueError：传递的项目数量错误 3，placement implies 1。我正在努力将数据以正确的格式放入此编辑中，但请想象三种情况。第一个 Independent=1 且 HouseholdSize=1，第二个 Independent=0 且 HouseholdSize=3，第三个 Independent=47 且 HouseholdSize=1。对于第三种情况，HH1flag应该等于1。

Answer 1

如果你想要一个指标列那么你可以使用np.where:

df["HH1flag"] = np.where((df.HouseholdSize ==1) & (df.Independent != 1), 1, 0)

所以这使用传入的条件，如果为真 returns 1，如果为假则 returns 0.

我的第一个建议没有奏效的原因是这个 returns 一个包含多个列值的系列，这不是您想要的。

当你做了 df.where 它不喜欢尝试投射你的系列并提出 AttributeError:

AttributeError: 'float' object has no attribute 'all'

我不知道为什么会这样，您的数据没有什么特别之处，因为我能够使用仅包含整数的简单 df 重现此数据。

使用多列条件创建变量 (PANDAS)

Creating Variable by Using Criteria From Multiple Columns (PANDAS)

python

python-2.7

pandas