使用多列条件创建变量 (PANDAS)
Creating Variable by Using Criteria From Multiple Columns (PANDAS)
我有一个名为 HouseholdSize 的列和一个名为 Independent 的列。如果 HouseholdSize 等于 1 且 Independent 不等于 1,我想创建一个等于 1 的变量。我当前的代码如下所示:
df["HH1flag"] = df.where((df.HouseholdSize ==1) & (df.Independent != 1).notnull().astype(int))
HH1flag = df[df.HH1flag == 1]
pd.DataFrame(HH1flag, columns=["LocIdent","HouseholdSize","Independent"]).to_csv(Targcsv, mode='ab')
我收到以下错误:
AttributeError: 'float' 对象没有属性 'all'
编辑:在 EdChum 的帮助下,我为这个问题添加了更多信息。我修改后的代码的简化版本如下所示:
import pandas as pd
from pandas import *
import csv
FileName='HouseholdSizeTest.xlsx'
data=pd.read_excel(FileName,'Sheet1')
df=pd.DataFrame(data)
Targcsv=('target.csv')
HH1Text= [['Table C.1 HouseholdSize Check 1']]
with open(Targcsv,'ab') as f:
titles=csv.writer(f)
titles.writerow([])
titles.writerows(HH1Text)
titles.writerow([])
df["HH1flag"] = df[(df.HouseholdSize ==1) & (df.Independent != 1)].notnull().astype(int)
HH1flag = df[df.HH1flag == 1]
pd.DataFrame(HH1flag, columns=["LocIdent","HouseholdSize","Independent"]).to_csv(Targcsv, mode='ab')
同一行出现新错误。错误是 ValueError:传递的项目数量错误 3,placement implies 1。我正在努力将数据以正确的格式放入此编辑中,但请想象三种情况。第一个 Independent=1 且 HouseholdSize=1,第二个 Independent=0 且 HouseholdSize=3,第三个 Independent=47 且 HouseholdSize=1。对于第三种情况,HH1flag应该等于1。
如果你想要一个指标列那么你可以使用np.where
:
df["HH1flag"] = np.where((df.HouseholdSize ==1) & (df.Independent != 1), 1, 0)
所以这使用传入的条件,如果为真 returns 1,如果为假则 returns 0.
我的第一个建议没有奏效的原因是这个 returns 一个包含多个列值的系列,这不是您想要的。
当你做了 df.where
它不喜欢尝试投射你的系列并提出 AttributeError
:
AttributeError: 'float' object has no attribute 'all'
我不知道为什么会这样,您的数据没有什么特别之处,因为我能够使用仅包含整数的简单 df 重现此数据。
我有一个名为 HouseholdSize 的列和一个名为 Independent 的列。如果 HouseholdSize 等于 1 且 Independent 不等于 1,我想创建一个等于 1 的变量。我当前的代码如下所示:
df["HH1flag"] = df.where((df.HouseholdSize ==1) & (df.Independent != 1).notnull().astype(int))
HH1flag = df[df.HH1flag == 1]
pd.DataFrame(HH1flag, columns=["LocIdent","HouseholdSize","Independent"]).to_csv(Targcsv, mode='ab')
我收到以下错误: AttributeError: 'float' 对象没有属性 'all'
编辑:在 EdChum 的帮助下,我为这个问题添加了更多信息。我修改后的代码的简化版本如下所示:
import pandas as pd
from pandas import *
import csv
FileName='HouseholdSizeTest.xlsx'
data=pd.read_excel(FileName,'Sheet1')
df=pd.DataFrame(data)
Targcsv=('target.csv')
HH1Text= [['Table C.1 HouseholdSize Check 1']]
with open(Targcsv,'ab') as f:
titles=csv.writer(f)
titles.writerow([])
titles.writerows(HH1Text)
titles.writerow([])
df["HH1flag"] = df[(df.HouseholdSize ==1) & (df.Independent != 1)].notnull().astype(int)
HH1flag = df[df.HH1flag == 1]
pd.DataFrame(HH1flag, columns=["LocIdent","HouseholdSize","Independent"]).to_csv(Targcsv, mode='ab')
同一行出现新错误。错误是 ValueError:传递的项目数量错误 3,placement implies 1。我正在努力将数据以正确的格式放入此编辑中,但请想象三种情况。第一个 Independent=1 且 HouseholdSize=1,第二个 Independent=0 且 HouseholdSize=3,第三个 Independent=47 且 HouseholdSize=1。对于第三种情况,HH1flag应该等于1。
如果你想要一个指标列那么你可以使用np.where
:
df["HH1flag"] = np.where((df.HouseholdSize ==1) & (df.Independent != 1), 1, 0)
所以这使用传入的条件,如果为真 returns 1,如果为假则 returns 0.
我的第一个建议没有奏效的原因是这个 returns 一个包含多个列值的系列,这不是您想要的。
当你做了 df.where
它不喜欢尝试投射你的系列并提出 AttributeError
:
AttributeError: 'float' object has no attribute 'all'
我不知道为什么会这样,您的数据没有什么特别之处,因为我能够使用仅包含整数的简单 df 重现此数据。