根据字符串中定义的条件填充新列

Question

我有条件填充在字符串中定义的新列。

condition_string =  "colA='yes' & colB='yes' & (colC='yes' | colD='yes'): 'Yes', colA='no' & colB='no' & (colC='no' | colD='no'): 'No', ELSE : 'UNKNOWN'"

字符串可以re-written/structured任何其他格式（字典），然后输入代码得到最终结果。

数据框是

df = pd.DataFrame(
    {
            'ID': ['AB01', 'AB02', 'AB03', 'AB03', 'AB04','AB05', 'AB06'],
            'colA': ["yes","yes",'yes',"no","no",'yes', np.nan],
            'colB': [np.nan,'yes','yes',"no",'no', np.nan, "yes"],
            'colC': ["yes",'yes', 'yes',"no", "no",np.nan,np.nan],
            'colD': ["yes",'no', 'yes',"no",np.nan,"no",np.nan],
    }
    )

最终结果应该是这样的

如何在不对 condition_string 中的内容进行硬编码的情况下完成此操作。或者你有什么方法可以重组 condition_string 然后应用于数据框？

更新：如果字典是这样的呢？

condition_string =  "colA='yes' & (colB='yes' | colB='no)' & 
(colC='yes' | colD='yes'): 'Yes', colA='no' & colB='no' & (colC='no' |    colD='no'): 'No', ELSE : 'UNKNOWN'"

数据框就像

df = pd.DataFrame(
    {
            'ID': ['AB01', 'AB02', 'AB03', 'AB03', 'AB04','AB05', 'AB06'],
            'colA': ["yes","yes",'yes',"no","no",'yes', np.nan],
            'colB': ["no",'yes','yes',"no",'no', np.nan, "yes"],
            'colC': ["yes",'yes', 'yes',"no", "no",np.nan,np.nan],
            'colD': ["yes",'no', 'yes',"no",np.nan,"no",np.nan]
    }
    )

Answer 1

您可以使用 np.where:

df['results'] =  np.where((((df['colA']=='yes') & (df['colB']=='yes')) & ((df['colC']=='yes') | (df['colD']=='yes'))), 'Yes',np.where(((df['colA']=='no') & (df['colB']=='no')) & ((df['colC']=='no' )| (df['colD']=='no')), 'No','UNKNOWN'))

给出：

 ID colA colB colC colD decision
0  AB01  yes  NaN  yes  yes  UNKNOWN
1  AB02  yes  yes  yes   no      Yes
2  AB03  yes  yes  yes  yes      Yes
3  AB03   no   no   no   no       No
4  AB04   no   no   no  NaN       No
5  AB05  yes  NaN  NaN   no  UNKNOWN
6  AB06  NaN  yes  NaN  NaN  UNKNOWN

Answer 2

IIUC 你想为你的 df 创建任意条件，这可以使用 functools.reduce 和 operator.and_ 来完成。然后，您可以使用两个列表（而不是字典）设置条件，第一个是列，第二个是要测试的字符串，最后是 np.select:

from functools import reduce
from operator import and_

cols = ["colA", "colB", ["colC", "colD"]] # group the cols in a list if they belong to the same group
answer = ["yes", "no"]

conds = [reduce(and_, [df[i].eq(ans) if isinstance(i, str) else df[i].eq(ans).any(1)
                       for i in cols]) for ans in answer]

df["result"] = np.select(conds, answer, "Unknown")

print (df)

     ID colA colB colC colD   result
0  AB01  yes  NaN  yes  yes  Unknown
1  AB02  yes  yes  yes   no      yes
2  AB03  yes  yes  yes  yes      yes
3  AB03   no   no   no   no       no
4  AB04   no   no   no  NaN       no
5  AB05  yes  NaN  NaN   no  Unknown
6  AB06  NaN  yes  NaN  NaN  Unknown

现在，如果您需要调整条件，只需编辑 cols 和 answer 这两个列表即可。

Answer 3

这里有一个解决方案，可以将您的条件转换为 python 函数，然后将其应用于 DataFrame 的行：

import re

condition_string =  "colA='yes' & colB='yes' & (colC='yes' | colD='yes'): 'Yes', colA='no' & colB='no' & (colC='no' | colD='no'): 'No', ELSE : 'UNKNOWN'"

# formatting string as python function apply_cond
for col in df.columns:
    condition_string = re.sub(rf"(\W|^){col}(\W|$)", rf"row['{col}']", condition_string)
    condition_string = re.sub(rf"row\['{col}'\]\s*=(?!=)", f"row['{col}']==", condition_string)

cond_form = re.sub(r'(:[^[(]+), (?!ELSE)', r'\n\telif ', condition_string) \
            .replace(": ", ":\n\t\treturn ") \
            .replace("&", "and") \
            .replace('|', 'or')
cond_form = re.sub(r", ELSE\s*:", "\n\telse:", cond_form)
function_def = "def apply_cond(row):\n\tif " + cond_form
#print(function_def) # uncomment to see how the function is defined

# executing the function definition of apply_cond
exec(function_def)

# applying the function to each row
df["result"]=df.apply(lambda x: apply_cond(x), axis=1)

print(df)

输出：

     ID colA colB colC colD   result
0  AB01  yes  NaN  yes  yes  UNKNOWN
1  AB02  yes  yes  yes   no      Yes
2  AB03  yes  yes  yes  yes      Yes
3  AB03   no   no   no   no       No
4  AB04   no   no   no  NaN       No
5  AB05  yes  NaN  NaN   no  UNKNOWN
6  AB06  NaN  yes  NaN  NaN  UNKNOWN

您可能希望根据 condition_string 调整字符串格式（我做的很快，可能有一些不受支持的组合）但是如果您自动获取这些字符串，它将避免您重新定义它们。

根据字符串中定义的条件填充新列

Fill new column based on conditions defined in a string

python

numpy

data-manipulation

dataframe

pandas