混淆回复:pandas 数据帧切片副本警告

Confusion re: pandas copy of slice of dataframe warning

我已经查看了与此问题相关的一系列问题和答案,但我仍然发现我在我不期望的地方收到了切片警告的副本。此外,它出现在我之前 运行 没问题的代码中,这让我想知道是否某种更新可能是罪魁祸首。

例如,这是一组代码,我所做的只是将 Excel 文件读入 pandas DataFrame,然后减少列集包含在 df[[]] 语法中。

 izmir = pd.read_excel(filepath)
 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60','MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5','MC_OLD_18>F>5',
               'MC_OLD_M_Child<5','MC_OLD_F_Child<5','MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery','Date to insert','Date of Entery']]

现在,我对此 izmir_lim 文件所做的任何进一步更改都会引发切片警告的副本。

izmir_lim['Age'] = izmir_lim.Age.fillna(0)
izmir_lim['Age'] = izmir_lim.Age.astype(int)

/Users/samlilienfeld/anaconda/lib/python3.5/site-packages/ipykernel/main.py:2: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead

我很困惑,因为我认为 df[[]] 列子集 return 默认复制了一个副本。我发现抑制错误的唯一方法是显式添加 df[[]].copy()。我可以发誓,在过去我不必这样做,也没有引发切片错误的副本。

同样,我还有一些其他代码在数据帧上运行一个函数,以某种方式过滤它:

def lim(df):
if (geography == "All"):
    df_geo = df
else:
    df_geo = df[df.center_JO == geography]

df_date = df_geo[(df_geo.date_survey >= start_date) & (df_geo.date_survey <= end_date)]

return df_date

df_lim = lim(df)

从现在开始,我对 df_lim 的任何值所做的任何更改都会引发切片错误的副本。我发现的唯一解决方法是将函数调用更改为:

df_lim = lim(df).copy()

这对我来说似乎是错误的。我错过了什么?似乎这些用例默认情况下应该 return 副本,我可以发誓上次我 运行 这些脚本我没有 运行 这些错误。
我只需要开始到处添加 .copy() 吗?似乎应该有一种更清洁的方法来做到这一点。非常感谢任何见解或帮助。

 izmir = pd.read_excel(filepath)
 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
                    'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
                    'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
                    'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
                    'Date to insert','Date of Entery']]

izmir_limizmir 的 view/copy。您随后尝试分配给它。这就是引发错误的原因。改用这个:

 izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
                    'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
                    'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
                    'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
                    'Date to insert','Date of Entery']].copy()

每当您以下列方式'create'来自另一个的新数据帧时:

new_df = old_df[list_of_columns_names]

new_df 将在其 is_copy 属性中具有真值。当您尝试分配给它时,pandas 抛出 SettingWithCopyWarning.

new_df.iloc[0, 0] = 1  # Should throw an error

您可以通过多种方式解决这个问题。

选项#1

new_df = old_df[list_of_columns_names].copy()

选项#2(正如@ayhan 在评论中建议的那样)

new_df = old_df[list_of_columns_names]
new_df.is_copy = None

选项 #3

new_df = old_df.loc[:, list_of_columns_names]