混淆回复:pandas 数据帧切片副本警告
Confusion re: pandas copy of slice of dataframe warning
我已经查看了与此问题相关的一系列问题和答案,但我仍然发现我在我不期望的地方收到了切片警告的副本。此外,它出现在我之前 运行 没问题的代码中,这让我想知道是否某种更新可能是罪魁祸首。
例如,这是一组代码,我所做的只是将 Excel 文件读入 pandas DataFrame
,然后减少列集包含在 df[[]]
语法中。
izmir = pd.read_excel(filepath)
izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60','MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5','MC_OLD_18>F>5',
'MC_OLD_M_Child<5','MC_OLD_F_Child<5','MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery','Date to insert','Date of Entery']]
现在,我对此 izmir_lim
文件所做的任何进一步更改都会引发切片警告的副本。
izmir_lim['Age'] = izmir_lim.Age.fillna(0)
izmir_lim['Age'] = izmir_lim.Age.astype(int)
/Users/samlilienfeld/anaconda/lib/python3.5/site-packages/ipykernel/main.py:2:
SettingWithCopyWarning: A value is trying to be set on a copy of a
slice from a DataFrame. Try using .loc[row_indexer,col_indexer] =
value instead
我很困惑,因为我认为 df[[]]
列子集 return 默认复制了一个副本。我发现抑制错误的唯一方法是显式添加 df[[]].copy()
。我可以发誓,在过去我不必这样做,也没有引发切片错误的副本。
同样,我还有一些其他代码在数据帧上运行一个函数,以某种方式过滤它:
def lim(df):
if (geography == "All"):
df_geo = df
else:
df_geo = df[df.center_JO == geography]
df_date = df_geo[(df_geo.date_survey >= start_date) & (df_geo.date_survey <= end_date)]
return df_date
df_lim = lim(df)
从现在开始,我对 df_lim
的任何值所做的任何更改都会引发切片错误的副本。我发现的唯一解决方法是将函数调用更改为:
df_lim = lim(df).copy()
这对我来说似乎是错误的。我错过了什么?似乎这些用例默认情况下应该 return 副本,我可以发誓上次我 运行 这些脚本我没有 运行 这些错误。
我只需要开始到处添加 .copy()
吗?似乎应该有一种更清洁的方法来做到这一点。非常感谢任何见解或帮助。
izmir = pd.read_excel(filepath)
izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
'Date to insert','Date of Entery']]
izmir_lim
是 izmir
的 view/copy。您随后尝试分配给它。这就是引发错误的原因。改用这个:
izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
'Date to insert','Date of Entery']].copy()
每当您以下列方式'create'来自另一个的新数据帧时:
new_df = old_df[list_of_columns_names]
new_df
将在其 is_copy
属性中具有真值。当您尝试分配给它时,pandas 抛出 SettingWithCopyWarning
.
new_df.iloc[0, 0] = 1 # Should throw an error
您可以通过多种方式解决这个问题。
选项#1
new_df = old_df[list_of_columns_names].copy()
选项#2(正如@ayhan 在评论中建议的那样)
new_df = old_df[list_of_columns_names]
new_df.is_copy = None
选项 #3
new_df = old_df.loc[:, list_of_columns_names]
我已经查看了与此问题相关的一系列问题和答案,但我仍然发现我在我不期望的地方收到了切片警告的副本。此外,它出现在我之前 运行 没问题的代码中,这让我想知道是否某种更新可能是罪魁祸首。
例如,这是一组代码,我所做的只是将 Excel 文件读入 pandas DataFrame
,然后减少列集包含在 df[[]]
语法中。
izmir = pd.read_excel(filepath)
izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60','MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5','MC_OLD_18>F>5',
'MC_OLD_M_Child<5','MC_OLD_F_Child<5','MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery','Date to insert','Date of Entery']]
现在,我对此 izmir_lim
文件所做的任何进一步更改都会引发切片警告的副本。
izmir_lim['Age'] = izmir_lim.Age.fillna(0)
izmir_lim['Age'] = izmir_lim.Age.astype(int)
/Users/samlilienfeld/anaconda/lib/python3.5/site-packages/ipykernel/main.py:2: SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame. Try using .loc[row_indexer,col_indexer] = value instead
我很困惑,因为我认为 df[[]]
列子集 return 默认复制了一个副本。我发现抑制错误的唯一方法是显式添加 df[[]].copy()
。我可以发誓,在过去我不必这样做,也没有引发切片错误的副本。
同样,我还有一些其他代码在数据帧上运行一个函数,以某种方式过滤它:
def lim(df):
if (geography == "All"):
df_geo = df
else:
df_geo = df[df.center_JO == geography]
df_date = df_geo[(df_geo.date_survey >= start_date) & (df_geo.date_survey <= end_date)]
return df_date
df_lim = lim(df)
从现在开始,我对 df_lim
的任何值所做的任何更改都会引发切片错误的副本。我发现的唯一解决方法是将函数调用更改为:
df_lim = lim(df).copy()
这对我来说似乎是错误的。我错过了什么?似乎这些用例默认情况下应该 return 副本,我可以发誓上次我 运行 这些脚本我没有 运行 这些错误。
我只需要开始到处添加 .copy()
吗?似乎应该有一种更清洁的方法来做到这一点。非常感谢任何见解或帮助。
izmir = pd.read_excel(filepath)
izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
'Date to insert','Date of Entery']]
izmir_lim
是 izmir
的 view/copy。您随后尝试分配给它。这就是引发错误的原因。改用这个:
izmir_lim = izmir[['Gender','Age','MC_OLD_M>=60','MC_OLD_F>=60',
'MC_OLD_M>18','MC_OLD_F>18','MC_OLD_18>M>5',
'MC_OLD_18>F>5','MC_OLD_M_Child<5','MC_OLD_F_Child<5',
'MC_OLD_M>0<=1','MC_OLD_F>0<=1','Date to Delivery',
'Date to insert','Date of Entery']].copy()
每当您以下列方式'create'来自另一个的新数据帧时:
new_df = old_df[list_of_columns_names]
new_df
将在其 is_copy
属性中具有真值。当您尝试分配给它时,pandas 抛出 SettingWithCopyWarning
.
new_df.iloc[0, 0] = 1 # Should throw an error
您可以通过多种方式解决这个问题。
选项#1
new_df = old_df[list_of_columns_names].copy()
选项#2(正如@ayhan 在评论中建议的那样)
new_df = old_df[list_of_columns_names]
new_df.is_copy = None
选项 #3
new_df = old_df.loc[:, list_of_columns_names]