如何用 Python 中的第 95 个和第 5 个百分位数替换异常值?
How to replace the outliers with the 95th and 5th percentile in Python?
我正在尝试对我的时间序列数据进行离群处理,我想用第 95 个百分位替换值 > 第 95 个百分位,将 < 第 5 个百分位的值替换为第 5 个百分位值。我已经准备了一些代码,但我无法找到想要的结果。
我正在尝试使用名为 Cut 的子函数创建 OutlierTreatment 函数。代码如下
def outliertreatment(df,high_limit,low_limit):
df_temp=df['y'].apply(cut,high_limit,low_limit, extra_kw=1)
return df_temp
def cut(column,high_limit,low_limit):
conds = [column > np.percentile(column, high_limit),
column < np.percentile(column, low_limit)]
choices = [np.percentile(column, high_limit),
np.percentile(column, low_limit)]
return np.select(conds,choices,column)
我希望在 OutlierTreatment 函数中发送数据帧,95 作为 high_limit,5 作为 low_limit。如何达到想要的效果?
我不确定这种方法是否适合处理异常值,但要实现您想要的效果,clip
函数很有用。它将边界外的值分配给边界值。您可以在 documentation.
中阅读更多内容
data=pd.Series(np.random.randn(100))
data.clip(lower=data.quantile(0.05), upper=data.quantile(0.95))
如果您的数据包含多列
对于单个列
p_05 = df['sales'].quantile(0.05) # 5th quantile
p_95 = df['sales'].quantile(0.95) # 95th quantile
df['sales'].clip(p_05, p_95, inplace=True)
对于不止一个数字列:
num_col = df.select_dtypes(include=['int64','float64']).columns.tolist()
# or you can create a custom list of numerical columns
df[num_col] = df[num_col].apply(lambda x: x.clip(*x.quantile([0.05, 0.95])))
奖金:
使用箱形图检查异常值
import matplotlib.pyplot as plt
for x in num_col:
df[num_col].boxplot(x)
plt.figure()
我正在尝试对我的时间序列数据进行离群处理,我想用第 95 个百分位替换值 > 第 95 个百分位,将 < 第 5 个百分位的值替换为第 5 个百分位值。我已经准备了一些代码,但我无法找到想要的结果。
我正在尝试使用名为 Cut 的子函数创建 OutlierTreatment 函数。代码如下
def outliertreatment(df,high_limit,low_limit):
df_temp=df['y'].apply(cut,high_limit,low_limit, extra_kw=1)
return df_temp
def cut(column,high_limit,low_limit):
conds = [column > np.percentile(column, high_limit),
column < np.percentile(column, low_limit)]
choices = [np.percentile(column, high_limit),
np.percentile(column, low_limit)]
return np.select(conds,choices,column)
我希望在 OutlierTreatment 函数中发送数据帧,95 作为 high_limit,5 作为 low_limit。如何达到想要的效果?
我不确定这种方法是否适合处理异常值,但要实现您想要的效果,clip
函数很有用。它将边界外的值分配给边界值。您可以在 documentation.
data=pd.Series(np.random.randn(100))
data.clip(lower=data.quantile(0.05), upper=data.quantile(0.95))
如果您的数据包含多列
对于单个列
p_05 = df['sales'].quantile(0.05) # 5th quantile
p_95 = df['sales'].quantile(0.95) # 95th quantile
df['sales'].clip(p_05, p_95, inplace=True)
对于不止一个数字列:
num_col = df.select_dtypes(include=['int64','float64']).columns.tolist()
# or you can create a custom list of numerical columns
df[num_col] = df[num_col].apply(lambda x: x.clip(*x.quantile([0.05, 0.95])))
奖金:
使用箱形图检查异常值
import matplotlib.pyplot as plt
for x in num_col:
df[num_col].boxplot(x)
plt.figure()