箱形图晶须异常值之外的点吗?
Are points beyond box plots whiskers outliers?
我正在研究泰坦尼克号数据集,发现在绘制箱线图后,有大量异常值(点超过晶须)。
不过,在检查了 Kaggle 上提供的答案后,我注意到人们并未将这些点视为异常值。
所以,我想知道。总是低于 Q1 - 1.5*IQR 或高于 Q3 + 1.5*IQR 离群点的情况?
如果不是,什么时候将它们视为异常值,什么时候不是?
这是a link of one of the answers。
此外,除了丢弃行之外,处理异常值的最佳方法是什么?
提前致谢!
术语 'outlier' 并不直接表示 'invalid data point'。相反,这意味着数据点只是显示一个与批量分布相对较远的值。此外,您所说的 'outliers' 通常是主观的并且是特定于问题的,因此 'outliers' 没有绝对标准(即 1.5*IQR 仅用于箱线图可视化目的)。如果我过于简单化现实,大约有3种情况。
离群值显然完全在该实例性质的 theoretical/practical 限制范围内(例如体温为 38.0C,而其他人在 35.8-36.5C 范围内)并且它可以是一个很强的一些不同的线索正在发生(因此对 modeling/prediction 有用)。
异常值明显超出theoretical/practical限制(例如人类年龄500岁),应视为'null'值
异常值是否是theoretical/practical极限的inside/outside未知,所以需要领域专家的知识(在这种情况下我们与特定领域的技术专家讨论例如物理问题的物理学家)
因此,根据箱形图的定义,没有通用的方法来处理'outliers',而是您应该了解数据集的性质并决定如何正确处理它。
我正在研究泰坦尼克号数据集,发现在绘制箱线图后,有大量异常值(点超过晶须)。 不过,在检查了 Kaggle 上提供的答案后,我注意到人们并未将这些点视为异常值。
所以,我想知道。总是低于 Q1 - 1.5*IQR 或高于 Q3 + 1.5*IQR 离群点的情况? 如果不是,什么时候将它们视为异常值,什么时候不是?
这是a link of one of the answers。
此外,除了丢弃行之外,处理异常值的最佳方法是什么?
提前致谢!
术语 'outlier' 并不直接表示 'invalid data point'。相反,这意味着数据点只是显示一个与批量分布相对较远的值。此外,您所说的 'outliers' 通常是主观的并且是特定于问题的,因此 'outliers' 没有绝对标准(即 1.5*IQR 仅用于箱线图可视化目的)。如果我过于简单化现实,大约有3种情况。
离群值显然完全在该实例性质的 theoretical/practical 限制范围内(例如体温为 38.0C,而其他人在 35.8-36.5C 范围内)并且它可以是一个很强的一些不同的线索正在发生(因此对 modeling/prediction 有用)。
异常值明显超出theoretical/practical限制(例如人类年龄500岁),应视为'null'值
异常值是否是theoretical/practical极限的inside/outside未知,所以需要领域专家的知识(在这种情况下我们与特定领域的技术专家讨论例如物理问题的物理学家)
因此,根据箱形图的定义,没有通用的方法来处理'outliers',而是您应该了解数据集的性质并决定如何正确处理它。