数据挖掘中的异常值处理
Outlier Handling in data mining
我在 Body Mass Index 列中有一个异常值,与其他数据相差甚远。第二个最大值是 38.1,而离群值是 294。实际上是 29.4,并且在收集数据时发生错误。我不想删除该行,因为我的数据数量有限。任何人都可以告诉一个最好的技术方法来处理这个问题吗?将值视为缺失并应用某些方法(如期望最大化插补或贝叶斯多重插补)是否是一种好方法?请帮我解决这个问题。谢谢
检测错误数据,如有必要,将其替换为您喜欢的任何数据归因技术。
当然,如果您可以保留不良数据,并设计足够强大的整体方法来处理这个问题,那就更好了。
是的,如果它确实是异常值,则可以将其删除并使用插补技术来替换它。
请务必在使用多重插补之前理解它的概念。如果您想正确使用 MI,您还必须在插补之后更改处理步骤。 (如果你正在使用,你可以看看 mice 包)
如果您不想使用多个插补数据集,基于 EM 的插补算法是一个不错的选择。 (如果您使用的是 R,您可以查看软件包 VIM 或 imputeR)
我在 Body Mass Index 列中有一个异常值,与其他数据相差甚远。第二个最大值是 38.1,而离群值是 294。实际上是 29.4,并且在收集数据时发生错误。我不想删除该行,因为我的数据数量有限。任何人都可以告诉一个最好的技术方法来处理这个问题吗?将值视为缺失并应用某些方法(如期望最大化插补或贝叶斯多重插补)是否是一种好方法?请帮我解决这个问题。谢谢
检测错误数据,如有必要,将其替换为您喜欢的任何数据归因技术。
当然,如果您可以保留不良数据,并设计足够强大的整体方法来处理这个问题,那就更好了。
是的,如果它确实是异常值,则可以将其删除并使用插补技术来替换它。
请务必在使用多重插补之前理解它的概念。如果您想正确使用 MI,您还必须在插补之后更改处理步骤。 (如果你正在使用,你可以看看 mice 包)
如果您不想使用多个插补数据集,基于 EM 的插补算法是一个不错的选择。 (如果您使用的是 R,您可以查看软件包 VIM 或 imputeR)