在 Apache Spark 中查找异常值并替换为平均值
Finding Outliers and replacing with Mean value in Apache Spark
我目前正在做一项作业,我需要找到异常值并将它们替换为列中前 2 个和后 2 个值的 Average/Mean。
我在下面的 2 列中将其作为数据框。
示例数据如下所示。
请告诉我如何使用数据框实现此目的。任何建议都会有很好的帮助。谢谢。
我找到了上述问题的解决方案。
使用 HiveContext Window 函数,我们可以识别异常值检测前后的行并替换它们。下面是示例代码。
val w = Window.partitionBy("CustomerID").orderBy("EventDate")
前值 = w.rowsBetween(-2,-1)
之后的值 = w.rowsBetween(1,2)
我目前正在做一项作业,我需要找到异常值并将它们替换为列中前 2 个和后 2 个值的 Average/Mean。
我在下面的 2 列中将其作为数据框。
示例数据如下所示。
请告诉我如何使用数据框实现此目的。任何建议都会有很好的帮助。谢谢。
我找到了上述问题的解决方案。
使用 HiveContext Window 函数,我们可以识别异常值检测前后的行并替换它们。下面是示例代码。
val w = Window.partitionBy("CustomerID").orderBy("EventDate")
前值 = w.rowsBetween(-2,-1)
之后的值 = w.rowsBetween(1,2)