与 Pyspark 合并

Merge with Pyspark

我正在使用 Pyspark,我有 Spark 1.6。我想将一些价值观组合在一起。

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
|  C     |    3|
|  D     |   10|

我想将总价值小于 10% 的所有项目组合在一起(在这种情况下,C 和 D 将被分组为新值 "Other")

所以,新的 table 看起来像

+--------+-----+
|  Item  |value|
+--------+-----+
|  A     |  187|
|  B     |  200|
| Other  |   13|

有人知道一些功能或简单的方法吗? 非常感谢您的帮助

您可以对数据框进行两次过滤,以获得一个只包含您要保留的值的数据框,一个只包含其他值。对其他数据帧执行聚合以对它们求和,然后将两个数据帧联合在一起。根据数据,您可能希望在所有这些之前保留原始数据帧,这样就不需要对其进行两次评估。