与 Pyspark 合并
Merge with Pyspark
我正在使用 Pyspark,我有 Spark 1.6。我想将一些价值观组合在一起。
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| C | 3|
| D | 10|
我想将总价值小于 10% 的所有项目组合在一起(在这种情况下,C 和 D 将被分组为新值 "Other")
所以,新的 table 看起来像
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| Other | 13|
有人知道一些功能或简单的方法吗?
非常感谢您的帮助
您可以对数据框进行两次过滤,以获得一个只包含您要保留的值的数据框,一个只包含其他值。对其他数据帧执行聚合以对它们求和,然后将两个数据帧联合在一起。根据数据,您可能希望在所有这些之前保留原始数据帧,这样就不需要对其进行两次评估。
我正在使用 Pyspark,我有 Spark 1.6。我想将一些价值观组合在一起。
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| C | 3|
| D | 10|
我想将总价值小于 10% 的所有项目组合在一起(在这种情况下,C 和 D 将被分组为新值 "Other")
所以,新的 table 看起来像
+--------+-----+
| Item |value|
+--------+-----+
| A | 187|
| B | 200|
| Other | 13|
有人知道一些功能或简单的方法吗? 非常感谢您的帮助
您可以对数据框进行两次过滤,以获得一个只包含您要保留的值的数据框,一个只包含其他值。对其他数据帧执行聚合以对它们求和,然后将两个数据帧联合在一起。根据数据,您可能希望在所有这些之前保留原始数据帧,这样就不需要对其进行两次评估。