我如何在 SchemaRDD 上分组
How do I groupBy on a SchemaRDD
假设我有一个 SchemaRDD tableRDD。我如何在特定列上进行 groupBy 并获得结果集的 count(*) as countGrouped
。
我正在尝试类似的东西:
tableRDD.groupBy('colname)(??).collect()
我无法理解我的聚合函数应该是什么(由 ??
表示)
对于像 *
这样的非列,您只需将其放在引号中即可。因此,您的查询将如下所示:
tableRDD.groupBy('colname)(count("*") as 'countGrouped).collect()
假设我有一个 SchemaRDD tableRDD。我如何在特定列上进行 groupBy 并获得结果集的 count(*) as countGrouped
。
我正在尝试类似的东西:
tableRDD.groupBy('colname)(??).collect()
我无法理解我的聚合函数应该是什么(由 ??
表示)
对于像 *
这样的非列,您只需将其放在引号中即可。因此,您的查询将如下所示:
tableRDD.groupBy('colname)(count("*") as 'countGrouped).collect()