我如何在 SchemaRDD 上分组

How do I groupBy on a SchemaRDD

假设我有一个 SchemaRDD tableRDD。我如何在特定列上进行 groupBy 并获得结果集的 count(*) as countGrouped

我正在尝试类似的东西:

tableRDD.groupBy('colname)(??).collect()

我无法理解我的聚合函数应该是什么(由 ?? 表示)

对于像 * 这样的非列,您只需将其放在引号中即可。因此,您的查询将如下所示:

tableRDD.groupBy('colname)(count("*") as 'countGrouped).collect()