Spark - groupByKey 相对于 reduceByKey 的用例是什么

Spark - What are the usecase for groupByKey over reduceByKey

为什么应该避免使用 groupByKey 而更喜欢使用 reduceByKey 来发送优化网络带宽是有充分理由的。

https://databricks.gitbooks.io/databricks-spark-knowledge-base/content/best_practices/prefer_reducebykey_over_groupbykey.html

是否存在确实需要并且无法通过reduceByKey

解决groupby的情况

groupBy 更可取的一些用例。

  • “已分组”的项目不应以任何形式聚合,并且应按原样发送 -
  • 并且在非关联操作等中..不能使用reduceByKey。唯一的选项是 groupByKey