MapReduce 到 Spark

MapReduce to Spark

我有一个用 Java 编写的 MapReduce 作业。这取决于多个 classes。我想 运行 Spark 上的 MapReduce 作业。

我应该按照什么步骤来做同样的事情?

我只需要对 MapReduce 进行更改 class?

谢谢!

这是一个非常广泛的问题,但简而言之:

  1. 创建输入数据的 RDD。
  2. 使用您的映射器代码调用 map。输出键值对。
  3. 用你的 reducer 代码调用 reduceByKey
  4. 将生成的 RDD 写入磁盘。

Spark 比 MapReduce 更灵活:您可以在步骤 1 和 4 之间使用多种方法来转换数据。