MapReduce 到 Spark
MapReduce to Spark
我有一个用 Java 编写的 MapReduce 作业。这取决于多个 classes。我想 运行 Spark 上的 MapReduce 作业。
我应该按照什么步骤来做同样的事情?
我只需要对 MapReduce 进行更改 class?
谢谢!
这是一个非常广泛的问题,但简而言之:
- 创建输入数据的 RDD。
- 使用您的映射器代码调用
map
。输出键值对。
- 用你的 reducer 代码调用
reduceByKey
。
- 将生成的 RDD 写入磁盘。
Spark 比 MapReduce 更灵活:您可以在步骤 1 和 4 之间使用多种方法来转换数据。
我有一个用 Java 编写的 MapReduce 作业。这取决于多个 classes。我想 运行 Spark 上的 MapReduce 作业。
我应该按照什么步骤来做同样的事情?
我只需要对 MapReduce 进行更改 class?
谢谢!
这是一个非常广泛的问题,但简而言之:
- 创建输入数据的 RDD。
- 使用您的映射器代码调用
map
。输出键值对。 - 用你的 reducer 代码调用
reduceByKey
。 - 将生成的 RDD 写入磁盘。
Spark 比 MapReduce 更灵活:您可以在步骤 1 和 4 之间使用多种方法来转换数据。