Hadoop 运行 个并行减速器
Hadoop Running reducers in parallel
我有一个 4G 的文件,其中有 16 条磨线,地图 运行ning 分布在 15 张地图中的 6 张平行地图。生成 35000 个密钥。我正在使用 MultipleTextoutput,因此每个 reducer 都会生成一个独立于其他 reducer 的输出。
我已经为 conf 配置了 25-50 个 reducer,但它总是 运行一次只有 1 个 reducer。
机器 - 4 核 32 G ram 单机 运行ning hortonworks 堆栈
如何将 1 个以上的 reduce 任务并行化为 运行?
看看hadoop MapReduce Tutorial
How Many Reduces?
The right number of reduces seems to be 0.95 or 1.75 multiplied by ( * ).
有了 0.95,所有的 reduce 都可以立即启动并在 maps 完成时开始传输 map 输出。在 1.75 中,更快的节点将完成第一轮减少并启动第二波减少,从而更好地实现负载平衡。
看看相关的SE问题:
What is Ideal number of reducers on Hadoop?
通过指定 2 GB 的较低 reducer 内存,mapred 站点中的默认值 xml 是 6GB,框架并行运行 3 个 reducer 而不是 1 个。
我有一个 4G 的文件,其中有 16 条磨线,地图 运行ning 分布在 15 张地图中的 6 张平行地图。生成 35000 个密钥。我正在使用 MultipleTextoutput,因此每个 reducer 都会生成一个独立于其他 reducer 的输出。
我已经为 conf 配置了 25-50 个 reducer,但它总是 运行一次只有 1 个 reducer。
机器 - 4 核 32 G ram 单机 运行ning hortonworks 堆栈
如何将 1 个以上的 reduce 任务并行化为 运行?
看看hadoop MapReduce Tutorial
How Many Reduces?
The right number of reduces seems to be 0.95 or 1.75 multiplied by ( * ).
有了 0.95,所有的 reduce 都可以立即启动并在 maps 完成时开始传输 map 输出。在 1.75 中,更快的节点将完成第一轮减少并启动第二波减少,从而更好地实现负载平衡。
看看相关的SE问题:
What is Ideal number of reducers on Hadoop?
通过指定 2 GB 的较低 reducer 内存,mapred 站点中的默认值 xml 是 6GB,框架并行运行 3 个 reducer 而不是 1 个。