Hadoop 运行个并行减速器

Hadoop Running reducers in parallel

我有一个 4G 的文件，其中有 16 条磨线，地图运行ning 分布在 15 张地图中的 6 张平行地图。生成 35000 个密钥。我正在使用 MultipleTextoutput，因此每个 reducer 都会生成一个独立于其他 reducer 的输出。

我已经为 conf 配置了 25-50 个 reducer，但它总是运行一次只有 1 个 reducer。

机器 - 4 核 32 G ram 单机运行ning hortonworks 堆栈

如何将 1 个以上的 reduce 任务并行化为运行？

How Many Reduces?

The right number of reduces seems to be 0.95 or 1.75 multiplied by ( * ).

有了 0.95，所有的 reduce 都可以立即启动并在 maps 完成时开始传输 map 输出。在 1.75 中，更快的节点将完成第一轮减少并启动第二波减少，从而更好地实现负载平衡。

看看相关的SE问题：

What is Ideal number of reducers on Hadoop?

通过指定 2 GB 的较低 reducer 内存，mapred 站点中的默认值 xml 是 6GB，框架并行运行 3 个 reducer 而不是 1 个。