Hadoop/Spark : 复制因子和性能有什么关系？

Hadoop/Spark : How replication factor and performance are related?

在不讨论所有其他性能因素、磁盘 space 和名称节点对象的情况下，复制因子如何提高 MR、Tez 和 Spark 的性能。

如果我们有 5 个 datanades，执行引擎将复制设置为 5 是否更好？最好和最差的价值是多少？

这对聚合、连接和仅限地图的作业有何好处？

Hadoop 的主要租户之一正在将计算转移到数据上。

如果将复制因子设置为大约等于数据节点的数量，则可以保证每台机器都能够处理该数据。

但是，正如您提到的，namenode 开销非常重要，更多的文件或副本会导致请求缓慢。在不健康的集群中，更多的副本也会使您的网络饱和。我从未见过高于 5 的数据，而且这仅适用于公司最关键的数据。其他的，他们留下了 2 个副本

除了 Tez/Spark 在大多数情况下优于 MR 之外，执行引擎并不重要，但更重要的是文件的大小及其存储格式 - 这将是一个主要问题推动执行绩效