Hadoop/Spark : 复制因子和性能有什么关系?
Hadoop/Spark : How replication factor and performance are related?
在不讨论所有其他性能因素、磁盘 space 和名称节点对象的情况下,复制因子如何提高 MR、Tez 和 Spark 的性能。
如果我们有 5 个 datanades,执行引擎将复制设置为 5 是否更好?最好和最差的价值是多少?
这对聚合、连接和仅限地图的作业有何好处?
Hadoop 的主要租户之一正在将计算转移到数据上。
如果将复制因子设置为大约等于数据节点的数量,则可以保证每台机器都能够处理该数据。
但是,正如您提到的,namenode 开销非常重要,更多的文件或副本会导致请求缓慢。在不健康的集群中,更多的副本也会使您的网络饱和。我从未见过高于 5 的数据,而且这仅适用于公司最关键的数据。其他的,他们留下了 2 个副本
除了 Tez/Spark 在大多数情况下优于 MR 之外,执行引擎并不重要,但更重要的是文件的大小及其存储格式 - 这将是一个主要问题推动执行绩效
在不讨论所有其他性能因素、磁盘 space 和名称节点对象的情况下,复制因子如何提高 MR、Tez 和 Spark 的性能。
如果我们有 5 个 datanades,执行引擎将复制设置为 5 是否更好?最好和最差的价值是多少?
这对聚合、连接和仅限地图的作业有何好处?
Hadoop 的主要租户之一正在将计算转移到数据上。
如果将复制因子设置为大约等于数据节点的数量,则可以保证每台机器都能够处理该数据。
但是,正如您提到的,namenode 开销非常重要,更多的文件或副本会导致请求缓慢。在不健康的集群中,更多的副本也会使您的网络饱和。我从未见过高于 5 的数据,而且这仅适用于公司最关键的数据。其他的,他们留下了 2 个副本
除了 Tez/Spark 在大多数情况下优于 MR 之外,执行引擎并不重要,但更重要的是文件的大小及其存储格式 - 这将是一个主要问题推动执行绩效