为什么三节点集群的性能比单节点集群差?
Why does 3-node cluster has worse performance than single-node cluster?
我运行 对多个文件进行了多次测试。 (最大文件为 83.7 MB)
我知道网络会带来一些开销,但我期待更好的结果,因为我认为使用分布式系统的目的是减少响应时间。
我用 /usr/bin/time 衡量性能。这里有什么问题?
如果您的 mapreduce 密钥被发送到集群中的单个节点,那么与单个节点相比,您不会获得任何性能改进并且您添加了数据洗牌的网络开销
如果您没有为您的硬件调整 mapreduce YARN 容器大小,那么您会发现性能不佳。
如果您存储的大量文件小于 HDFS 块大小(128 MB,如果您保留默认值),如您所述,那么您就是在浪费资源。此外,如果您正在处理单个大文件,如 ZIP 或其他 "non splittable" 文件格式,则与单个映射器节点相比,您没有任何优势。
I measure performance with /usr/bin/time
MapReduce 作业输出和历史服务器都会告诉您作业及其任务实际需要多长时间
我运行 对多个文件进行了多次测试。 (最大文件为 83.7 MB)
我知道网络会带来一些开销,但我期待更好的结果,因为我认为使用分布式系统的目的是减少响应时间。
我用 /usr/bin/time 衡量性能。这里有什么问题?
如果您的 mapreduce 密钥被发送到集群中的单个节点,那么与单个节点相比,您不会获得任何性能改进并且您添加了数据洗牌的网络开销
如果您没有为您的硬件调整 mapreduce YARN 容器大小,那么您会发现性能不佳。
如果您存储的大量文件小于 HDFS 块大小(128 MB,如果您保留默认值),如您所述,那么您就是在浪费资源。此外,如果您正在处理单个大文件,如 ZIP 或其他 "non splittable" 文件格式,则与单个映射器节点相比,您没有任何优势。
I measure performance with /usr/bin/time
MapReduce 作业输出和历史服务器都会告诉您作业及其任务实际需要多长时间