为什么三节点集群的性能比单节点集群差？

Why does 3-node cluster has worse performance than single-node cluster?

我运行对多个文件进行了多次测试。（最大文件为 83.7 MB）

我知道网络会带来一些开销，但我期待更好的结果，因为我认为使用分布式系统的目的是减少响应时间。

我用 /usr/bin/time 衡量性能。这里有什么问题？

如果您的 mapreduce 密钥被发送到集群中的单个节点，那么与单个节点相比，您不会获得任何性能改进并且您添加了数据洗牌的网络开销

如果您没有为您的硬件调整 mapreduce YARN 容器大小，那么您会发现性能不佳。

如果您存储的大量文件小于 HDFS 块大小（128 MB，如果您保留默认值），如您所述，那么您就是在浪费资源。此外，如果您正在处理单个大文件，如 ZIP 或其他 "non splittable" 文件格式，则与单个映射器节点相比，您没有任何优势。

I measure performance with /usr/bin/time

MapReduce 作业输出和历史服务器都会告诉您作业及其任务实际需要多长时间