hadoop 2.6如何将数据分布到所有节点上

Question

我正在使用 3 节点 Hadoop 2.6 集群。

hadoop fs -put data/sample.csv /tmp

这会将 "sample.csv" 保存在“/tmp”目录中。此 csv 有 10 亿条记录（大小 31 GB）

这个数据是分布在所有节点上的吗？

我需要为此更改任何配置吗？

Answer 1

Is this data distributed on all nodes?

是的。如果您将数据写入 HDFS，它始终是分布式的。

一般情况下不一定分布在全部个节点上。有 3 个节点和 31 GB 的文件，它肯定会。但如果你有更多的节点或更小的文件，它可能不是。一般来说，HDFS 决定如何最好地分发文件。默认情况下，它还会以 3 种方式复制文件。

Answer 2

你可以运行这个命令

hdfs fsck /tmp/sample.csv -files -blocks -locations

命令将为您的文件和位置提供关联块。在这种情况下，如果您的复制因子为 3，那么您将在所有 3 个节点上拥有 31 GB 数据。

How to put data distributedly on all nodes on hadoop 2.6