HDFS:集群上所有磁盘的实际 space 与可用 HDFS 大小

HDFS: Actual space of all disks on cluster vs usable HDFS size

如何根据集群中磁盘的总大小来计算HDFS集群的可用大小?

例如如果我的集群有 10 台机器,每台机器有 1TB 的存储空间,hadoop fs -df 会报告什么?

更具体地说,我需要在 HDFS 集群中存储 5 TB 的数据。我的集群需要多少磁盘 space?

这一切都取决于您如何设置 HDFS 复制因子。 默认(推荐)为 3。

您还可以设置 hdfs 以保留一些非 dfs space 因此,如果需要,减去它。

粗略计算几乎总是file size * 3 = total storage needed