如何理解 hdfs -du 结果

Question

我正在尝试使用命令 hdfs dfs - du -h 列出文件和文件夹的大小。我使用的命令是hdfs dfs - du -h /path_name/folder_name，返回的结果是

9.2 G   27.5 G  /path_name/folder_name/xxx01.parquet
0       0       /path_name/folder_name/xxx02.parquet
19.9 M  59.6 M  /path_name/folder_name/xxx03.parquet

我知道 hadoop 命令行从通用文件系统命令中借鉴了很多，-du -h 是为了列出人类可读的 folder/file 大小。但是，（以结果第一行为例）这两个数字9.2 G 27.5 G分别是什么意思呢？

谢谢！

Answer 1

您的集群复制因子是 3。第一个数字是文件的纯大小，第二个是带有 repicas 的文件大小。例如，实际文件大小为 9.2 GB。因为复制因子是 3，所以副本的文件大小是 27.5GB

size      disk space consumed with all replicas full_path

如何理解 hdfs -du 结果

how to understand hdfs -du results

filesystems

hadoop