Hadoop 复制因子

Hadoop replication factor

我已经使用 hadoop 一段时间了。我在配置hadoop的时候，是通过属性调用dfs.replication来的。但我无法弄清楚它是如何工作的。请帮助我。

Hadoop 的好处之一是它允许您在集群中可靠地存储大文件，因此即使一个文件损坏也不会丢失数据。这适用于复制：每个文件被分成数据块（其大小可通过属性 dfs.blocksize 配置）存储在集群中的不同节点中，每个块将被复制 X 次，即X 您在 dfs.replication 中输入的数字。因此，如果您的一个数据块被损坏，在您的集群中的某个地方会有它的其他副本，这样您就不会丢失数据。

如果你将它设置为1，那么它不会容错，因为这意味着每个块只有一个副本。但是，如果你设置为2，但是丢失了一个块，还会有另一个副本。

默认块复制。实际的复制次数可以在创建文件时指定。如果在创建时未指定复制，则使用默认值。默认值为 3，这意味着如果你在 HDFS 位置放置一个转储，将有 3 个 replecas 存储相同的内容，因为框架会将文件拆分为一组块（64 MB 或 128 MB），然后这些块将跨集群节点复制。

根据需要和使用数据和大小，可以设置复制。

Hadoop 复制因子

Hadoop replication factor

hadoop

bigdata

hdfs