Hadoop 复制因子

Hadoop replication factor

我已经使用 hadoop 一段时间了。我在配置hadoop的时候,是通过属性调用dfs.replication来的。但我无法弄清楚它是如何工作的。请帮助我。

Hadoop 的好处之一是它允许您在集群中可靠地存储大文件,因此即使一个文件损坏也不会丢失数据。这适用于复制:每个文件被分成数据块(其大小可通过 属性 dfs.blocksize 配置)存储在集群中的不同节点中,每个块将被复制 X 次,即X 您在 dfs.replication 中输入的数字。因此,如果您的一个数据块被损坏,在您的集群中的某个地方会有它的其他副本,这样您就不会丢失数据。

如果你将它设置为1,那么它不会容错,因为这意味着每个块只有一个副本。但是,如果你设置为2,但是丢失了一个块,还会有另一个副本。

默认块复制。实际的复制次数可以在创建文件时指定。如果在创建时未指定复制,则使用默认值。 默认值为 3,这意味着如果你在 HDFS 位置放置一个转储,将有 3 个 replecas 存储相同的内容,因为框架会将文件拆分为一组块(64 MB 或 128 MB),然后这些块将跨集群节点复制。

根据需要和使用数据和大小,可以设置复制。