并行停用多个 Hadoop DataNode

Decommissioning multiple Hadoop DataNodes in parallel

我要更换 Hadoop CDH 5.7 集群中的多台机器。我首先添加了一些新机器并停用了相同数量的现有数据节点。

我注意到在停用节点时块被标记为复制不足。

这是否意味着我在停用多个节点时有风险？我可以并行停用所有节点吗？有没有更好的方法更换所有机器？

谢谢！

很明显，当节点关闭（或删除）时，数据复制不足。当您添加新节点并重新平衡时，这将自动修复。

假设集群上的复制因子是 3。当一个节点退役时，存储在其上的所有数据都消失了，该数据的复制因子现在是 2（因此处于复制状态）。现在，当您添加一个新节点并重新平衡时，丢失的副本会再次生成，从而将复制恢复为默认值。

如果您是一项一项地进行，则不会。 也就是更换一个节点，重新平衡集群。重复。（我认为这是唯一的方法！）

如果您只是删除多个节点，则很有可能会丢失数据，因为您可能会丢失某些数据（驻留在这些节点上）的所有复制。

不要一次停用多个节点！