当 Hadoop 集群宕机时,数据是否保留在 HDFS 中?
Does data remain in HDFS when Hadoop cluster is down?
我是 Qubole 新手,想知道 Hadoop 集群宕机后数据是否还在 HDFS 中?
感谢任何帮助。
谢谢。
这取决于集群中出现的故障。 Hadoop、Namenode、data node、Resource manager、AppMaster等都有daemon
因此,如果 Namenode(主节点)关闭,则数据将保留在集群中,但您将无法访问它。因为,Name node保存了data nodes的元数据。
如果集群(从节点)上的数据节点宕机,那么您将无法从该节点访问数据,但默认情况下数据将存储在集群中的 3 个位置以实现容错。所以你仍然可以访问其他两个节点的数据。
HDFS 上没有数据丢失。我们没有 backup/restore HDFS。 EC2/S3 上的计算模型是长期存在的数据始终存在于 S3 上,而 HDFS 仅用于中间数据和控制数据。我们有时也使用 HDFS(和本地磁盘)作为缓存。
我是 Qubole 新手,想知道 Hadoop 集群宕机后数据是否还在 HDFS 中?
感谢任何帮助。
谢谢。
这取决于集群中出现的故障。 Hadoop、Namenode、data node、Resource manager、AppMaster等都有daemon
因此,如果 Namenode(主节点)关闭,则数据将保留在集群中,但您将无法访问它。因为,Name node保存了data nodes的元数据。
如果集群(从节点)上的数据节点宕机,那么您将无法从该节点访问数据,但默认情况下数据将存储在集群中的 3 个位置以实现容错。所以你仍然可以访问其他两个节点的数据。
HDFS 上没有数据丢失。我们没有 backup/restore HDFS。 EC2/S3 上的计算模型是长期存在的数据始终存在于 S3 上,而 HDFS 仅用于中间数据和控制数据。我们有时也使用 HDFS(和本地磁盘)作为缓存。