将 hdfs 文件复制到配置单元后复制的文件总数 table
Total number of replicated files after copying hdfs file into hive table
假设如果我将 hdfs 中的文件加载到配置单元 table,那么该文件的总副本数是多少。在 hdfs 中,文件被复制了 3 次,现在复制到 hive table 会产生额外的副本,总计是否有 6 个副本??
在 HDFS 中,副本数基于复制因子集。
在您的情况下,由于复制因子为 3,因此将有三个副本。
当您执行从 hdfs 到 hive 的 sqoop 导入(到内部 table) 时,数据仅从 hdfs 上的一个位置复制到 table 在配置单元中。但是 Hive 数据的复制再次根据您的复制因子发生。
总共你将得到 3(hdfs) + 1(hive copy)*3 => HDFS 上的 3 个副本和 hive 存储的 3 个数据副本(这是不是 6 个副本,因为配置单元不以相同的文件格式存储数据)。
或
如果您对内部 table 执行 LOAD DATA INPATH
操作,则旧副本将丢失,只存在较新的配置单元副本。所以你最终只会得到一个配置单元 table(及其复制副本)。
在您的情况下,3 个配置单元 table 份 (因为 rep 设置为 3)。
或
如果创建外部 table,则不会创建新副本。只有数据的元数据是由 Hive 创建的。所以你最终得到你的 HDFS 副本 + Hive 元存储副本。
在您的情况下,HDFS 中的 3 个副本 + 存储在 Hive 上的元 数据的 3 个副本。
假设如果我将 hdfs 中的文件加载到配置单元 table,那么该文件的总副本数是多少。在 hdfs 中,文件被复制了 3 次,现在复制到 hive table 会产生额外的副本,总计是否有 6 个副本??
在 HDFS 中,副本数基于复制因子集。 在您的情况下,由于复制因子为 3,因此将有三个副本。
当您执行从 hdfs 到 hive 的 sqoop 导入(到内部 table) 时,数据仅从 hdfs 上的一个位置复制到 table 在配置单元中。但是 Hive 数据的复制再次根据您的复制因子发生。
总共你将得到 3(hdfs) + 1(hive copy)*3 => HDFS 上的 3 个副本和 hive 存储的 3 个数据副本(这是不是 6 个副本,因为配置单元不以相同的文件格式存储数据)。
或
如果您对内部 table 执行 LOAD DATA INPATH
操作,则旧副本将丢失,只存在较新的配置单元副本。所以你最终只会得到一个配置单元 table(及其复制副本)。
在您的情况下,3 个配置单元 table 份 (因为 rep 设置为 3)。
或
如果创建外部 table,则不会创建新副本。只有数据的元数据是由 Hive 创建的。所以你最终得到你的 HDFS 副本 + Hive 元存储副本。
在您的情况下,HDFS 中的 3 个副本 + 存储在 Hive 上的元 数据的 3 个副本。