蜂巢中的数据集大小是多少
What will be DataSet size in hive
我的 HDFS 中有 1 TB 的 .csv 格式数据。当我将它加载到我的 Hive table 中时,数据的总大小是多少。我的意思是会有 2 个相同数据的副本,即 HDFS 中的 1 个副本和 Hive table 中的其他副本?请澄清。提前致谢。
这取决于您是在 Hive 中创建内部还是外部table。
如果您在 Hive 中创建一个外部 table,它将创建一个关于您的数据在 HDFS 中的存储位置的映射,并且根本不会有任何重复。 Hive 将自动选择存储在 HDFS 中的数据。
在此处阅读有关外部 table 的更多信息:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ExternalTables
如果您创建一个外部配置单元 table,您为 table 提供了一个 HDFS 位置,并将该数据存储到该特定位置。
当您创建配置单元时,内部 table 配置单元在 /apps/hive/warehouse/
目录中创建一个目录。
比如,您的 table 名称是 table1
那么您的目录将是 /apps/hive/warehouse/table1
此目录也是一个 HDFS 目录,当您将数据加载到 table 到内部 table 时,它会进入其目录。
Hive 在 table 与其相应的 HDFS 位置之间创建映射,因此当您读取数据时,它会从相应的映射目录读取数据。
因此不会有对应于 table 及其 HDFS 位置的数据副本。
但是如果在你的 Hadoop 集群中 Data Replication
因子设置为 3(默认复制)那么它将占用 3TB 集群磁盘 space(因为你有 1TB 数据)但是不会有任何影响您的蜂巢 table 数据。
请参阅下文link以了解有关数据复制的更多信息。
http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#Data+Replication
我的 HDFS 中有 1 TB 的 .csv 格式数据。当我将它加载到我的 Hive table 中时,数据的总大小是多少。我的意思是会有 2 个相同数据的副本,即 HDFS 中的 1 个副本和 Hive table 中的其他副本?请澄清。提前致谢。
这取决于您是在 Hive 中创建内部还是外部table。
如果您在 Hive 中创建一个外部 table,它将创建一个关于您的数据在 HDFS 中的存储位置的映射,并且根本不会有任何重复。 Hive 将自动选择存储在 HDFS 中的数据。
在此处阅读有关外部 table 的更多信息:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-ExternalTables
如果您创建一个外部配置单元 table,您为 table 提供了一个 HDFS 位置,并将该数据存储到该特定位置。
当您创建配置单元时,内部 table 配置单元在 /apps/hive/warehouse/
目录中创建一个目录。
比如,您的 table 名称是 table1
那么您的目录将是 /apps/hive/warehouse/table1
此目录也是一个 HDFS 目录,当您将数据加载到 table 到内部 table 时,它会进入其目录。
Hive 在 table 与其相应的 HDFS 位置之间创建映射,因此当您读取数据时,它会从相应的映射目录读取数据。
因此不会有对应于 table 及其 HDFS 位置的数据副本。
但是如果在你的 Hadoop 集群中 Data Replication
因子设置为 3(默认复制)那么它将占用 3TB 集群磁盘 space(因为你有 1TB 数据)但是不会有任何影响您的蜂巢 table 数据。
请参阅下文link以了解有关数据复制的更多信息。
http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html#Data+Replication