在 Hive 中将分区数据插入外部 Table
Inserting Partitioned Data into External Table in Hive
关于将数据插入外部 Table。
我创建了一个外部 parquet table,它按指向 hadoop 位置的周进行分区,之后我将数据(一个 .csv 文件)移动到该位置。
我的疑问是因为 table 是按周划分的,即使我只是将文件移动到那个目录,配置单元也不会读取,我必须使用插入命令,相比之下我们有一个配置单元 table 未分区,将直接从该 hadoop 路径读取
您需要考虑 CSV 中包含哪些数据。例如,如果您按年对时间数据进行分区,则不会将包含多个年份值的 CSV 复制到单个分区中。您需要拆分数据集。
even if I just move the file to that directory , hive would not read and I have to use insert command
正确。特别是因为它是一个试图读取 CSV 的 parquet serde。
为了澄清,Hive 将读取 CSV 如果放置在 table 中并存储为文本。
您需要一个单独的 table,您可以在其中读取文本文件,然后插入另一个文件,同时转换文件格式
关于将数据插入外部 Table。
我创建了一个外部 parquet table,它按指向 hadoop 位置的周进行分区,之后我将数据(一个 .csv 文件)移动到该位置。
我的疑问是因为 table 是按周划分的,即使我只是将文件移动到那个目录,配置单元也不会读取,我必须使用插入命令,相比之下我们有一个配置单元 table 未分区,将直接从该 hadoop 路径读取
您需要考虑 CSV 中包含哪些数据。例如,如果您按年对时间数据进行分区,则不会将包含多个年份值的 CSV 复制到单个分区中。您需要拆分数据集。
even if I just move the file to that directory , hive would not read and I have to use insert command
正确。特别是因为它是一个试图读取 CSV 的 parquet serde。
为了澄清,Hive 将读取 CSV 如果放置在 table 中并存储为文本。
您需要一个单独的 table,您可以在其中读取文本文件,然后插入另一个文件,同时转换文件格式