使用 Impala 在 HDFS 中查询 Parquet 文件
Querying Parquet file in HDFS using Impala
我正在尝试使用 Impala 读取镶木地板文件。
impala-shell> SELECT * FROM `/path/in/hdfs/*.parquet`
我知道我可以使用 Spark 或 Drill 做到这一点,但我想知道是否可以使用 Impala?
谢谢
您需要在 parquet
文件之上创建结构化 table
以通过 Impala.
进行查询
指向 parquet 目录的 external table
的一般示例 ... Cloudera 文档在此处提供了所有方法:
https://www.cloudera.com/documentation/enterprise/latest/topics/impala_parquet.html#parquet_ddl
CREATE EXTERNAL TABLE ingest_existing_files LIKE PARQUET '/user/etl/destination/datafile1.dat'
STORED AS PARQUET
LOCATION '/user/etl/destination';
我正在尝试使用 Impala 读取镶木地板文件。
impala-shell> SELECT * FROM `/path/in/hdfs/*.parquet`
我知道我可以使用 Spark 或 Drill 做到这一点,但我想知道是否可以使用 Impala?
谢谢
您需要在 parquet
文件之上创建结构化 table
以通过 Impala.
指向 parquet 目录的 external table
的一般示例 ... Cloudera 文档在此处提供了所有方法:
https://www.cloudera.com/documentation/enterprise/latest/topics/impala_parquet.html#parquet_ddl
CREATE EXTERNAL TABLE ingest_existing_files LIKE PARQUET '/user/etl/destination/datafile1.dat'
STORED AS PARQUET
LOCATION '/user/etl/destination';