Apache Pig 支持哪种文件格式?
Which file format is available on Apache Pig?
我是 Apache Pig 新手。
我不确定 Pig 上可用的输入文件格式。
例如,Parquet、Text、Avro、RCFile 和 SequenceFile 在 Impala 上可用。 (参见:How Impala Works with Hadoop File Formats)
我想文本文件没问题,因为数据加载示例使用的是 .log
文件。 (参见:Getting Started)
我还发现 AvroStorage page,所以 Avro 可用。
然后,Parquet、RCFile、SequenceFile 等怎么样?或者,我有什么问题吗?
请多多指教,谢谢
使用built-in functions of the 1.4 version,您可以阅读以下内容:
- BinStorage
- JsonLoader、JsonStorage
- PigDump
- PigStorage
- TextLoader
- HBaseStorage
- AvroStorage
- TrevniStorage
- 累积存储
- OrcStorage
对于某些加载程序,使用 gzip 和 bzip compression support。
您可以使用 HCatalog 从任何其他 Hadoop 组件读取数据。
以及 piggybank 库中的许多其他加载程序。
否则,您可以自己编写loader。
我是 Apache Pig 新手。
我不确定 Pig 上可用的输入文件格式。
例如,Parquet、Text、Avro、RCFile 和 SequenceFile 在 Impala 上可用。 (参见:How Impala Works with Hadoop File Formats)
我想文本文件没问题,因为数据加载示例使用的是 .log
文件。 (参见:Getting Started)
我还发现 AvroStorage page,所以 Avro 可用。
然后,Parquet、RCFile、SequenceFile 等怎么样?或者,我有什么问题吗?
请多多指教,谢谢
使用built-in functions of the 1.4 version,您可以阅读以下内容:
- BinStorage
- JsonLoader、JsonStorage
- PigDump
- PigStorage
- TextLoader
- HBaseStorage
- AvroStorage
- TrevniStorage
- 累积存储
- OrcStorage
对于某些加载程序,使用 gzip 和 bzip compression support。
您可以使用 HCatalog 从任何其他 Hadoop 组件读取数据。
以及 piggybank 库中的许多其他加载程序。
否则,您可以自己编写loader。