Apache Pig 支持哪种文件格式?

Which file format is available on Apache Pig?

我是 Apache Pig 新手。

我不确定 Pig 上可用的输入文件格式。

例如,Parquet、Text、Avro、RCFile 和 SequenceFile 在 Impala 上可用。 (参见:How Impala Works with Hadoop File Formats

我想文本文件没问题,因为数据加载示例使用的是 .log 文件。 (参见:Getting Started) 我还发现 AvroStorage page,所以 Avro 可用。

然后,Parquet、RCFile、SequenceFile 等怎么样?或者,我有什么问题吗?

请多多指教,谢谢

使用built-in functions of the 1.4 version,您可以阅读以下内容:

  1. BinStorage
  2. JsonLoader、JsonStorage
  3. PigDump
  4. PigStorage
  5. TextLoader
  6. HBaseStorage
  7. AvroStorage
  8. TrevniStorage
  9. 累积存储
  10. OrcStorage

对于某些加载程序,使用 gzip 和 bzip compression support

您可以使用 HCatalog 从任何其他 Hadoop 组件读取数据。

以及 piggybank 库中的许多其他加载程序。

否则,您可以自己编写loader