如何在 Hadoop 中使用 PigStorage 以及为什么？

Question

我很困惑，为什么在Hadoop中使用Pig处理数据时，我们需要在Hadoop HDFS之上添加另一个存储层PigStorage？存储在 PigStorage 中的文件是分布式的吗？谁能帮忙解释一下？

谢谢。

Answer 1

PigStorage 不是存储。它没有存储在任何地方；它读取并加载 纯文本文件 。

LOAD 进入 Avro 或 ORC 几乎总是更好

它只是文件系统数据的别名和模式的元数据（文件系统可以不仅仅是 HDFS）

A = LOAD '/path/file.txt' USING PigStorage()  // read plaintext from filesystem
B = // do something with A
LOAD B into '/path_orc' USING OrcStorage()  // store ORC back on same filesystem

如何在 Hadoop 中使用 PigStorage 以及为什么？

How PigStorage is used in Hadoop and Why?

hadoop

apache-pig