如何在 Hadoop 中使用 PigStorage 以及为什么?

How PigStorage is used in Hadoop and Why?

我很困惑,为什么在Hadoop中使用Pig处理数据时,我们需要在Hadoop HDFS之上添加另一个存储层PigStorage?存储在 PigStorage 中的文件是分布式的吗?谁能帮忙解释一下?

谢谢。

PigStorage 不是存储。它没有存储在任何地方;它读取并加载 纯文本文件

LOAD 进入 Avro 或 ORC 几乎总是更好

它只是文件系统数据的别名和模式的元数据(文件系统可以不仅仅是 HDFS)

A = LOAD '/path/file.txt' USING PigStorage()  // read plaintext from filesystem
B = // do something with A
LOAD B into '/path_orc' USING OrcStorage()  // store ORC back on same filesystem