如何在 Hadoop 中使用 PigStorage 以及为什么?
How PigStorage is used in Hadoop and Why?
我很困惑,为什么在Hadoop中使用Pig处理数据时,我们需要在Hadoop HDFS之上添加另一个存储层PigStorage?存储在 PigStorage 中的文件是分布式的吗?谁能帮忙解释一下?
谢谢。
PigStorage 不是存储。它没有存储在任何地方;它读取并加载 纯文本文件 。
LOAD
进入 Avro 或 ORC 几乎总是更好
它只是文件系统数据的别名和模式的元数据(文件系统可以不仅仅是 HDFS)
A = LOAD '/path/file.txt' USING PigStorage() // read plaintext from filesystem
B = // do something with A
LOAD B into '/path_orc' USING OrcStorage() // store ORC back on same filesystem
我很困惑,为什么在Hadoop中使用Pig处理数据时,我们需要在Hadoop HDFS之上添加另一个存储层PigStorage?存储在 PigStorage 中的文件是分布式的吗?谁能帮忙解释一下?
谢谢。
PigStorage 不是存储。它没有存储在任何地方;它读取并加载 纯文本文件 。
LOAD
进入 Avro 或 ORC 几乎总是更好
它只是文件系统数据的别名和模式的元数据(文件系统可以不仅仅是 HDFS)
A = LOAD '/path/file.txt' USING PigStorage() // read plaintext from filesystem
B = // do something with A
LOAD B into '/path_orc' USING OrcStorage() // store ORC back on same filesystem