如何将 tar.gz 中的多个文件加载到 Pig 中

How to load multiple files in tar.gz into Pig

场景:供应商将提供 tar.gz 格式的原始提要,其中包含制表符分隔格式的多个文件 文件详细信息: a) One Hit 等级数据 b) 多个查找文件 c) (a)

的一个头文件

提要 (tar.gz) 将被摄取并登陆到 BDP 原始操作中。

查询:想将这些数据从操作原始区域加载到 Pig 中以进行数据质量检查过程。如何实现?文件应该提取到 hadoop 中供我们使用还是可用的替代方案?请指教。谢谢! 注意:任何示例脚本都会更有帮助

参考:http://pig.apache.org/docs/r0.9.1/func.html#load-store-functions

文档摘录:

处理压缩

是否支持压缩由 load/store 函数决定。 PigStorage 和 TextLoader 支持读取(加载)和写入(存储)的 gzip 和 bzip 压缩。 BinStorage 不支持压缩。

要使用 gzip 压缩文件,input/output 文件需要具有 .gz 扩展名。 Gzip 文件不能分割成多个地图;这意味着创建的地图数量等于输入位置中零件文件的数量。

A = load 'myinput.gz'; 
store A into 'myoutput.gz';