如何将 tar.gz 中的多个文件加载到 Pig 中
How to load multiple files in tar.gz into Pig
场景:供应商将提供 tar.gz 格式的原始提要,其中包含制表符分隔格式的多个文件
文件详细信息:
a) One Hit 等级数据
b) 多个查找文件
c) (a)
的一个头文件
提要 (tar.gz) 将被摄取并登陆到 BDP 原始操作中。
查询:想将这些数据从操作原始区域加载到 Pig 中以进行数据质量检查过程。如何实现?文件应该提取到 hadoop 中供我们使用还是可用的替代方案?请指教。谢谢!
注意:任何示例脚本都会更有帮助
参考:http://pig.apache.org/docs/r0.9.1/func.html#load-store-functions
文档摘录:
处理压缩
是否支持压缩由 load/store 函数决定。 PigStorage 和 TextLoader 支持读取(加载)和写入(存储)的 gzip 和 bzip 压缩。 BinStorage 不支持压缩。
要使用 gzip 压缩文件,input/output 文件需要具有 .gz 扩展名。 Gzip 文件不能分割成多个地图;这意味着创建的地图数量等于输入位置中零件文件的数量。
A = load 'myinput.gz';
store A into 'myoutput.gz';
场景:供应商将提供 tar.gz 格式的原始提要,其中包含制表符分隔格式的多个文件 文件详细信息: a) One Hit 等级数据 b) 多个查找文件 c) (a)
的一个头文件提要 (tar.gz) 将被摄取并登陆到 BDP 原始操作中。
查询:想将这些数据从操作原始区域加载到 Pig 中以进行数据质量检查过程。如何实现?文件应该提取到 hadoop 中供我们使用还是可用的替代方案?请指教。谢谢! 注意:任何示例脚本都会更有帮助
参考:http://pig.apache.org/docs/r0.9.1/func.html#load-store-functions
文档摘录:
处理压缩
是否支持压缩由 load/store 函数决定。 PigStorage 和 TextLoader 支持读取(加载)和写入(存储)的 gzip 和 bzip 压缩。 BinStorage 不支持压缩。
要使用 gzip 压缩文件,input/output 文件需要具有 .gz 扩展名。 Gzip 文件不能分割成多个地图;这意味着创建的地图数量等于输入位置中零件文件的数量。
A = load 'myinput.gz';
store A into 'myoutput.gz';