如何使用 apache pig 过滤器查找“.PDF”
How to use apache pig filter to find '.PDF'
我在 HDFS 中有一个文件 /pigmix.txt
,其中包含不同格式的文件列表,例如 .PDF
、.DOC
、.PPT
等。我只想过滤.PDF
。如何使用 apache pig 过滤功能?
你能试试下面的 filter 命令吗?
输入:
file1.txt
file2.PDF
file3.doc
file4.ppt
file5.pdf
PigScript:
A = LOAD 'input' USING PigStorage() AS (filename:chararray);
B = FILTER A BY filename matches '.*\.(pdf|PDF)$';
DUMP B;
输出:
(file2.PDF)
(file5.pdf)
我在 HDFS 中有一个文件 /pigmix.txt
,其中包含不同格式的文件列表,例如 .PDF
、.DOC
、.PPT
等。我只想过滤.PDF
。如何使用 apache pig 过滤功能?
你能试试下面的 filter 命令吗?
输入:
file1.txt
file2.PDF
file3.doc
file4.ppt
file5.pdf
PigScript:
A = LOAD 'input' USING PigStorage() AS (filename:chararray);
B = FILTER A BY filename matches '.*\.(pdf|PDF)$';
DUMP B;
输出:
(file2.PDF)
(file5.pdf)