如何使用 apache pig 过滤器查找“.PDF”

How to use apache pig filter to find '.PDF'

我在 HDFS 中有一个文件 /pigmix.txt,其中包含不同格式的文件列表,例如 .PDF.DOC.PPT 等。我只想过滤.PDF。如何使用 apache pig 过滤功能?

你能试试下面的 filter 命令吗?

输入:

file1.txt
file2.PDF
file3.doc
file4.ppt
file5.pdf

PigScript:

A = LOAD 'input' USING PigStorage() AS (filename:chararray);
B = FILTER A BY filename matches '.*\.(pdf|PDF)$';
DUMP B;

输出:

(file2.PDF)
(file5.pdf)