提高 PIG Script 的效率

Question

数据集：
我有一个（ID，类别）格式的数据集（data.txt），如下所示：

    01,X
    02,Y
    03,X
    04,Y
    05,X
    06,X
    07,Z
    08,Z
    09,X
    10,Z

Objective:
objective是在不使用UDF的情况下，找出哪个类别的ID数量最多。

一种方法：
我已经尝试了多次并得出结论，这可以通过以下一组 PIG 语句来实现

 A1 = LOAD 'data.txt' USING PigStorage(',') AS (ID:int , Category:chararray);
 A2 = DISTINCT A1;
 A3 = GROUP A2 BY Category;
 A4 = FOREACH A3 GENERATE group AS Category, COUNT(A2.ID) AS Number;
 A5 = GROUP A4 ALL;
 A6 = FOREACH A5 GENERATE MAX(A4.Number);
 A7 = FILTER A4 by Number == A6.[=11=];
 A8 = FOREACH A7 GENERATE Category;
 DUMP A8;

要求：
尽管这些陈述给出了预期的结果，但我对其效率并不满意。由于我是 PIG 的新手，我不确定是否有任何内置函数可以执行此类任务以从 table 输出相应的最小值或最大值。

我的要求是知道这是否可以通过更少的步骤来实现。

非常感谢

Answer 1

分组后按计数降序对分组进行排序，取最上面的记录。

A1 = LOAD 'data.txt' USING PigStorage(',') AS (ID:int , Category:chararray);
A2 = DISTINCT A1;
A3 = GROUP A2 BY Category;
A4 = FOREACH A3 GENERATE group AS Category, COUNT(A2.ID) AS Number;
A5 = ORDER A4 BY Number DESC;
A6 = LIMIT A5 1;
DUMP A6.[=10=];

提高 PIG Script 的效率

Improve efficiency of PIG Script

apache-pig

hadoop2