在 Pig 的 GROUP 和 COUNT 之后减少
Reducing after GROUP and COUNT in Pig
我有一个 table,我试图在其中查找标识符出现的次数
我首先加载 table
a = LOAD 'table' USING org.apache.hive.hcatalog.pig.HCatLoader();
然后减少列数
b = FOREACH a GENERATE col1, col2, col3, col4;
我将结果分组在 col1 上,因为它包含我正在查找的 ID
c = GROUP b BY col1;
然后统计每个分组下的元素个数
d = FOREACH c GENERATE COUNT(b), b.col1;
结果是
(1,{(111)})
(1,{(116)})
(2,{(118),(118)})
(2,{(122),(122)})
(2,{(125),(125)})
(1,{(134)})
(2,{(136),(136)})
(2,{(153),(153)})
(1,{(153)})
每行中的第二个元素是 ID,重复出现的次数。我怎样才能消除这个包,而只有计数和 ID 元组?
d = FOREACH c 生成计数(b), b.col1;
-->
d = FOREACH c 生成计数(b),组;
我有一个 table,我试图在其中查找标识符出现的次数
我首先加载 table
a = LOAD 'table' USING org.apache.hive.hcatalog.pig.HCatLoader();
然后减少列数
b = FOREACH a GENERATE col1, col2, col3, col4;
我将结果分组在 col1 上,因为它包含我正在查找的 ID
c = GROUP b BY col1;
然后统计每个分组下的元素个数
d = FOREACH c GENERATE COUNT(b), b.col1;
结果是
(1,{(111)})
(1,{(116)})
(2,{(118),(118)})
(2,{(122),(122)})
(2,{(125),(125)})
(1,{(134)})
(2,{(136),(136)})
(2,{(153),(153)})
(1,{(153)})
每行中的第二个元素是 ID,重复出现的次数。我怎样才能消除这个包,而只有计数和 ID 元组?
d = FOREACH c 生成计数(b), b.col1;
-->
d = FOREACH c 生成计数(b),组;