Pig 数据类型:有序元组 v/s 无序包

Pig Data Types : Ordered Tuple v/s Unordered Bag

引用 OReilly :

元组:数据元素的有序集合。 Bag : 元组的无序集合。

我对 pig 还很陌生,这可能是一个微不足道的问题,但我需要帮助来理解元组是 "ordered" 元素的集合,而包不是。

谢谢。

想想最简单的示例 - 一个格式良好、未排序的 CSV 文件。

当您将文件读入 PIG 时,每一行都是一个元组。字段的集合。每个字段都有它的位置;说 'the first field'、'the 3rd field' 和 'the last field'.

是有道理的

但是,这些行的顺序是没有意义的。同样,包中元组的顺序是任意的,不能依赖。

这里有一个关于概念的有趣讨论:How do I extract the first tuple from a generated bag (whose size might vary) in PIG?

元组定义为“有序元素”,其中包定义为“无序元组”。

你可以通过简单的例子来理解 -

假设有一所大学,它有各种分支机构,即 CSE、ME、EC、EI、EN 等。每个分支机构都有 HOD、Asst.Professor、教授、Peon。

元组:每个分支的详细信息集合,即每个分支中都有一个顺序,例如第一个将是 HOD,第二个将是 ..,第三个将是 .. 等

Bag :Branch 的集合,即它不包含任何特定顺序(无序)。

希望我能理解你。