在 PIG 中如何删除相似值

In PIG how to remove similar values

在我的 pig 脚本中,我有一个 country1 和 country2 的列以及一个 id。在我的国家/地区字段中,一些值类似于以下内容。如何过滤掉至少 2 个连续 个相同字符的相似值?

例如:

a = load file
a = generate id, country1, country2

输出:

id1, us, usa
id2, gb, gba
id3, in, ind
id4, in, usa

expected output:
id4, in, usa

使用SUBSTRING获取第3列的前两个字符并将其与第2列的值进行比较。

B = FILTER A BY (LOWER(A.) != SUBSTRING(LOWER(A.),0,2));
DUMP B;