如何比较 PIG 中的两列并删除任何相同的值,而不考虑 upper/lower 大小写

How to compare two columns in PIG and remove any same values regardless of upper/lower case

我有 3 列,一个 id 列和 2 个名称列。有时 2 个名称列的值相同,但其中一个在一列中为大写,而在另一列中为小写。如何删除值相同(或具有相似字符)但大小写不同的值?

例如:

a = 加载 txt 文件 a = foreach a 生成 id, name1, name2

当前输出:

id1, james, JAMES
id2, tom, Tom
id3, Jim, Bob
id4, Bill, billy

预期输出:下面只有这 1 个结果

a = 比较 name1 和 name2,如果 name1 中有任何相似的字符也在 name 2 中,则将其过滤掉

id3、吉姆、鲍勃

感谢您的帮助!

假设您已经在关系 A 中加载数据并且名称是字符数组类型。

A = FILTER A BY (LOWER(A.) != LOWER(A.))
DUMP A;