如何比较 PIG 中的两列并删除任何相同的值,而不考虑 upper/lower 大小写
How to compare two columns in PIG and remove any same values regardless of upper/lower case
我有 3 列,一个 id 列和 2 个名称列。有时 2 个名称列的值相同,但其中一个在一列中为大写,而在另一列中为小写。如何删除值相同(或具有相似字符)但大小写不同的值?
例如:
a = 加载 txt 文件
a = foreach a 生成 id, name1, name2
当前输出:
id1, james, JAMES
id2, tom, Tom
id3, Jim, Bob
id4, Bill, billy
预期输出:下面只有这 1 个结果
a = 比较 name1 和 name2,如果 name1 中有任何相似的字符也在 name 2 中,则将其过滤掉
id3、吉姆、鲍勃
感谢您的帮助!
假设您已经在关系 A 中加载数据并且名称是字符数组类型。
A = FILTER A BY (LOWER(A.) != LOWER(A.))
DUMP A;
我有 3 列,一个 id 列和 2 个名称列。有时 2 个名称列的值相同,但其中一个在一列中为大写,而在另一列中为小写。如何删除值相同(或具有相似字符)但大小写不同的值?
例如:
a = 加载 txt 文件 a = foreach a 生成 id, name1, name2
当前输出:
id1, james, JAMES
id2, tom, Tom
id3, Jim, Bob
id4, Bill, billy
预期输出:下面只有这 1 个结果
a = 比较 name1 和 name2,如果 name1 中有任何相似的字符也在 name 2 中,则将其过滤掉
id3、吉姆、鲍勃
感谢您的帮助!
假设您已经在关系 A 中加载数据并且名称是字符数组类型。
A = FILTER A BY (LOWER(A.) != LOWER(A.))
DUMP A;