按 Pig 中的数组长度过滤

Filter by length of array in Pig

我有以 avro 格式存储的数据。每条记录(array_field,比方说)的字段之一是一个数组。使用 Pig 如何仅获取具有数组的记录,例如 length(array_field) >= 2,然后使用与原始输入相同的模式将结果存储在 avro 文件中?

这应该可以通过下面的代码实现:

A = LOAD '$INPUT' USING AvroStorage();
B = FILTER A BY SIZE(array_field) >= 2;
STORE B INTO '$OUTPUT' USING AvroStorage('schema', '<schema_here>');