Pyspark RDD .filter() 带通配符

Question

我有一个 Pyspark RDD，其中有一个我想用作过滤器的文本列，所以我有以下代码：

table2 = table1.filter(lambda x: x[12] == "*TEXT*")

问题是...如您所见，我正在使用 * 试图告诉他将其解释为通配符，但没有成功。没有人有帮助吗？

Answer 1

lambda 函数是纯函数 python，所以像下面这样的东西可以工作

table2 = table1.filter(lambda x: "TEXT" in x[12])

Pyspark RDD .filter() with wildcard