Pyspark RDD .filter() 带通配符
Pyspark RDD .filter() with wildcard
我有一个 Pyspark RDD,其中有一个我想用作过滤器的文本列,所以我有以下代码:
table2 = table1.filter(lambda x: x[12] == "*TEXT*")
问题是...如您所见,我正在使用 *
试图告诉他将其解释为通配符,但没有成功。
没有人有帮助吗?
lambda 函数是纯函数 python,所以像下面这样的东西可以工作
table2 = table1.filter(lambda x: "TEXT" in x[12])
我有一个 Pyspark RDD,其中有一个我想用作过滤器的文本列,所以我有以下代码:
table2 = table1.filter(lambda x: x[12] == "*TEXT*")
问题是...如您所见,我正在使用 *
试图告诉他将其解释为通配符,但没有成功。
没有人有帮助吗?
lambda 函数是纯函数 python,所以像下面这样的东西可以工作
table2 = table1.filter(lambda x: "TEXT" in x[12])