根据列值过滤 RDD

Question

我在 spark 中有一个文件，其中包含以下 table 数据

属性 ID|位置|价格|卧室|浴室

我已将此文件读取为 rdd 使用：-

a = sc.textFile("/FileStore/tables/realestate.txt")

现在我需要找到

b。创建具有 3 个卧室属性个 ID 的 RDD

c。创建另一个包含属性个至少有 2 个浴室的 ID 的 RDD

如何 select rdd 中的一列并根据列值过滤 table。

Answer 1

您可以 filter 使用 lambda 函数的 RDD：

b = a.filter(lambda r: int(r.split('|')[3]) == 3 if r.split('|')[0] != 'Property ID' else True)
c = a.filter(lambda r: int(r.split('|')[4]) >= 2 if r.split('|')[0] != 'Property ID' else True)

根据列值过滤 RDD

Filtering RDD based on column values

apache-spark

rdd

apache-spark-sql

pyspark