如何将 PySpark 管道 rdd（元组内的元组）转换为数据帧？

Question

我有一个像下面这样的 PySpark 管道 RDD

(1,([1,2,3,4],[5,3,4,5])
(2,([1,2,4,5],[4,5,6,7])

我想生成如下数据框：

Id  sid  cid
1   1   5
1   2   3   
1   3   4
1   4   5
2   1   4
2   2   5
2   4   6
2   5   7

请帮我解决这个问题。

Answer 1

如果你有这样的 RDD，

rdd = sc.parallelize([
   (1, ([1,2,3,4], [5,3,4,5])),
   (2, ([1,2,4,5], [4,5,6,7]))
])

我只会使用 RDD：

rdd.flatMap(lambda rec:
    ((rec[0], sid, cid) for sid, cid in zip(rec[1][0], rec[1][1]))
).toDF(["id", "sid", "cid"]).show()

# +---+---+---+
# | id|sid|cid|
# +---+---+---+
# |  1|  1|  5|
# |  1|  2|  3|
# |  1|  3|  4|
# |  1|  4|  5|
# |  2|  1|  4|
# |  2|  2|  5|
# |  2|  4|  6|
# |  2|  5|  7|
# +---+---+---+

如何将 PySpark 管道 rdd（元组内的元组）转换为数据帧？

How to convert PySpark pipeline rdd (tuple inside tuple) into Data Frame?

python-3.x

apache-spark

apache-spark-sql

pyspark

pyspark-sql