python 的 Apache 火花

Apache spark with python

我想使用 python 读取 spark 数据帧,然后将 spark 数据帧转换为 pandas 数据帧,然后将 pandas 数据帧转换回 spark 数据帧(在进行一些数据分析后) 。请提出建议。

我真的建议你花点时间仔细阅读 Spark 的文档,重点放在 Pyspark 实现上,因为它的示例比其他的多。

很简单,如果您阅读 SQLContext.createDataFrame 的文档,您会发现它们可以接收下一个结构的数据:

createDataFrame(data, schema=None, samplingRatio=None)

data – an RDD of Row/tuple/list/dict, list, or pandas.DataFrame.

此外,如果你阅读与 DataFrames 相关的文档,你会注意到他们有一个名为 toPandas 的方法,它允许将 spark 的 DataFrame 转换为 Pandas