如何使用 Pyspark 将数据框保存到 pickle 文件

How to save dataframe to pickle file using Pyspark

我必须将数据框保存到 Pickle 文件,但是 returns 出错

df.saveAsPickleFile(path)

AttributeError: 'Dataframe' 对象没有属性 'saveAsPickleFile'

saveAsPickleFileRDD 而不是数据框的方法。

查看此文档: http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=pickle

所以你可以打电话:

df.rdd.saveAsPickleFile(filename)

要从文件加载它,运行:

pickleRdd = sc.pickleFile(filename).collect()
df2 = spark.createDataFrame(pickleRdd)