如何使用 Pyspark 将数据框保存到 pickle 文件
How to save dataframe to pickle file using Pyspark
我必须将数据框保存到 Pickle 文件,但是 returns 出错
df.saveAsPickleFile(path)
AttributeError: 'Dataframe' 对象没有属性 'saveAsPickleFile'
saveAsPickleFile
是 RDD
而不是数据框的方法。
查看此文档:
http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=pickle
所以你可以打电话:
df.rdd.saveAsPickleFile(filename)
要从文件加载它,运行:
pickleRdd = sc.pickleFile(filename).collect()
df2 = spark.createDataFrame(pickleRdd)
我必须将数据框保存到 Pickle 文件,但是 returns 出错
df.saveAsPickleFile(path)
AttributeError: 'Dataframe' 对象没有属性 'saveAsPickleFile'
saveAsPickleFile
是 RDD
而不是数据框的方法。
查看此文档: http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=pickle
所以你可以打电话:
df.rdd.saveAsPickleFile(filename)
要从文件加载它,运行:
pickleRdd = sc.pickleFile(filename).collect()
df2 = spark.createDataFrame(pickleRdd)