如何在 pyspark sql 中保存一个 table?
How to save a table in pyspark sql?
我想将生成的 table 保存到 csv、文本文件或类似文件中,以便能够使用 RStudio 执行可视化。
我正在使用 pyspark.sql 在 hadoop 设置中执行一些查询。我想将我的结果保存在 hadoop 中,然后将结果复制到我的本地驱动器中。
myTable = sqlContext.sql("SOME QUERIES")
myTable.show() # Show my result
myTable.registerTempTable("myTable") # Save as table
myTable.saveAsTextFile("SEARCH PATH") # Saving result in my hadoop
这个returns这个:
AttributeError: 'DataFrame' 对象没有属性 'saveAsTextFile'
这就是我在仅使用 pyspark 时通常的做法,即不使用 pyspark.sql。
然后我用
复制到本地驱动器
hdfs dfs –copyToLocal SEARCH PATH
谁能帮帮我?
您可以将 DataFrameWriter
与一种受支持的格式一起使用。例如 JSON:
myTable.write.json(path)
我想将生成的 table 保存到 csv、文本文件或类似文件中,以便能够使用 RStudio 执行可视化。
我正在使用 pyspark.sql 在 hadoop 设置中执行一些查询。我想将我的结果保存在 hadoop 中,然后将结果复制到我的本地驱动器中。
myTable = sqlContext.sql("SOME QUERIES")
myTable.show() # Show my result
myTable.registerTempTable("myTable") # Save as table
myTable.saveAsTextFile("SEARCH PATH") # Saving result in my hadoop
这个returns这个:
AttributeError: 'DataFrame' 对象没有属性 'saveAsTextFile'
这就是我在仅使用 pyspark 时通常的做法,即不使用 pyspark.sql。
然后我用
复制到本地驱动器hdfs dfs –copyToLocal SEARCH PATH
谁能帮帮我?
您可以将 DataFrameWriter
与一种受支持的格式一起使用。例如 JSON:
myTable.write.json(path)