将 pyspark sql 查询输出写入 csv 文件

Write pyspark sql query output to csv file

我执行 sql 查询、将其转换为 pandas 然后写入 csv 文件的代码如下所示,但在执行时看到错误。

src_query = """select * from table"""

df = spark.sql(src_query).toPandas()

df.write.csv('output.csv', index=False)

这是我在执行它时在最后一行看到的错误 - “无效语法” 任何人都可以分享任何关于如何轻松地将 spark 输出写入 csv 文件的技巧吗?

这是pyspark的语法。

df.write.csv

但是,您使用此方法将数据帧转换为 Pandas 数据帧。

df = spark.sql(src_query).toPandas()

因此,df 是 pandas 对象,您需要使用 pandas 语法。

df.to_csv('output.csv', index=False)

试试看

filename='output.csv'
df.to_csv(file_name, encoding='utf-8', index=False)