如何改进 pyspark 中的 .collect()?
how to improve .collect() in pyspark?
是否有任何其他方法可以调整 pyspark 以提高 .collect() 的性能?
我正在使用 map(lambda row: row.asDict(), x.collect())
,它需要超过 5 秒的时间来处理 10K 条记录。
我没试过,但也许
Apache Arrow 项目可以帮助你
是否有任何其他方法可以调整 pyspark 以提高 .collect() 的性能?
我正在使用 map(lambda row: row.asDict(), x.collect())
,它需要超过 5 秒的时间来处理 10K 条记录。
我没试过,但也许 Apache Arrow 项目可以帮助你