如何改进 pyspark 中的 .collect()？

how to improve .collect() in pyspark?

是否有任何其他方法可以调整 pyspark 以提高 .collect() 的性能？

我正在使用 map(lambda row: row.asDict(), x.collect())，它需要超过 5 秒的时间来处理 10K 条记录。

我没试过，但也许 Apache Arrow 项目可以帮助你