PySpark 超出 Java 堆 space 即使在增加 spark.driver.memory 之后

PySpark out of Java heap space even after increasing spark.driver.memory

我已经尝试通过增加 spark.driver.memory 来增加内存,但仍然出现内存不足错误。 我需要去垃圾收集吗?

我一个接一个地调用这些函数来进行转换,但不断得到:

PySpark:java.lang.OutofMemoryError:Java 堆 space

我检查了旧问题,但它们没有帮助。

我没有日志,但听说是导致问题的代码。

df.toPandas().to_csv('out.csv')

创建系统变量:

_JAVA_OPTIONS=-Xmx4G -Xms3G.

默认情况下,此变量可能设置为较小的值。如果你有 8GB 内存,这么多应该可以解决你的问题。