在 Spark 上读取 CSV 文件

Read CSV file on Spark

我开始使用 Spark 并发现了一个问题。 我尝试使用以下代码读取 CSV 文件:

df = spark.read.csv("/home/oybek/Serverspace/Serverspace/Athletes.csv")
df.show(5)

Error:

Py4JJavaError: An error occurred while calling o38.csv.
: java.lang.OutOfMemoryError: Java heap space

我在Linux Ubuntu, VirtualBox:~/Serverspace工作。

您可以尝试通过创建如下所示的 spark session 变量来更改 driver 内存:

from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .master('local[*]') \
    .config("spark.driver.memory", "4g") \
    .appName('read-csv') \
    .getOrCreate()