在 Spark 上读取 CSV 文件
Read CSV file on Spark
我开始使用 Spark
并发现了一个问题。
我尝试使用以下代码读取 CSV
文件:
df = spark.read.csv("/home/oybek/Serverspace/Serverspace/Athletes.csv")
df.show(5)
Error
:
Py4JJavaError: An error occurred while calling o38.csv.
: java.lang.OutOfMemoryError: Java heap space
我在Linux Ubuntu, VirtualBox:~/Serverspace
工作。
您可以尝试通过创建如下所示的 spark session
变量来更改 driver
内存:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.master('local[*]') \
.config("spark.driver.memory", "4g") \
.appName('read-csv') \
.getOrCreate()
我开始使用 Spark
并发现了一个问题。
我尝试使用以下代码读取 CSV
文件:
df = spark.read.csv("/home/oybek/Serverspace/Serverspace/Athletes.csv")
df.show(5)
Error
:
Py4JJavaError: An error occurred while calling o38.csv.
: java.lang.OutOfMemoryError: Java heap space
我在Linux Ubuntu, VirtualBox:~/Serverspace
工作。
您可以尝试通过创建如下所示的 spark session
变量来更改 driver
内存:
from pyspark.sql import SparkSession
spark = SparkSession.builder \
.master('local[*]') \
.config("spark.driver.memory", "4g") \
.appName('read-csv') \
.getOrCreate()