为什么我在 Spark UI 中看到单次读取有两个作业？

Question

我正在尝试运行下面的脚本来加载包含 24k 条记录的文件。为什么我在 Spark UI.

中看到单次加载有两个作业？

代码


from pyspark.sql import SparkSession

spark = SparkSession\
    .builder\
    .appName("DM")\
    .getOrCreate()


trades_df = spark.read.format("csv")\
    .option("header", "true")\
    .option("inferSchema", "true")\
    .load("s3://bucket/source.csv")

trades_df.rdd.numPartitions() 是 1

Spark UI Image

Answer 1

那是因为启用 inferSchema 后 spark 读取 csv 文件两次。

阅读 spark 的 github 存储库 here 上函数 def csv(csvDataset: Dataset[String]): DataFrame 的注释。

为什么我在 Spark UI 中看到单次读取有两个作业？

Why do I see two jobs in Spark UI for a single read?

apache-spark

pyspark

spark-ui