读取 azure databricks 中的文件夹时出错,该文件夹的子文件夹包含 parquet 文件

Error while reading a folder in azure databricks which has subfolders with parquet files

我正在读取 azure databricks 中 adls 中的一个文件夹,其中包含包含 parquet 文件的子文件夹。

路径 - base_folder/filename/

文件名有 2020、2021 等子文件夹,这些文件夹也有月份和日期的子文件夹。

所以实际镶木地板文件的路径就像 - base_folder/filename/2020/12/01/part11111.parquet.

如果我提供基本文件夹路径,我会遇到以下错误。

我也尝试了下面的命令,但它显示了同样的错误。

请帮助我读取一个数据框中所有子文件夹中的所有 parquet 文件。

  • 您的第一个错误:Unable to infer schema for Parquet 通常在您尝试将空目录读取为镶木地板时发生。您可以在路径中指定 *,它将遍历子目录,请看这里:Reading parquet files from multiple directories in Pyspark.

  • 第二个错误:您使用的是 Scala API,您提供的示例在 Python 中。 DataFrameReader API 不同。参考:Scala - DataFrameReader - Python - DataFrameReader

试试:

spark.read.format("parquet").load(landingFolder)

此处指定: 通用 Load/Save 函数