读取 azure databricks 中的文件夹时出错，该文件夹的子文件夹包含 parquet 文件

Question

我正在读取 azure databricks 中 adls 中的一个文件夹，其中包含包含 parquet 文件的子文件夹。

路径 - base_folder/filename/

文件名有 2020、2021 等子文件夹，这些文件夹也有月份和日期的子文件夹。

所以实际镶木地板文件的路径就像 - base_folder/filename/2020/12/01/part11111.parquet.

如果我提供基本文件夹路径，我会遇到以下错误。

我也尝试了下面的命令，但它显示了同样的错误。

请帮助我读取一个数据框中所有子文件夹中的所有 parquet 文件。

Answer 1

您的第一个错误：Unable to infer schema for Parquet 通常在您尝试将空目录读取为镶木地板时发生。您可以在路径中指定 *，它将遍历子目录，请看这里：Reading parquet files from multiple directories in Pyspark.
第二个错误：您使用的是 Scala API，您提供的示例在 Python 中。 DataFrameReader API 不同。参考：Scala - DataFrameReader - Python - DataFrameReader

试试：

spark.read.format("parquet").load(landingFolder)

Error while reading a folder in azure databricks which has subfolders with parquet files