Databricks

Question

很抱歉，如果这是基本的，我错过了一些简单的东西。我正在尝试运行下面的代码遍历文件夹中的文件，并将所有以特定字符串开头的文件合并到数据框中。所有文件都放在一个湖中。

file_list=[]
path = "/dbfs/rawdata/2019/01/01/parent/"
files  = dbutils.fs.ls(path)
for file in files:
    if(file.name.startswith("CW")):
       file_list.append(file.name)
df = spark.read.load(path=file_list)

# check point
print("Shape: ", df.count(),"," , len(df.columns))
db.printSchema()

这对我来说看起来不错，但显然这里有问题。我在这一行遇到错误：
files = dbutils.fs.ls(path)

错误消息如下：

java.io.FileNotFoundException: File/6199764716474501/dbfs/rawdata/2019/01/01/parent does not exist.

路径、文件和其他一切肯定存在。我尝试使用和不使用 'dbfs' 部分。会不会是权限问题？还有别的吗？我用谷歌搜索了一个解决方案。仍然无法获得牵引力。

Answer 1

如果您的父文件夹从 "rawdata" 开始，请确保您有一个名为 "dbfs" 的文件夹，路径应为“/rawdata/2019/01/01/parent”或 "rawdata/2019/01/01/parent"。

路径不正确会抛出错误

Databricks - FileNotFoundException

Databricks - FileNotFoundException

dataframe

apache-spark-sql

pyspark