Databricks 仅打印大约 280 行数据

Databricks Prints Only Around 280 lines of data

我 运行 Databricks 的一些大型工作,目前包括清点数据湖。我正在尝试打印前缀(子文件夹)内的所有 blob 名称。这些子文件夹中有很多文件,我打印了大约 280 行文件名,但后来我看到了: *** WARNING: skipped 494256 bytes of output *** 然后,我又打印了 280 行。

我猜有一个控件可以改变这个,对吧。我当然希望如此。这是为处理大数据而不是 ~280 条记录而设计的。我明白庞大的数据集很容易让浏览器崩溃,但很常见,这基本没什么。

经过更多的研究,我偶然发现了一些对我有用的东西。

此外,这将显示数据框的内容,

display(df)

因此,这将生成您直接在上面看到的视图。

注意:使用 GUI,您可以下载完整结果(最多 100 万行)。

要下载完整结果(超过 100 万),首先将文件保存到 dbfs,然后使用 Databricks cli 将文件复制到本地计算机,如下所示。

dbfs cp "dbfs:/FileStore/tables/AA.csv" "A:\AzureAnalytics"

参考: Databricks file system

DBFS 命令行界面 (CLI) 使用 DBFS API 向 DBFS 公开一个易于使用的命令行界面。使用此客户端,您可以使用类似于在 Unix 命令行上使用的命令与 DBFS 交互。例如:

# List files in DBFS
dbfs ls
# Put local file ./apple.txt to dbfs:/apple.txt
dbfs cp ./apple.txt dbfs:/apple.txt
# Get dbfs:/apple.txt and save to local file ./apple.txt
dbfs cp dbfs:/apple.txt ./apple.txt
# Recursively put local dir ./banana to dbfs:/banana
dbfs cp -r ./banana dbfs:/banana

参考: Installing and configuring Azure Databricks CLI

希望对您有所帮助。