如何在 DBFS 中保存和下载本地 csv?
How to save and download locally csv in DBFS?
我正在尝试保存 csv 文件作为 SQL 查询的结果,通过 Databricks 发送到 Athena。
该文件应该很大 table,大约 4-6 GB(约 4000 万行)。
我正在执行后续步骤:
通过以下方式创建 PySpark 数据框:
df = sqlContext.sql("select * from my_table where year = 19")
正在将 PySpark 数据帧转换为 Pandas 数据帧。我意识到,这一步可能是不必要的,但我只是开始使用 Databricks 并且可能不知道所需的命令来更快地完成它。所以我这样做:
ab = df.toPandas()
将文件保存在某处以便稍后在本地下载:
ab.to_csv('my_my.csv')
但是如何下载呢?
由于我不知道使用 Databricks 的很多技巧和细节,因此请您非常具体。
使用 GUI,您可以下载完整结果(最多 100 万行)。
要下载完整结果,请先将文件保存到 dbfs,然后使用 Databricks cli 将文件复制到本地计算机,如下所示。
dbfs cp "dbfs:/FileStore/tables/my_my.csv" "A:\AzureAnalytics"
DBFS 命令行界面 (CLI) 使用 DBFS API 向 DBFS 公开一个易于使用的命令行界面。使用此客户端,您可以使用类似于在 Unix 命令行上使用的命令与 DBFS 交互。例如:
# List files in DBFS
dbfs ls
# Put local file ./apple.txt to dbfs:/apple.txt
dbfs cp ./apple.txt dbfs:/apple.txt
# Get dbfs:/apple.txt and save to local file ./apple.txt
dbfs cp dbfs:/apple.txt ./apple.txt
# Recursively put local dir ./banana to dbfs:/banana
dbfs cp -r ./banana dbfs:/banana
参考: Installing and configuring Azure Databricks CLI
希望对您有所帮助。
我正在尝试保存 csv 文件作为 SQL 查询的结果,通过 Databricks 发送到 Athena。 该文件应该很大 table,大约 4-6 GB(约 4000 万行)。
我正在执行后续步骤:
通过以下方式创建 PySpark 数据框:
df = sqlContext.sql("select * from my_table where year = 19")
正在将 PySpark 数据帧转换为 Pandas 数据帧。我意识到,这一步可能是不必要的,但我只是开始使用 Databricks 并且可能不知道所需的命令来更快地完成它。所以我这样做:
ab = df.toPandas()
将文件保存在某处以便稍后在本地下载:
ab.to_csv('my_my.csv')
但是如何下载呢?
由于我不知道使用 Databricks 的很多技巧和细节,因此请您非常具体。
使用 GUI,您可以下载完整结果(最多 100 万行)。
要下载完整结果,请先将文件保存到 dbfs,然后使用 Databricks cli 将文件复制到本地计算机,如下所示。
dbfs cp "dbfs:/FileStore/tables/my_my.csv" "A:\AzureAnalytics"
DBFS 命令行界面 (CLI) 使用 DBFS API 向 DBFS 公开一个易于使用的命令行界面。使用此客户端,您可以使用类似于在 Unix 命令行上使用的命令与 DBFS 交互。例如:
# List files in DBFS
dbfs ls
# Put local file ./apple.txt to dbfs:/apple.txt
dbfs cp ./apple.txt dbfs:/apple.txt
# Get dbfs:/apple.txt and save to local file ./apple.txt
dbfs cp dbfs:/apple.txt ./apple.txt
# Recursively put local dir ./banana to dbfs:/banana
dbfs cp -r ./banana dbfs:/banana
参考: Installing and configuring Azure Databricks CLI
希望对您有所帮助。