Databricks - 将文件推送到 GIT
Databricks - push file to GIT
有什么办法可以:
- 从存储 (ADLS) 中获取文件(例如 .csv)
- 将其推送到 GIT (Azure DevOps) 存储库
使用 (Azure) Databricks notebook(以编程方式)?
我尝试了 Databricks Repos,但它仅适用于笔记本,并且只能通过 UI 和 git clone
在笔记本中不起作用。
我知道 databricks 存储库在您可以执行的 git 命令方面非常有限(依我的拙见,这应该有所改进)。
无论如何,默认情况下,数据库中只有 'recognizes' 个笔记本文件。您也可以允许 repos 检测其他文件。在 Settings
-> Admin console
下启用选项 Files in Repos
。我认为您需要管理员权限才能更改此设置。
更多信息:https://databricks.com/blog/2021/10/07/databricks-repos-is-now-generally-available.html
我做的是:
- 将文件从所需位置 (ADLS) 复制到某个临时文件夹(例如 FileStore)(使用 shell 或 dbutils)
- git 使用 shell 在笔记本中克隆。使用来自 Azure DevOps 的个人访问令牌进行克隆。文件被克隆到驱动程序节点,因此它们在任何地方都不可见或不可访问(在 UI 中)。
- 已将需要的文件复制到克隆的 repo 文件夹
- 推回 git(您必须提前使用 git 配置设置用户名和电子邮件)
有什么办法可以:
- 从存储 (ADLS) 中获取文件(例如 .csv)
- 将其推送到 GIT (Azure DevOps) 存储库
使用 (Azure) Databricks notebook(以编程方式)?
我尝试了 Databricks Repos,但它仅适用于笔记本,并且只能通过 UI 和 git clone
在笔记本中不起作用。
我知道 databricks 存储库在您可以执行的 git 命令方面非常有限(依我的拙见,这应该有所改进)。
无论如何,默认情况下,数据库中只有 'recognizes' 个笔记本文件。您也可以允许 repos 检测其他文件。在 Settings
-> Admin console
下启用选项 Files in Repos
。我认为您需要管理员权限才能更改此设置。
更多信息:https://databricks.com/blog/2021/10/07/databricks-repos-is-now-generally-available.html
我做的是:
- 将文件从所需位置 (ADLS) 复制到某个临时文件夹(例如 FileStore)(使用 shell 或 dbutils)
- git 使用 shell 在笔记本中克隆。使用来自 Azure DevOps 的个人访问令牌进行克隆。文件被克隆到驱动程序节点,因此它们在任何地方都不可见或不可访问(在 UI 中)。
- 已将需要的文件复制到克隆的 repo 文件夹
- 推回 git(您必须提前使用 git 配置设置用户名和电子邮件)