Databricks - 将文件推送到 GIT

Databricks - push file to GIT

有什么办法可以:

  1. 从存储 (ADLS) 中获取文件(例如 .csv)
  2. 将其推送到 GIT (Azure DevOps) 存储库

使用 (Azure) Databricks notebook(以编程方式)?

我尝试了 Databricks Repos,但它仅适用于笔记本,并且只能通过 UI 和 git clone 在笔记本中不起作用。

我知道 databricks 存储库在您可以执行的 git 命令方面非常有限(依我的拙见,这应该有所改进)。

无论如何,默认情况下,数据库中只有 'recognizes' 个笔记本文件。您也可以允许 repos 检测其他文件。在 Settings -> Admin console 下启用选项 Files in Repos。我认为您需要管理员权限才能更改此设置。

更多信息:https://databricks.com/blog/2021/10/07/databricks-repos-is-now-generally-available.html

我做的是:

  1. 将文件从所需位置 (ADLS) 复制到某个临时文件夹(例如 FileStore)(使用 shell 或 dbutils)
  2. git 使用 shell 在笔记本中克隆。使用来自 Azure DevOps 的个人访问令牌进行克隆。文件被克隆到驱动程序节点,因此它们在任何地方都不可见或不可访问(在 UI 中)。
  3. 已将需要的文件复制到克隆的 repo 文件夹
  4. 推回 git(您必须提前使用 git 配置设置用户名和电子邮件)