Azure Databricks - 运行 来自 Gen2 Data Lake Storage 的 Spark Jar

Azure Databrics - Running a Spark Jar from Gen2 DataLake Storage

我正在尝试 运行 来自 Azure Databrics 的火花提交。目前我可以创建一个作业,将 jar 上传到 Databrics 工作区,然后 运行 它。

我的查询是:

  1. 有没有办法访问驻留在 GEN2 DataLake 存储上的 jar 并从 Databrics 工作区甚至从 Azure ADF 进行火花提交? (因为工作区和GEN2存储之间的通信受到保护"fs.azure.account.key")

  2. 有没有办法从数据块笔记本中进行火花提交?

Is there a way to access a jar residing on a GEN2 DataLake storage and do a spark-submit from Databrics workspace, or even from Azure ADF ? (Because the communication between the workspace and GEN2 storage is protected "fs.azure.account.key") Unfortunately, you cannot access a jar residing on Azure Storage such as ADLS Gen2/Gen1 account.

注意: --jars、--py-files、--files 参数支持 DBFS S3 路径。

通常,Jar 库存储在 dbfs 下:/FileStore/jars。

您需要在dbfs 中上传库并作为jar 中的参数传递activity。

详情请参考“Transform data by running a jar activity in Azure Databricks using ADF”。

Is there a way to do a spark-submit from a databricks notebook?

要回答第二个问题,您可以参考以下工作类型:

参考:SparkSubmit and "Create a job

希望对您有所帮助。


如果这回答了您的问题,请点击“标记为答案”并点击 "Up-Vote"。而且,如果您有任何进一步的疑问,请告诉我们。

我终于想出了如何运行这个:

  1. 您可以从 ADF 执行 运行 Databricks jar,并将其附加到现有集群,这将在集群中配置 adls 密钥。

  2. 无法从笔记本进行火花提交。但是你可以在jobs中创建一个spark job,或者你可以使用Databricks Run Sumbit api,做一个spark-submit。