Azure Databricks - 运行来自 Gen2 Data Lake Storage 的 Spark Jar

Azure Databrics - Running a Spark Jar from Gen2 DataLake Storage

我正在尝试运行来自 Azure Databrics 的火花提交。目前我可以创建一个作业，将 jar 上传到 Databrics 工作区，然后运行它。

我的查询是：

有没有办法访问驻留在 GEN2 DataLake 存储上的 jar 并从 Databrics 工作区甚至从 Azure ADF 进行火花提交？（因为工作区和GEN2存储之间的通信受到保护"fs.azure.account.key"）
有没有办法从数据块笔记本中进行火花提交？

Is there a way to access a jar residing on a GEN2 DataLake storage and do a spark-submit from Databrics workspace, or even from Azure ADF ? (Because the communication between the workspace and GEN2 storage is protected "fs.azure.account.key") Unfortunately, you cannot access a jar residing on Azure Storage such as ADLS Gen2/Gen1 account.

注意： --jars、--py-files、--files 参数支持 DBFS 和 S3 路径。

通常，Jar 库存储在 dbfs 下：/FileStore/jars。

您需要在dbfs 中上传库并作为jar 中的参数传递activity。

详情请参考“Transform data by running a jar activity in Azure Databricks using ADF”。

Is there a way to do a spark-submit from a databricks notebook?

要回答第二个问题，您可以参考以下工作类型：

参考：SparkSubmit and "Create a job

希望对您有所帮助。

如果这回答了您的问题，请点击“标记为答案”并点击 "Up-Vote"。而且，如果您有任何进一步的疑问，请告诉我们。

我终于想出了如何运行这个：

您可以从 ADF 执行运行 Databricks jar，并将其附加到现有集群，这将在集群中配置 adls 密钥。
无法从笔记本进行火花提交。但是你可以在jobs中创建一个spark job，或者你可以使用Databricks Run Sumbit api，做一个spark-submit。

Azure Databricks - 运行来自 Gen2 Data Lake Storage 的 Spark Jar

Azure Databrics - Running a Spark Jar from Gen2 DataLake Storage

scala

azure

apache-spark

azure-databricks

Azure Databricks - 运行 来自 Gen2 Data Lake Storage 的 Spark Jar

Azure Databrics - Running a Spark Jar from Gen2 DataLake Storage

scala

azure

apache-spark

azure-databricks

Azure Databricks - 运行来自 Gen2 Data Lake Storage 的 Spark Jar