Azure Databricks - 运行 来自 Gen2 Data Lake Storage 的 Spark Jar
Azure Databrics - Running a Spark Jar from Gen2 DataLake Storage
我正在尝试 运行 来自 Azure Databrics 的火花提交。目前我可以创建一个作业,将 jar 上传到 Databrics 工作区,然后 运行 它。
我的查询是:
有没有办法访问驻留在 GEN2 DataLake 存储上的 jar 并从 Databrics 工作区甚至从 Azure ADF 进行火花提交? (因为工作区和GEN2存储之间的通信受到保护"fs.azure.account.key")
有没有办法从数据块笔记本中进行火花提交?
Is there a way to access a jar residing on a GEN2 DataLake storage and
do a spark-submit from Databrics workspace, or even from Azure ADF ?
(Because the communication between the workspace and GEN2 storage is
protected "fs.azure.account.key") Unfortunately, you cannot access a
jar residing on Azure Storage such as ADLS Gen2/Gen1 account.
注意: --jars、--py-files、--files 参数支持 DBFS 和 S3 路径。
通常,Jar 库存储在 dbfs 下:/FileStore/jars。
您需要在dbfs 中上传库并作为jar 中的参数传递activity。
详情请参考“Transform data by running a jar activity in Azure Databricks using ADF”。
Is there a way to do a spark-submit from a databricks notebook?
要回答第二个问题,您可以参考以下工作类型:
参考:SparkSubmit and "Create a job
希望对您有所帮助。
如果这回答了您的问题,请点击“标记为答案”并点击 "Up-Vote"。而且,如果您有任何进一步的疑问,请告诉我们。
我终于想出了如何运行这个:
您可以从 ADF 执行 运行 Databricks jar,并将其附加到现有集群,这将在集群中配置 adls 密钥。
无法从笔记本进行火花提交。但是你可以在jobs中创建一个spark job,或者你可以使用Databricks Run Sumbit api,做一个spark-submit。
我正在尝试 运行 来自 Azure Databrics 的火花提交。目前我可以创建一个作业,将 jar 上传到 Databrics 工作区,然后 运行 它。
我的查询是:
有没有办法访问驻留在 GEN2 DataLake 存储上的 jar 并从 Databrics 工作区甚至从 Azure ADF 进行火花提交? (因为工作区和GEN2存储之间的通信受到保护"fs.azure.account.key")
有没有办法从数据块笔记本中进行火花提交?
Is there a way to access a jar residing on a GEN2 DataLake storage and do a spark-submit from Databrics workspace, or even from Azure ADF ? (Because the communication between the workspace and GEN2 storage is protected "fs.azure.account.key") Unfortunately, you cannot access a jar residing on Azure Storage such as ADLS Gen2/Gen1 account.
注意: --jars、--py-files、--files 参数支持 DBFS 和 S3 路径。
通常,Jar 库存储在 dbfs 下:/FileStore/jars。
您需要在dbfs 中上传库并作为jar 中的参数传递activity。
详情请参考“Transform data by running a jar activity in Azure Databricks using ADF”。
Is there a way to do a spark-submit from a databricks notebook?
要回答第二个问题,您可以参考以下工作类型:
参考:SparkSubmit and "Create a job
希望对您有所帮助。
如果这回答了您的问题,请点击“标记为答案”并点击 "Up-Vote"。而且,如果您有任何进一步的疑问,请告诉我们。
我终于想出了如何运行这个:
您可以从 ADF 执行 运行 Databricks jar,并将其附加到现有集群,这将在集群中配置 adls 密钥。
无法从笔记本进行火花提交。但是你可以在jobs中创建一个spark job,或者你可以使用Databricks Run Sumbit api,做一个spark-submit。