在 Databricks 作业集群上安装 Maven 包
Install Maven Package on Databricks Job-Cluster
我想在 Databricks 作业中使用 maven 包,它应该 运行 在新的自动化集群上。常规交互式集群可以选择安装 maven 包。此安装解决了此包的所有依赖项。在自动化集群上,您只能分配下载的 jar 以在集群启动时安装。
我的问题是,这个 jar 的依赖项丢失了。当然我可以下载它们并将它们添加到集群中,但是依赖树似乎非常大。
我可以只下载一个包含所有依赖项的 jar(没有找到)吗?或者我可以用另一种方式安装我的包吗?
我需要的包是azure-eventhubs-spark。
终于找到了解决方案。
要将 Maven 包附加到作业 (-cluster),您必须在工作区中创建库。在 Databricks-UI 的起始页上选择 'Import Library',然后创建您想要的 maven-package。此包可以作为作业设置中的依赖项加载。
这是一个显而易见的解决方案,但我从未在数据块中创建过库,因此不知道这个选项。
我想在 Databricks 作业中使用 maven 包,它应该 运行 在新的自动化集群上。常规交互式集群可以选择安装 maven 包。此安装解决了此包的所有依赖项。在自动化集群上,您只能分配下载的 jar 以在集群启动时安装。
我的问题是,这个 jar 的依赖项丢失了。当然我可以下载它们并将它们添加到集群中,但是依赖树似乎非常大。 我可以只下载一个包含所有依赖项的 jar(没有找到)吗?或者我可以用另一种方式安装我的包吗?
我需要的包是azure-eventhubs-spark。
终于找到了解决方案。
要将 Maven 包附加到作业 (-cluster),您必须在工作区中创建库。在 Databricks-UI 的起始页上选择 'Import Library',然后创建您想要的 maven-package。此包可以作为作业设置中的依赖项加载。
这是一个显而易见的解决方案,但我从未在数据块中创建过库,因此不知道这个选项。