尝试在 Databricks 上安装 H2O。如何在 Databricks 中安装第三方包?

Trying to install H2O on Databricks. How can I install a 3rd party package in Databricks?

我现在正在玩 Databricks,正在看在线演示。该演示需要安装 H2O。在 Databricks 中,我尝试了以下操作:

   click clusters (then click on the name of the cluster)
   click libraries
   click install new
   finally, click maven

在坐标框中,我粘贴以下内容:

$SPARK_HOME/bin/spark-shell --packages ai.h2o:sparkling-water-package_2.12:3.30.0.6-1-3.0

我正在按照以下链接中的说明进行操作。

https://docs.databricks.com/applications/machine-learning/third-party/index.html

http://docs.h2o.ai/sparkling-water/3.0/latest-stable/doc/install/install_and_start.html#sparkling-water-as-a-spark-package

如何在 Databricks 中安装第三方包?谢谢!

要使第三方或本地构建的代码可用于集群上的笔记本和作业 运行,您可以安装一个库。可以用Python、Java、Scala、R写库,可以上传Java、Scala、Python库,指向PyPI、Maven、和 CRAN 存储库。

安装第三方库的步骤:

方法一:使用 Maven

步骤 1: 创建 Databricks 集群。

Step2: Select集群创建。

第 3 步: Select 库 => 安装新的 => Select 库源 = "Maven" => 坐标 => 搜索包 => Select Maven Central => 搜索所需的包。示例:(ai.h20) => Select 所需版本 (sparkling-water-package_2.11:3.30.0.6-1-2.4) => 安装

方法二:使用PYPI

步骤 1: 创建 Databricks 集群。

Step2: Select集群创建。

第 3 步: Select 库 => 安装新的 => Select 库源 = "PyPI" => 坐标 => 输入包 => h2o -pysparkling-2.4 => 安装

方法三:使用pip安装

%sh
pip install h2o-pysparkling-2.4==3.30.0.6-1

详情请参考“Azure Databricks - libraries”。