在数据块上安装 'tigerstats' 包

Install 'tigerstats' package on databricks

您好,我无法在数据块上安装 tigerstats 包。下面是我在 R 中的代码。

devtools::install_github("homerhanumat/tigerstats")

但是我收到以下错误

我的 databricks 运行时版本是“10.0(包括 Apache Spark 3.2.0、Scala 2.12)”

该错误表明未安装依赖包。这样它就可以工作了:

install.packages("tigerstats", dependencies=TRUE)

问题出在依赖项的依赖项中,主要是对本机 Linux 库的依赖项。例如,jpeg 库依赖于 libjpeg-dev 包,terra depends on more of them。因此,您需要找到所有依赖项并安装所有依赖项,因为默认情况下并未安装它们。安装方法取决于您是只执行一次,还是需要可重现的设置。

对于快速和肮脏的方法,您可以使用 %sh 命令,但它只会在驱动程序节点上安装包,因此它只适用于单节点集群:

%sh apt-get -f install -y libjpeg-dev

如果你有多节点集群,那么你需要把这些安装命令放到一个cluster init script中,这样它们就会在每个节点上执行。