SparkR 作业处理依赖关系
SparkR job deal with dependencies
在 (交互式)sparkR 作业的情况下如何处理 依赖关系?
我知道 java 作业可以作为包含所有依赖项的 fat-Jar 提交。对于任何其他作业,可以在 spark-submit
命令上指定 --packages
选项。但我想使用 sparkR 从 R (Rstudio) 连接到我的小集群。 (这很直接)
但我需要一些外部包,例如连接到数据库(Mongo,Cassandra)或读取 csv 文件。在 local 模式下,我可以轻松地在启动时指定这些包。这在已经 运行 的集群中自然是行不通的。
https://github.com/andypetrella/spark-notebook 提供了一种非常方便的方式来在运行时加载此类外部包。
如何在我的 sparkR(交互式会话)运行时 期间或dockerized 集群的映像创建?
您也可以尝试在 SPARK_HOME/conf/spark-default.conf
文件中配置这两个变量:spark.driver.extraClassPath
和 spark.executor.extraClassPath
,并将这些变量的值指定为 jar 文件的路径。确保工作程序节点上存在相同的路径。
来自
在 (交互式)sparkR 作业的情况下如何处理 依赖关系?
我知道 java 作业可以作为包含所有依赖项的 fat-Jar 提交。对于任何其他作业,可以在 spark-submit
命令上指定 --packages
选项。但我想使用 sparkR 从 R (Rstudio) 连接到我的小集群。 (这很直接)
但我需要一些外部包,例如连接到数据库(Mongo,Cassandra)或读取 csv 文件。在 local 模式下,我可以轻松地在启动时指定这些包。这在已经 运行 的集群中自然是行不通的。 https://github.com/andypetrella/spark-notebook 提供了一种非常方便的方式来在运行时加载此类外部包。
如何在我的 sparkR(交互式会话)运行时 期间或dockerized 集群的映像创建?
您也可以尝试在 SPARK_HOME/conf/spark-default.conf
文件中配置这两个变量:spark.driver.extraClassPath
和 spark.executor.extraClassPath
,并将这些变量的值指定为 jar 文件的路径。确保工作程序节点上存在相同的路径。
来自