在 Cloud Dataproc Pyspark 中使用 LD_LIBRARY_PATH

Using LD_LIBRARY_PATH in Cloud Dataproc Pyspark

我在 Cloud Dataproc 上设置了高度自定义的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。与虚拟环境一起打包。

对于虚拟环境:我 PYSPARK_PYTHON 指向虚拟环境中存在的 python。

但是这些库无法工作,因为当我 gcloud dataproc jobs submit....

时未设置 LD_LIBRARY_PATH

我试过:

  1. 在 workers 和 master 上设置 spark-env.sh 导出 LD_LIBRARY_PATH
  2. 设置spark.executorEnv.LD_LIBRARY_PATH
  3. 正在创建初始化脚本,其中 (1) 在初始化期间被添加

然而这两个都失败了。

这就是最终起作用的方法:

运行 gcloud 命令为:

gcloud dataproc jobs submit pyspark --cluster spark-tests spark_job.py --properties spark.executorEnv.LD_LIBRARY_PATH="path1:path2" 

当我尝试在 pyspark 脚本中设置 spark.executorEnv(使用 Spark Config 对象)时,它并没有起作用。我不确定这是为什么?