在 Cloud Dataproc Pyspark 中使用 LD_LIBRARY_PATH

Question

我在 Cloud Dataproc 上设置了高度自定义的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。与虚拟环境一起打包。

对于虚拟环境：我 PYSPARK_PYTHON 指向虚拟环境中存在的 python。

但是这些库无法工作，因为当我 gcloud dataproc jobs submit....

时未设置 LD_LIBRARY_PATH

我试过：

然而这两个都失败了。

Answer 1

这就是最终起作用的方法：

运行 gcloud 命令为：

gcloud dataproc jobs submit pyspark --cluster spark-tests spark_job.py --properties spark.executorEnv.LD_LIBRARY_PATH="path1:path2"

当我尝试在 pyspark 脚本中设置 spark.executorEnv（使用 Spark Config 对象）时，它并没有起作用。我不确定这是为什么？

Using LD_LIBRARY_PATH in Cloud Dataproc Pyspark