在 Cloud Dataproc Pyspark 中使用 LD_LIBRARY_PATH
Using LD_LIBRARY_PATH in Cloud Dataproc Pyspark
我在 Cloud Dataproc 上设置了高度自定义的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。与虚拟环境一起打包。
对于虚拟环境:我 PYSPARK_PYTHON
指向虚拟环境中存在的 python。
但是这些库无法工作,因为当我 gcloud dataproc jobs submit....
时未设置 LD_LIBRARY_PATH
我试过:
- 在 workers 和 master 上设置
spark-env.sh
导出 LD_LIBRARY_PATH
- 设置
spark.executorEnv.LD_LIBRARY_PATH
- 正在创建初始化脚本,其中 (1) 在初始化期间被添加
然而这两个都失败了。
这就是最终起作用的方法:
运行 gcloud 命令为:
gcloud dataproc jobs submit pyspark --cluster spark-tests spark_job.py --properties spark.executorEnv.LD_LIBRARY_PATH="path1:path2"
当我尝试在 pyspark 脚本中设置 spark.executorEnv(使用 Spark Config 对象)时,它并没有起作用。我不确定这是为什么?
我在 Cloud Dataproc 上设置了高度自定义的虚拟环境。此虚拟环境中的某些库依赖于某些共享库。与虚拟环境一起打包。
对于虚拟环境:我 PYSPARK_PYTHON
指向虚拟环境中存在的 python。
但是这些库无法工作,因为当我 gcloud dataproc jobs submit....
LD_LIBRARY_PATH
我试过:
- 在 workers 和 master 上设置
spark-env.sh
导出LD_LIBRARY_PATH
- 设置
spark.executorEnv.LD_LIBRARY_PATH
- 正在创建初始化脚本,其中 (1) 在初始化期间被添加
然而这两个都失败了。
这就是最终起作用的方法:
运行 gcloud 命令为:
gcloud dataproc jobs submit pyspark --cluster spark-tests spark_job.py --properties spark.executorEnv.LD_LIBRARY_PATH="path1:path2"
当我尝试在 pyspark 脚本中设置 spark.executorEnv(使用 Spark Config 对象)时,它并没有起作用。我不确定这是为什么?