为 gcloud dataproc 作业传递属性参数提交 pyspark

passing properties argument for gcloud dataproc jobs submit pyspark

我正在尝试通过命令行将 pyspark 作业提交到 google cloud dataproc 这些是我的论点;

gcloud dataproc jobs submit pyspark --cluster mongo-load --properties org.mongodb.spark:mongo-spark-connector_2.11:2.2.0 mongo_load.py

我经常遇到异常

--properties: Bad syntax for dict arg: [org.mongodb.spark:mongo-spark-connector_2.11:2.2.0]

我尝试了 google 中 here 中的一些转义选项,但似乎没有任何效果。

发现我只需要通过

spark.jars.packages=org.mongodb.spark:mongo-spark-connector_2.11:2.2.0

除了@Marlon Gray 的回答之外,如果您需要传递多个包,则需要转义 spark.jars.packages 字符串,例如

--properties=^#^spark.jars.packages=mavencoordinate1,mavencoordinate2

请检查 https://cloud.google.com/sdk/gcloud/reference/topic/escaping 了解更多详情。