为 gcloud dataproc 作业传递属性参数提交 pyspark
passing properties argument for gcloud dataproc jobs submit pyspark
我正在尝试通过命令行将 pyspark 作业提交到 google cloud dataproc
这些是我的论点;
gcloud dataproc jobs submit pyspark --cluster mongo-load --properties org.mongodb.spark:mongo-spark-connector_2.11:2.2.0 mongo_load.py
我经常遇到异常
--properties: Bad syntax for dict arg: [org.mongodb.spark:mongo-spark-connector_2.11:2.2.0]
我尝试了 google 中 here 中的一些转义选项,但似乎没有任何效果。
发现我只需要通过
spark.jars.packages=org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
除了@Marlon Gray 的回答之外,如果您需要传递多个包,则需要转义 spark.jars.packages
字符串,例如
--properties=^#^spark.jars.packages=mavencoordinate1,mavencoordinate2
请检查 https://cloud.google.com/sdk/gcloud/reference/topic/escaping 了解更多详情。
我正在尝试通过命令行将 pyspark 作业提交到 google cloud dataproc 这些是我的论点;
gcloud dataproc jobs submit pyspark --cluster mongo-load --properties org.mongodb.spark:mongo-spark-connector_2.11:2.2.0 mongo_load.py
我经常遇到异常
--properties: Bad syntax for dict arg: [org.mongodb.spark:mongo-spark-connector_2.11:2.2.0]
我尝试了 google 中 here 中的一些转义选项,但似乎没有任何效果。
发现我只需要通过
spark.jars.packages=org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
除了@Marlon Gray 的回答之外,如果您需要传递多个包,则需要转义 spark.jars.packages
字符串,例如
--properties=^#^spark.jars.packages=mavencoordinate1,mavencoordinate2
请检查 https://cloud.google.com/sdk/gcloud/reference/topic/escaping 了解更多详情。