运行 pyspark kafka steam 出错
running pyspark kafka steam with an error
当我尝试运行 spark-steaming 的示例代码时:"kafka_wordcount.py"
文件夹下:/usr/local/spark/examples/src/main/python/streaming
代码明确描述执行代码的指令为:
" $ bin/spark-submit --jars \
external/kafka-assembly/target/scala-*/spark-streaming-kafka-assembly-*.jar \
examples/src/main/python/streaming/kafka_wordcount.py \
localhost:2181 test
test 是题目名称。但是我找不到罐子和路径:
" external/kafka-assembly/target/scala-/spark-streaming-kafka-assembly-.jar"
所以我创建了一个文件夹 "streaming/jar/" 并将所有 jar 从
网站 http://search.maven.org/#search%7Cga%7C1%7Ca%3A%22spark-streaming-kafka-assembly_2.10%22 然后当我 运行
"park-submit --jars ~/stream-example/jars/spark-streaming-kafka-assembly_*.jar kafka_wordcount.py localhost:2181 topic"
显示
“错误:JAR 中未设置主要 class;请使用 --class 指定一个
运行 使用 --help 获取使用帮助或 --verbose 获取调试输出
这有什么问题吗?罐子在哪里?
非常感谢!!
很久以前就有人问过这个问题,所以我想你现在已经明白了。
但是,由于我遇到了同样的问题,我将 post 适合我的解决方案。
本指南的部署部分 (http://spark.apache.org/docs/latest/streaming-kafka-integration.html) 说您可以使用 --packages
参数传递库,如下所示:
bin/spark-submit \
--packages org.apache.spark:spark-streaming-kafka_2.10:1.6.2 \
examples/src/main/python/streaming/kafka_wordcount.py \
localhost:2181 test
您也可以在这里下载 jar 本身:http://search.maven.org/#search%7Cga%7C1%7Ca%3A%22spark-streaming-kafka-assembly_2.10%22
注意:我没有运行上面的命令,我用另一个例子测试过,但它应该以同样的方式工作:
bin/spark-submit
--packages org.apache.spark:spark-streaming-kafka_2.10:1.6.2 \
examples/src/main/python/streaming/direct_kafka_wordcount.py \
localhost:9092 test
当我尝试运行 spark-steaming 的示例代码时:"kafka_wordcount.py" 文件夹下:/usr/local/spark/examples/src/main/python/streaming
代码明确描述执行代码的指令为:
" $ bin/spark-submit --jars \
external/kafka-assembly/target/scala-*/spark-streaming-kafka-assembly-*.jar \
examples/src/main/python/streaming/kafka_wordcount.py \
localhost:2181 test
test 是题目名称。但是我找不到罐子和路径:
" external/kafka-assembly/target/scala-/spark-streaming-kafka-assembly-.jar"
所以我创建了一个文件夹 "streaming/jar/" 并将所有 jar 从 网站 http://search.maven.org/#search%7Cga%7C1%7Ca%3A%22spark-streaming-kafka-assembly_2.10%22 然后当我 运行
"park-submit --jars ~/stream-example/jars/spark-streaming-kafka-assembly_*.jar kafka_wordcount.py localhost:2181 topic"
显示
“错误:JAR 中未设置主要 class;请使用 --class 指定一个 运行 使用 --help 获取使用帮助或 --verbose 获取调试输出
这有什么问题吗?罐子在哪里?
非常感谢!!
很久以前就有人问过这个问题,所以我想你现在已经明白了。 但是,由于我遇到了同样的问题,我将 post 适合我的解决方案。
本指南的部署部分 (http://spark.apache.org/docs/latest/streaming-kafka-integration.html) 说您可以使用 --packages
参数传递库,如下所示:
bin/spark-submit \
--packages org.apache.spark:spark-streaming-kafka_2.10:1.6.2 \
examples/src/main/python/streaming/kafka_wordcount.py \
localhost:2181 test
您也可以在这里下载 jar 本身:http://search.maven.org/#search%7Cga%7C1%7Ca%3A%22spark-streaming-kafka-assembly_2.10%22
注意:我没有运行上面的命令,我用另一个例子测试过,但它应该以同样的方式工作:
bin/spark-submit
--packages org.apache.spark:spark-streaming-kafka_2.10:1.6.2 \
examples/src/main/python/streaming/direct_kafka_wordcount.py \
localhost:9092 test