使用 python 和 Kafka 的 Spark Structured Streaming 给出错误
Spark Structured Streaming using python and Kafka giving error
我在尝试为 kafka 启动 readStream 时遇到以下错误,我的 Kafka 已启动并且 运行 我对其进行了多次测试以确保它正在处理。
Kafka 主题也已创建。
'''
kafka_df = spark.readStream \
.format("kafka") \
.option("kafka.bootstrap.servers", "localhost:9092") \
.option("subscribe", "mytopic") \
.option("startingOffsets", "earliest") \
.load()
'''
回溯(最后一次调用):
文件“C:/Users//PycharmProjects/SparkStreaming/PySparkKafkaStreaming.py”,第 18 行,位于
kafka_df = spark.readStream
文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\streaming.py”,第 420 行,加载中
return self._df(self._jreader.load())
文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\py4j\java_gateway.py”,第 1304 行,在 call 中
return_value = get_return_value(
文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\utils.py”,第 134 行,deco
raise_from(已转换)
raise_from 中的文件“”,第 3 行
pyspark.sql.utils.AnalysisException: 找不到数据源:kafka。请按照《Structured Streaming + Kafka集成指南》的部署部分部署应用程序。;
您需要将 kafka 依赖项导入 运行 这个!对于pyspark,您可以下载jar 并将其放入spark/jars 目录或在sparkSession 初始配置中导入依赖项。
请关注这个kafka-structured streaming docs
希望能帮到你,有什么想问的,谢谢!
我在尝试为 kafka 启动 readStream 时遇到以下错误,我的 Kafka 已启动并且 运行 我对其进行了多次测试以确保它正在处理。 Kafka 主题也已创建。
'''
kafka_df = spark.readStream \
.format("kafka") \
.option("kafka.bootstrap.servers", "localhost:9092") \
.option("subscribe", "mytopic") \
.option("startingOffsets", "earliest") \
.load()
'''
回溯(最后一次调用):
文件“C:/Users//PycharmProjects/SparkStreaming/PySparkKafkaStreaming.py”,第 18 行,位于
kafka_df = spark.readStream
文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\streaming.py”,第 420 行,加载中
return self._df(self._jreader.load())
文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\py4j\java_gateway.py”,第 1304 行,在 call 中
return_value = get_return_value(
文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\utils.py”,第 134 行,deco
raise_from(已转换)
raise_from 中的文件“”,第 3 行
pyspark.sql.utils.AnalysisException: 找不到数据源:kafka。请按照《Structured Streaming + Kafka集成指南》的部署部分部署应用程序。;
您需要将 kafka 依赖项导入 运行 这个!对于pyspark,您可以下载jar 并将其放入spark/jars 目录或在sparkSession 初始配置中导入依赖项。 请关注这个kafka-structured streaming docs
希望能帮到你,有什么想问的,谢谢!