使用 python 和 Kafka 的 Spark Structured Streaming 给出错误

Spark Structured Streaming using python and Kafka giving error

我在尝试为 kafka 启动 readStream 时遇到以下错误,我的 Kafka 已启动并且 运行 我对其进行了多次测试以确保它正在处理。 Kafka 主题也已创建。

'''

kafka_df = spark.readStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "localhost:9092") \
        .option("subscribe", "mytopic") \
        .option("startingOffsets", "earliest") \
        .load()

'''

回溯(最后一次调用): 文件“C:/Users//PycharmProjects/SparkStreaming/PySparkKafkaStreaming.py”,第 18 行,位于 kafka_df = spark.readStream
文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\streaming.py”,第 420 行,加载中 return self._df(self._jreader.load()) 文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\py4j\java_gateway.py”,第 1304 行,在 call 中 return_value = get_return_value( 文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\utils.py”,第 134 行,deco raise_from(已转换) raise_from 中的文件“”,第 3 行 pyspark.sql.utils.AnalysisException: 找不到数据源:kafka。请按照《Structured Streaming + Kafka集成指南》的部署部分部署应用程序。;

您需要将 kafka 依赖项导入 运行 这个!对于pyspark,您可以下载jar 并将其放入spark/jars 目录或在sparkSession 初始配置中导入依赖项。 请关注这个kafka-structured streaming docs

希望能帮到你,有什么想问的,谢谢!