使用 python 和 Kafka 的 Spark Structured Streaming 给出错误

Question

我在尝试为 kafka 启动 readStream 时遇到以下错误，我的 Kafka 已启动并且运行我对其进行了多次测试以确保它正在处理。 Kafka 主题也已创建。

'''

kafka_df = spark.readStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "localhost:9092") \
        .option("subscribe", "mytopic") \
        .option("startingOffsets", "earliest") \
        .load()

'''

回溯（最后一次调用）：文件“C:/Users//PycharmProjects/SparkStreaming/PySparkKafkaStreaming.py”，第 18 行，位于 kafka_df = spark.readStream
文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\streaming.py”，第 420 行，加载中 return self._df(self._jreader.load()) 文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\py4j\java_gateway.py”，第 1304 行，在 call 中 return_value = get_return_value( 文件“C:\Users<用户名>\AppData\Local\Programs\Python\Python38-32\lib\site-packages\pyspark\sql\utils.py”，第 134 行，deco raise_from（已转换） raise_from 中的文件“”，第 3 行 pyspark.sql.utils.AnalysisException: 找不到数据源：kafka。请按照《Structured Streaming + Kafka集成指南》的部署部分部署应用程序。;

Answer 1

您需要将 kafka 依赖项导入运行这个！对于pyspark，您可以下载jar 并将其放入spark/jars 目录或在sparkSession 初始配置中导入依赖项。请关注这个kafka-structured streaming docs

希望能帮到你，有什么想问的，谢谢！

使用 python 和 Kafka 的 Spark Structured Streaming 给出错误

Spark Structured Streaming using python and Kafka giving error

python

apache-kafka

pyspark

apache-kafka-streams

spark-structured-streaming