Spark Streaming 的 Web 日志解析

web logs parsing for Spark Streaming

我打算创建一个可以实时读取网络日志的系统，并使用apache spark 来处理它们。我打算使用 kafka 将日志传递给 spark streaming 以聚合 statistics.I 我不确定我是否应该做一些数据解析（原始到 json ...），如果是的话，在哪里合适的地方去做（火花脚本，卡夫卡，其他地方......）如果有人能指导我，我将不胜感激。这对我来说是一种新事物。干杯

Apache Kafka 是一个分布式的发布-订阅消息传递系统。它不提供任何方法来解析或转换不是为此目的的数据。但任何 Kafka 消费者都可以处理、解析或转换发布到 Kafka 的数据，并将转换后的数据重新发布到另一个主题或存储在数据库或文件系统中。

有很多方法可以使用 Kafka 中的数据，其中一种方法是您建议的实时流处理器（apache flume、apache-spark、apache storm 等）。

所以答案是否定的，Kafka不提供任何解析原始数据的方法。您可以 transform/parse 使用 spark but as well you can write your own consumer as there are many Kafka clients ports or use any other built consumer Apache flume, Apache storm 等

的原始数据

Spark Streaming 的 Web 日志解析

web logs parsing for Spark Streaming

parsing

apache-kafka

spark-streaming