logstash 与 spark streaming 和 storm
logstah vs spark streaming and storm
我正在构建一个分布式实时集群系统来监控和分析网络。我在互联网上做了几次研究,但得出的技术很少:
- 用于实时处理:logstash、storm 和 apache 流
- 用于存储:elasticsearch
- 供分析:Apache Spark over Hadoop(我将使用 ES-Hadoop 连接 Elasticsearch)
- 用于数据可视化:kibana、D3js、c3js
然而,logstash 并不经常被提及为 spark streaming 和 storm。我在网上找到了如下图所示的架构:
我有两个问题:
我不明白为什么logstash不像spark streaming和storm那样经常被提及作为实时处理系统。主要原因是什么?一直在用,很给力..
关于分析部分,我可以在该配置中使用机器学习库吗?
- Logstash 不是集群流处理系统。它只是一个基于 JVM 的进程。最新版本支持磁盘缓冲区,但没有与 Spark 或 Storm 几乎相同的交付保证。看看http://storm.apache.org/releases/1.0.3/Guaranteeing-message-processing.html
- 是的,但不确定为什么要先使用 Elastic 来存储数据。为什么不是 HDFS->SparkML->Elastic?这里主要考虑的是管理模型、训练和测试。
我正在构建一个分布式实时集群系统来监控和分析网络。我在互联网上做了几次研究,但得出的技术很少:
- 用于实时处理:logstash、storm 和 apache 流
- 用于存储:elasticsearch
- 供分析:Apache Spark over Hadoop(我将使用 ES-Hadoop 连接 Elasticsearch)
- 用于数据可视化:kibana、D3js、c3js
然而,logstash 并不经常被提及为 spark streaming 和 storm。我在网上找到了如下图所示的架构:
我有两个问题:
我不明白为什么logstash不像spark streaming和storm那样经常被提及作为实时处理系统。主要原因是什么?一直在用,很给力..
关于分析部分,我可以在该配置中使用机器学习库吗?
- Logstash 不是集群流处理系统。它只是一个基于 JVM 的进程。最新版本支持磁盘缓冲区,但没有与 Spark 或 Storm 几乎相同的交付保证。看看http://storm.apache.org/releases/1.0.3/Guaranteeing-message-processing.html
- 是的,但不确定为什么要先使用 Elastic 来存储数据。为什么不是 HDFS->SparkML->Elastic?这里主要考虑的是管理模型、训练和测试。