如何将 elasticsearch 连接到 apache spark streaming 或 storm?
How to connect elasticsearch to apache spark streaming or storm?
我们正在使用开源工具构建 real-time 大数据工具。我们的主要目标是通过从 real-time 中的 kafka 服务器获取日志来监督和分析网络。我们在教程中看到我们必须将我们的工具分为两部分:分析和监督,如下所示。
对于监督部分,我们选择了解决方案 Elasticsearch 和 Logstash。
关于分析部分,我和我的团队正在比较 Apache Storm Streaming 和 Apache Storm,以便将其与 Elasticsearch 一起使用。尽管 Apache Storm 是一个真正的 real-time 数据处理工具并且比 Apache Spark Streaming 更快,但它并不像 Apache Spark 那样提供机器学习库。这就是我们考虑选择 Apache Spark 的原因。 elastic 网站表明它存在一个连接器 ES-Hadoop 来将 Elasticsearch 数据库连接到 Hadoop 生态系统。我们可以在下图中看到。
但是,我们对这张图片有点困惑,因为只有 spark SQL 而不是所有的 spark 框架(MLlib、Spark Streaming..)。我们做了一些假设,得出了两种最终可能的架构。我们只是想知道在技术上是否正确以及我们是否在错误的方向上。
使用 Apache Spark 流:
使用 Apache Storm:
你的两个架构图都没问题。请记住,Spark Streaming 在这种情况下不起作用。 Es-hadoop 为您提供了易于访问的 apis,以从 Elastic 获取数据和将数据放入 Elastic。它还提供了在 spark sql 的情况下获取 spark 框架 (RDD) 或数据帧中的数据的方法。一旦数据在框架中,所有 ml 库都可以应用于 ml 或分析生成的数据。 Elastic 无法传输数据,因此严格意义上的 Spark Streaming 是不可能的。因此在图中,可以删除指向 hdfs optional 和指向 spark streaming 的箭头,并且指向 hdfs 的箭头指向 juat pointa。然而,我担心的是 运行 mllib 算法实时处理数据并期望实时性能。典型的用例可能是离线生成 modwl 并实时使用模型进行分析。
我们正在使用开源工具构建 real-time 大数据工具。我们的主要目标是通过从 real-time 中的 kafka 服务器获取日志来监督和分析网络。我们在教程中看到我们必须将我们的工具分为两部分:分析和监督,如下所示。
对于监督部分,我们选择了解决方案 Elasticsearch 和 Logstash。
关于分析部分,我和我的团队正在比较 Apache Storm Streaming 和 Apache Storm,以便将其与 Elasticsearch 一起使用。尽管 Apache Storm 是一个真正的 real-time 数据处理工具并且比 Apache Spark Streaming 更快,但它并不像 Apache Spark 那样提供机器学习库。这就是我们考虑选择 Apache Spark 的原因。 elastic 网站表明它存在一个连接器 ES-Hadoop 来将 Elasticsearch 数据库连接到 Hadoop 生态系统。我们可以在下图中看到。
但是,我们对这张图片有点困惑,因为只有 spark SQL 而不是所有的 spark 框架(MLlib、Spark Streaming..)。我们做了一些假设,得出了两种最终可能的架构。我们只是想知道在技术上是否正确以及我们是否在错误的方向上。
使用 Apache Spark 流:
使用 Apache Storm:
你的两个架构图都没问题。请记住,Spark Streaming 在这种情况下不起作用。 Es-hadoop 为您提供了易于访问的 apis,以从 Elastic 获取数据和将数据放入 Elastic。它还提供了在 spark sql 的情况下获取 spark 框架 (RDD) 或数据帧中的数据的方法。一旦数据在框架中,所有 ml 库都可以应用于 ml 或分析生成的数据。 Elastic 无法传输数据,因此严格意义上的 Spark Streaming 是不可能的。因此在图中,可以删除指向 hdfs optional 和指向 spark streaming 的箭头,并且指向 hdfs 的箭头指向 juat pointa。然而,我担心的是 运行 mllib 算法实时处理数据并期望实时性能。典型的用例可能是离线生成 modwl 并实时使用模型进行分析。