端到端测试大数据管道的工具?

Tools to test a BigData Pipeline end to end?

我有这个管道:Webserver+rsyslog->Kafka->Logstash->ElasticSearch->Kibana

我找到了这些工具来帮助测试我的管道:

  1. 通过使用 jmeter-ec2
  2. 启动 jmeter EC2 实例来生成网络服务器负载
  3. 在 Kafka 上生成负载并使用 Sangrenel
  4. 帮助绘制吞吐量图

我想知道是否有人对测试组件或端到端测试有任何其他建议?谢谢

好问题!我正在寻找类似的东西,但可能会选择一个简单的家庭解决方案。

  1. 使用螺栓将数据写入 Kafka 来设置 Storm 集群。需要注意的一件事是 id/key,因此您的消息分布在多个分区中。 Storm 的原因是有一组分布式的发布者。作为 Storm 的替代方案,您可以让多个生产者使用 KafkaAppender
  2. 了解 Kafka 性能后,将 Logstash 连接到加载的主题并让它尽快耗尽。您可能会通过 KafkaManager 或连接到 JMX(许多工具)找到一些有用的信息
  3. 监控 Elastic 的最简单方法是 Marvel
  4. Kibana 的性能取决于您查询的数据量returns,但最小间隔仍然是 5 秒。

根据我的经验,logstash 性能将取决于数据大小和 grok 复杂性。 Elastic 的性能主要是集群大小,shard/template 配置。您设置中最快的组件将始终是 Kafka(受 ack 和 Zookeeper 设置限制)

此外,如果您控制数据生成,您可以比较生成记录的时间与 logstash 的@timestamp 并测量滞后。