端到端测试大数据管道的工具？

Tools to test a BigData Pipeline end to end?

我有这个管道：Webserver+rsyslog->Kafka->Logstash->ElasticSearch->Kibana

我找到了这些工具来帮助测试我的管道：

通过使用 jmeter-ec2
在 Kafka 上生成负载并使用 Sangrenel

我想知道是否有人对测试组件或端到端测试有任何其他建议？谢谢

好问题！我正在寻找类似的东西，但可能会选择一个简单的家庭解决方案。

使用螺栓将数据写入 Kafka 来设置 Storm 集群。需要注意的一件事是 id/key，因此您的消息分布在多个分区中。 Storm 的原因是有一组分布式的发布者。作为 Storm 的替代方案，您可以让多个生产者使用 KafkaAppender
了解 Kafka 性能后，将 Logstash 连接到加载的主题并让它尽快耗尽。您可能会通过 KafkaManager 或连接到 JMX（许多工具）找到一些有用的信息
监控 Elastic 的最简单方法是 Marvel
Kibana 的性能取决于您查询的数据量returns，但最小间隔仍然是 5 秒。

根据我的经验，logstash 性能将取决于数据大小和 grok 复杂性。 Elastic 的性能主要是集群大小，shard/template 配置。您设置中最快的组件将始终是 Kafka（受 ack 和 Zookeeper 设置限制）

此外，如果您控制数据生成，您可以比较生成记录的时间与 logstash 的@timestamp 并测量滞后。