端到端测试大数据管道的工具?
Tools to test a BigData Pipeline end to end?
我有这个管道:Webserver+rsyslog->Kafka->Logstash->ElasticSearch->Kibana
我找到了这些工具来帮助测试我的管道:
- 通过使用 jmeter-ec2
启动 jmeter EC2 实例来生成网络服务器负载
- 在 Kafka 上生成负载并使用 Sangrenel
帮助绘制吞吐量图
我想知道是否有人对测试组件或端到端测试有任何其他建议?谢谢
好问题!我正在寻找类似的东西,但可能会选择一个简单的家庭解决方案。
- 使用螺栓将数据写入 Kafka 来设置 Storm 集群。需要注意的一件事是 id/key,因此您的消息分布在多个分区中。 Storm 的原因是有一组分布式的发布者。作为 Storm 的替代方案,您可以让多个生产者使用 KafkaAppender
- 了解 Kafka 性能后,将 Logstash 连接到加载的主题并让它尽快耗尽。您可能会通过 KafkaManager 或连接到 JMX(许多工具)找到一些有用的信息
- 监控 Elastic 的最简单方法是 Marvel
- Kibana 的性能取决于您查询的数据量returns,但最小间隔仍然是 5 秒。
根据我的经验,logstash 性能将取决于数据大小和 grok 复杂性。 Elastic 的性能主要是集群大小,shard/template 配置。您设置中最快的组件将始终是 Kafka(受 ack 和 Zookeeper 设置限制)
此外,如果您控制数据生成,您可以比较生成记录的时间与 logstash 的@timestamp 并测量滞后。
我有这个管道:Webserver+rsyslog->Kafka->Logstash->ElasticSearch->Kibana
我找到了这些工具来帮助测试我的管道:
- 通过使用 jmeter-ec2 启动 jmeter EC2 实例来生成网络服务器负载
- 在 Kafka 上生成负载并使用 Sangrenel 帮助绘制吞吐量图
我想知道是否有人对测试组件或端到端测试有任何其他建议?谢谢
好问题!我正在寻找类似的东西,但可能会选择一个简单的家庭解决方案。
- 使用螺栓将数据写入 Kafka 来设置 Storm 集群。需要注意的一件事是 id/key,因此您的消息分布在多个分区中。 Storm 的原因是有一组分布式的发布者。作为 Storm 的替代方案,您可以让多个生产者使用 KafkaAppender
- 了解 Kafka 性能后,将 Logstash 连接到加载的主题并让它尽快耗尽。您可能会通过 KafkaManager 或连接到 JMX(许多工具)找到一些有用的信息
- 监控 Elastic 的最简单方法是 Marvel
- Kibana 的性能取决于您查询的数据量returns,但最小间隔仍然是 5 秒。
根据我的经验,logstash 性能将取决于数据大小和 grok 复杂性。 Elastic 的性能主要是集群大小,shard/template 配置。您设置中最快的组件将始终是 Kafka(受 ack 和 Zookeeper 设置限制)
此外,如果您控制数据生成,您可以比较生成记录的时间与 logstash 的@timestamp 并测量滞后。