警报的生产级方法

Production grade methodology for alerts

背景

我们的代码是这样写的:

  1. 单元测试
  2. 端到端测试
  3. 代码审查
  4. 暂存过程
  5. 部署过程

相反,我们的警报只是编写,然后偶尔手动修改。根本没有质量过程。

这个过程对于简单的阈值检查是合理的。但是,我们的警报有时建立在复杂的查询之上。有时由大约 20 行查询组成。

如果我们不小心破坏了警报,可能会使我们面临生产不稳定,因为我们不知道某些逻辑或组件是否损坏。

问题

是否有推荐的方法来验证复杂警报的质量?

P.S.

我们正在使用 Splunk 警报

如果您正在寻找,Splunk 没有验证警报的书面做法。我建议您遵循与用于代码的做法类似的做法。无法进行单元测试,但您可以使用生产数据样本或合成数据在非生产系统上测试修改后的警报。