# 背景

网校系统众多,很多系统没有做监控或者监控五花八门,导致出现异常时告警漫天飞,存在告警混乱、轰炸的问题,且通知渠道以钉钉群为主,必须经常盯着告警群中很多与自己不相关的告警,生怕遗漏了重要的告警。久而久之,就产生了告警疲劳,或者非工作时间也得神经紧绷,监控告警体系混乱,效率低下。

# 介绍

哮天犬是一个通用的统一告警平台,提供配置化、流程化、标准化的能力。可以选择对接日志中心日志类监控、实时计算类的监控能力,各业务方也可以直接在代码中埋点上报告警,同时我们团队也可以定制化开发既能满足业务需求又能快速复用告警平台的监控系统,实现监控告警全场景覆盖。

# 特性

  • 告警接口简单、统一,可以通过哮天犬后台配置动态调整告警能力,提供配置化、流程化、标准化的平台动态配置能力
  • 支持告警入库/非入库两种模式,轻松应对告警回放、大量通知等不同场景
  • 支持知音楼/钉钉工作通知、知音楼/钉钉群通知、短信、电话、邮件、WebHook等通知渠道,平台化配置,和代码解耦
  • 支持告警通知组,轻松复用通知人[概念介绍]配置到不同场景、任务中,提高配置效率
  • 支持分级告警,根据告警内容将告警发送到不同通知人,支持懒惰和非懒惰两种模式
  • 支持告警工作流,有“警”必“出”,要求告警必须处理完成,定时通知提醒,形成良好闭环
  • 支持告警过滤,根据告警内容将指定条件的内容直接丢弃或者直接入库,而不发送,选择性忽略指定告警
  • 支持告警收敛,根据告警内容将指定条件的告警压缩为同一类告警,在周期类发送有限告警,有效减少重复告警发送,提高告警效率
  • 支持告警升级,避免过度收敛导致重要告警遗漏,在告警收敛阶段根据条件将告警升级发送到指定通知人
  • 支持自动恢复,当告警内容满足配置的恢复条件时发送恢复告警通知,完美适配open-falcon、grafana这种带监控恢复能力的监控系统
  • 支持告警通知模板,可以将告警内容中的json解析作为变量占位符,与文字组成自定义的通知模板,支持各场景各通知渠道