SLS新版告警入门-旧版告警升级-阿里云开发者社区

开发者社区> 阿里云存储服务> 正文
登录阅读全文

SLS新版告警入门-旧版告警升级

简介: 近期SLS发布了新版告警,新版本告警在升级原有功能的基础上,扩展了告警监控、告警管理、通知(行动)管理的能力,SLS新版告警还支持在控制台将旧版告警一键升级为新版告警。本文首先会介绍新版与旧版在架构、功能和配置上的区别,然后通过一个实例演示如果将旧版告警一键升级为新版告警。
(福利推荐:你还在原价购买阿里云服务器?现在阿里云0.8折限时抢购活动来啦!4核8G企业云服务器仅998元/3年,立即抢购>>>:9i0i.cn/aliyun

福利推荐:阿里云、腾讯云、华为云等大品牌云产品全线2折优惠活动来袭,4核8G云服务器899元/3年,新老用户共享优惠,点击这里立即抢购>>>

近期SLS发布了新版告警,新版本告警在升级原有功能的基础上,扩展了告警监控、告警管理、通知(行动)管理的能力,SLS新版告警还支持在控制台将旧版告警一键升级为新版告警。本文首先会介绍新版与旧版在架构、功能和配置上的区别,然后通过一个实例演示如果将旧版告警一键升级为新版告警。

架构对比

新版告警在告警规则任务监控数据、触发通知后,通过告警策略进行降噪、通过行动策略进行渠道分派管理。并支持额外的告警状态管理和告警升级。

旧版告警工作流程

image.png

新版告警工作流程

image.png


功能对比

新版本对原有旧版本的功能进行了升级,并且新增了很多实用的功能,这里不再详细展开介绍,更详细的功能对比可以参考

功能升级

  • 监控目标:除了支持原来的日志,时序和外部数据源(OSS,MySQL)等,还支持用户直接在SLS创建自定义资源表;
  • 触发条件:旧版告警仅支持对查询的集合操作结果任意条数据判断(任一条数据满足即为触发);新版告警支持四种触发条件的判断,既支持对结果中数据进行评估,还支持对结果条数进行评估,及其之间的组合评估;
  • 报表关联:旧版告警强制告警必须与仪表盘关联,新版告警取消了报表的强制关联;
  • 多库联合查询:旧版告警支持对三张表进行笛卡尔积结果评估,新版告警增加了不合并、拼接、左联、右联、全联合、左斥和右斥等集合操作功能;

功能新增

  • 告警监控:增加了数据协同关联监控能力,黑白名单监控,告警严重度,标签,标注,多目标监控,无数据告警和告警恢复,详细可以参考
  • 告警管理:增加了告警降噪控制告警事件管理
  • 通知管理:支持告警动态分派和级别提升,接收人管理,渠道日历,值班表管理,渠道额度控制,详细可以参考
  • 告警分析:增加了监控规则中心,告警链路中心,告警排障中心。

旧版告警升级流程

旧版告警升级涉及到的配置项的一些变化,主要包含配置项包括监控配置,通知配置,内容模板变量修改。

监控配置

对于新增的监控配置项在升级过程中设置了默认值

image.png

通知配置

升级后,日志服务提取手机号、邮箱作为用户标识,并创建对应的用户;提取通知内容作为内容模板的内容;根据通知渠道配置生成对应的行动策略;默认使用SLS内置动态告警策略。

image.png

模板变量

新版告警对模板变量进行了优化,并增加了多个更新的变量,参考

旧版告警升级实例

接下来以一个旧版告警为例,在SLS控制台一键升级为新版告警。

基于Nginx访问日志,我们创建一个监控500错误过多的旧版告警,主要监控逻辑是查询过去15分钟内出现500的请求次数是否大于10个,如果大于10个,就发出告警,通知到钉钉机器人和邮件,通知间隔默认设置为5分钟(表示同一条告警每次评估,5分钟内只会收到一次通知)

配置旧版告警

  • 监控配置如下:

image.png

  • 通知配置如下,包括钉钉和邮件通知渠道:

image.png

image.png


升级

  • 点击升级按钮,升级为新版告警
    • 如果是首次使用新版告警,请根据页面提示配置存储中心,并单击确认配置完成后,日志服务将自动在您所选的地域创建一个名为sls-alert-主账号ID-区域的Project和名为internal-alert-center-log的Logstore,用于存储告警相关信息。

? ? image.png

  • 点击确认后会弹出升级告警涉及到一些配置项,如下;
    • 本次升级会增加一个行动策略,内容包含告警触发后的通知渠道设置,包含钉钉和邮件通知;
    • 增加一个内容模板,指定在要钉钉和邮件中发送的内容,其中已经自动将旧版告警的内容模板变量升级为新的内容模板变量;
    • 增加一个用户,取旧版告警中的短信,语音以及钉钉通知中@人的手机号作为手机用户,取邮件渠道中的邮件地址作为邮件用户,本次升级因为只配置了邮件和钉钉(未指定@手机号),所以会提取邮件地址创建用户。

? image.png

  • 点击确认,新版告警升级成功,重新查询该告警,点击修改配置,可以看到已经升级为新版告警编辑页面

查看升级结果

  • 告警规则
    • 规则名,检查频率,查询统计等基础信息保持不变
    • 分组评估,默认设置为不分组
    • 触发条件,更新为有数据匹配+评估表达式,与原有逻辑保持兼容
    • 告警严重度,默认设置为中
    • 标注,默认增加标题和描述,取值为告警名称
    • 告警策略和行动策略,告警策略默认使用内置动态告警;行动策略,会生成了一个新的名称为“行动策略迁移自_Nginx500错误过多”的行动策略;重复等待取自原来的通知间隔时间,逻辑保持兼容

image.png


  • 行动策略

点击上图中行动策略的查询配置详情,弹出迁移好的行动策略编辑页面,其中原来的通知渠道配置,在该行动策略中被包含在行动组中,这里包含钉钉和邮件两个行动。

image.png? image.png

  • 内容模板
    • 点击上图中的钉钉的配置,点击内容模板的查看,可以看到一个名称为“内容模板迁移自_Nginx500错误过多”的内容模板
    • 内容模板包括每个通知渠道的发送内容,这里涉及到钉钉和邮件的内容
    • 点开钉钉(Webhook)选项卡,可以看到发送内容已经迁移好,并且使用了新的模板变量,也可以点击邮件选项卡,查询邮件内容

? image.png

  • 通知结果对比,以下为钉钉发送通知的对比

image.png

? image.png

这样一个旧版告警升级就完成了,升级过程比较简单,基本实现了“一键升级”,在升级后用户可以通过修改配置使用到新版功能中的新功能,例如可以设置无数据告警和告警恢复通知,还可以对告警进行降噪和事件管理。

参考

  • 什么是日志服务告警【链接
  • SLS告警旧版与新版区别,及迁移到新版【链接
  • SLS新版告警通知管理【链接

进一步参考

image

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:


http://www.vxiaotou.com