• SkyWalking告警通知


    一、SkyWalking告警

    警报机制根据来自不同层的服务/实例/端点的度量来衡量系统性能。警报内核是一个内存中的、基于时间窗口的队列。

    告警规则的定义分为三部分:

    • 告警规则:它们定义了应该如何触发度量警报以及应该考虑哪些条件;
    • 网络钩子(Webhook}:Web 服务端点列表。当警告触发时,哪些 Web服务终端需要被通知;
    • gRPC钩子:远程 gRPC方法的主机和端口,告警触发后调用;

    官方文档:https://github.com/apache/skywalking/blob/master/docs/en/setup/backend/backend-alarm.md

    SkyWalking告警的核心由一组规则驱动,这些规则定义在 config/alarm-settings.yml文件中。

    1、查看 config/alarm-settings.yml文件

    查看 config/alarm-settings.yml文件,Skywalking提供了一些默认的规则,只要我们的应用服务请求符合 alarm-setting.yml文件中的某一条规则就会触发告警通知。

    rules:
      # Rule unique name, must be ended with `_rule`.
      service_resp_time_rule:
        metrics-name: service_resp_time
        op: ">"
        threshold: 1000
        period: 10
        count: 3
        silence-period: 5
        message: Response time of service {name} is more than 1000ms in 3 minutes of last 10 minutes.
      service_sla_rule:
        # Metrics value need to be long, double or int
        metrics-name: service_sla
        op: "<"
        threshold: 8000
        # The length of time to evaluate the metrics
        period: 10
        # How many times after the metrics match the condition, will trigger alarm
        count: 2
        # How many times of checks, the alarm keeps silence after alarm triggered, default as same as period.
        silence-period: 3
        message: Successful rate of service {name} is lower than 80% in 2 minutes of last 10 minutes
       ...
    

    参数说明:更多规则说明查看官方文档

    • metrics-name:度量名称,也是OAL脚本中的度量名。默认配置中可以用于告警的度量有:服务,实例,端点,服务关系,实例关系,端点关系。它只支持 long,double和 int类型。
    • op:操作符。
    • threshold:阈值。
    • period:多久告警规则需要被检查一下。这是一个时间窗口,与后端部署环境时间相匹配。
    • count:在一个周期窗口中,如果按op计算超过阈值的次数达到count,则发送告警 silence-period:在时间N中触发报警后,在N -> N + silence-period这段时间内不告警。
    • message:该规则触发时,发送的通知消息。

    默认报警规则:它包括以下规则:

    1. 过去 3 分钟内服务平均响应时间超过 1 秒。
    2. 最后2分钟服务成功率低于80%。
    3. 过去 3 分钟内超过 1 秒的服务响应时间百分比
    4. 服务实例最近 2 分钟平均响应时间超过 1 秒,并且实例名称与正则表达式匹配。
    5. 过去 2 分钟内端点平均响应时间超过 1 秒。
    6. 过去 2 分钟内数据库访问平均响应时间超过 1 秒。
    7. 过去 2 分钟内端点关系平均响应时间超过 1 秒。

    2、测试告警

    在应用服务中编写一个接口(慢查询)来测试告警。

    	@GetMapping("/timeout")
    	public UserDO timeout(Long seconds) throws InterruptedException {
    
    		if(seconds == null){
    			throw new RuntimeException("seconds 不能为空");
    		}
    		TimeUnit.SECONDS.sleep(seconds);
    		UserDO userDO = userService.getById(11L);
    		return userDO;
    	}
    

    启动项目,访问接口:http://127.0.0.1:18081/user/timeout?seconds=5

    然后我们可以在 SkyWalking UI界面的告警菜单中发现有了一条告警信息。说明请求满足了告警规则,并且SkyWalking收集到了告警信息。

    在这里插入图片描述

    二、SkyWalking告警通知

    上面针对接口,演示了 SkyWalking告警信息的规则触发。如果触发告警,我们该如何通知工作人员呢?

    SkyWalking在 config/alarm-settings.yml文件中提供了回调接口。我们只需要配置我们的通知接口即可。

    1、配置回调接口

    在 config/alarm-settings.yml中配置回调接口(我们应用服务的接口),并重启 skywalking服务。

    webhooks:
    #  - http://127.0.0.1/notify/
    #  - http://127.0.0.1/go-wechat/
      - http://127.0.0.1:18081/sw/alarm/notify/
      - http://127.0.0.1:18081/sw/alarm/notify2/
    

    2、编写回调接口

    在我们应用服务中编写接口。拿到告警信息,通过不同的方式通知工作人员。

    2.1 控制台输出告警信息

    简单点,控制台输出告警信息。

    @RestController
    @RequestMapping("/sw/alarm")
    public class SkywalkingAlarmController {
    
    	/**
    	 * Skywalking告警通知回调接口:http://127.0.0.1:18081/sw/alarm/notify/
    	 * 
    	 * @param obj
    	 * @return
    	 */
    	@RequestMapping("/notify")
    	public String notify(@RequestBody Object obj) {
    		// TODO 将告警信息通知给负责人。比如:通过发短信,钉钉消息,邮件,微信通知等方式发送给技术负责人
    		System.err.println("收到Skywalking告警信息:" + obj.toString());
    		return "notify successfully";
    	}
        
    }
    

    测试告警:
    在这里插入图片描述

    2.2 发送邮件

    SpringBoot 实现发送邮件:https://blog.csdn.net/qq_42402854/article/details/110472398

    	/**
    	 * 发送邮件
    	 *
    	 * Skywalking告警通知回调接口:http://127.0.0.1:18081/sw/alarm/notify2/
    	 *
    	 * @param obj
    	 * @return
    	 */
    	@RequestMapping("/notify2")
    	public String notify2(@RequestBody Object obj) {
    		// TODO 将告警信息通知给负责人。比如:通过发短信,钉钉消息,邮件,微信通知等方式发送给技术负责人
    		System.err.println("notify2 收到Skywalking告警信息:" + obj.toString());
    
    		sendSimpleMail("xxx@qq.com", "Skywalking告警信息", obj.toString());
    		return "notify successfully";
    	}
    
    	private static final String SENDER = "xxx@163.com";
    	@Autowired
    	private JavaMailSender mailSender;
    
    	/**
    	 * 发送普通邮件
    	 *
    	 * @param to      收件人邮箱
    	 * @param subject 主题(标题)
    	 * @param content 内容
    	 */
    	public void sendSimpleMail(String to, String subject, String content) {
    		SimpleMailMessage message = new SimpleMailMessage();
    		message.setFrom(SENDER);
    		message.setTo(to);
    		message.setSubject(subject);
    		message.setText(content);
    		try {
    			mailSender.send(message);
    		} catch (Exception e) {
    			System.out.println("发送普通邮件时发生异常!" + e);
    		}
    	}
    

    测试告警:
    在这里插入图片描述

    – 求知若饥,虚心若愚。

  • 相关阅读:
    【代码】Android|判断asserts下的文件存在与否,以及普通文件存在与否
    关于为了少搬砖,而用node手写了一个React脚手架这件事
    基于局部特征技术的航拍绝缘子图像检测和配准技术的研究
    04.一语详解SpringBoot全局配置文件
    最短路径——通过Dynamo批量创建行进路线
    《设计模式》组合模式
    判断子序列[简单]
    Blender 学习笔记(二)之坐标
    模块 Python3
    node.js使用express框架搭建服务器——设置前后端接口——实现数据请求
  • 原文地址:https://blog.csdn.net/qq_42402854/article/details/126942178