• 算法落地思考:如何让智能运维更智能


    嘉宾 | 王鹏   整理人 | 西狩xs

    出品 | CSDN云原生

    AIOps是人工智能与运维的结合,能够基于已有的运维数据,利用人工智能算法,通过机器学习的方式帮助企业提升运维效率,解决自动化运维无法管理的问题。

    2022年8月30日,在CSDN云原生系列在线峰会第16期“AIOps峰会”上,复旦大学计算机科学技术学院教授、擎创科技首席数据科学家王鹏深入阐述了智能运维的现状,全面分析了智能运维在算法落地时遇到的问题,分享了他在智能运维方向中算法落地的探索与尝试。

    智能运维的现状

    当前有众多学者对智能问答系统进行研究,提出了诸多算法和技术,在Google Scholar中,与智能问答系统相关的词条高达35万,但智能问答系统在实际生活中的效果却差强人意,并不是真正的“智能”。

    近些年来,智能运维算法一直在快速地发展迭代,随着智能运维研究成果和应用场景的不断落地,算法效果也在不断提升。

    指标异常检测

    指标异常检测是当前落地最多的智能运维场景,该场景下数据容易准备、效果容易验证。对某个指标的某个时间序列进行标注后,很容易看出哪些异常没有被捕获,以及捕获了哪些不应该捕获的异常。

    针对指标的异常检测,研究者们提出了大量异常检测算法,包括单指标异常算法、多指标的异常检测算法、基于统计或深度学习的异常检测算法以及有监督、无监督的异常检测算法。

    但在实际落地过程中,指标异常检测的效果往往不尽如人意。主要问题如下:

    1、误报太多

    • 阈值设置紧,为了消除漏报,造成了大量的误报;
    • 异常数量多,运维人员难处理,不得不忽略所有的指标异常告警。

    2、模型/参数难以设置

    • 不同类型的指标,其波动情况、周期性、变化情况不同,所适合的模型和参数也不同;
    • 无法单独为指标设置模型和参数。

    3、缺乏有效的反馈和修正机制

    • ​​​​​缺乏问题发现能力,难以对指标异常进行类型、主机、时间段等方面的展示和分析,难以对异常进行交互式探索,无法判断异常是否应该报告;
  • 相关阅读:
    springboot整合redis
    [附源码]Python计算机毕业设计Django基于微信小程序的网络办公系统
    数据库简史:多主数据库架构的由来和华为参天引擎的机遇
    第23篇 基于Qt实现PID温度加热控制系统
    在EF Core中为数据表按列加密存储
    C# MES通信从入门到精通(1)——串口传输文件
    hiredis的代码示例
    SQL存储过程详解
    Java实现SQL分页
    云原生 | 从零开始,Minio 高性能分布式对象存储快速入手指南
  • 原文地址:https://blog.csdn.net/m0_46700908/article/details/126832645