• 大数据之LibrA数据库系统告警处理(ALM-12028 主机D状态进程数超过阈值)


    告警解释

    系统每30秒周期性检测主机中omm用户D状态进程数,并把实际进程数和阈值相比较。主机D状态进程数默认提供一个阈值范围。当检测到进程数超出阈值范围时产生该告警。

    平滑次数为1,主机中omm用户D状态进程数小于或等于阈值时,告警恢复;平滑次数大于1,主机中omm用户D状态进程数小于或等于阈值的90%时,告警恢复。

    告警属性

    告警ID

    告警级别

    可自动清除

    12028

    严重

    告警参数

    参数名称

    参数含义

    ServiceName

    产生告警的服务名称。

    RoleName

    产生告警的角色名称。

    HostName

    产生告警的主机名。

    Trigger Condition

    系统当前指标取值满足自定义的告警设置条件。

    对系统的影响

    占用系统资源,业务进程响应变慢。

    可能原因

    主机中正在等待的IO(磁盘IO、网络IO等)在较长时间内未得到响应,进程处于D状态。

    处理步骤

    查看D状态进程。

    1. 打开FusionInsight Manager页面,在告警列表中,单击此告警所在行,在告警详情中,查看该告警的主机地址。
    2. 使用PuTTY工具登录产生告警主机,执行su - omm命令,切换到omm用户。
    3. 执行如下命令查看omm用户D状态进程号。

      ps -elf | grep -v "

      threadcheckio" role="presentation" style="text-align: center; position: relative;">threadcheckio
      " | awk 'NR!=1 {print $2, $3, $4}' | grep omm | awk -F' ' '{print $1, $3}' | grep D | awk '{print $2}'

    4. 查看结果是否为空。

    5. 切换到root用户,执行reboot命令,重启产生告警主机(重启主机有风险,请确保重启后业务进程正常)。
    6. 等待5分钟,检查该告警是否恢复。

      • 是,处理完毕。
      • 否,执行步骤 7

    收集故障信息。

    1. 在FusionInsight Manager界面,单击“系统设置 > 日志下载”。
    2. 在“服务”下拉框中勾选“Manager”,单击“确定”。
    3. 设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  • 相关阅读:
    2022年秋招ASIC&FPGA笔试题汇总
    【区块链 | Solidity】以太坊Solidity如何实现海量空投代币?
    长沙建筑模板生产厂家有哪些?
    轻松虚拟gps定位 AnyGo中文 for mac
    DSPE-PEG-Hydrazide DSPE-PEG-HZ 水溶性磷脂-聚乙二醇-酰肼
    【ELM】动态自适应可变加权极限学习机ELM预测(Matlab代码实现)
    Hadoop3 - MapReduce SequenceFile 、MapFile 格式存储
    A_搜索(A Star)算法
    Spring Bean的生命周期
    MFC的定义和实际操作方法
  • 原文地址:https://blog.csdn.net/weixin_42874480/article/details/134246269