码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • DataNode进入Stale状态问题排查


    先说下DataNode为啥会处于Stale状态
    默认情况下,DataNode每3s向NameNode发送一次心跳,如果NameNode持续30s没有收到心跳,就把DataNode标记为Stale状态;再过10分钟还没收到心跳,就标记为dead状态

    NameNode有个jmx指标hadoop_namenode_numstaledatanodes,进入statle状态的DataNode数量,正常情况这个值应该是0,如果不是0则应该触发告警

    DataNode有个jmx指标hadoop_datanode_heartbeatstotalnumops,表示心跳发送次数,通过prometheus函数increase(hadoop_datanode_heartbeatstotalnumops[1m]),可以得出1分钟内的心跳发送次数

    监控发现有个节点存在心跳次数为0的情况:
    在这里插入图片描述
    观察这段时间DataNode的JVM状态,发现GC非常频繁,1分钟高达90次:
    在这里插入图片描述
    再查看这个节点的日志,发现有一条警告日志:

    在这里插入图片描述

    主要代码在org.apache.hadoop.hdfs.server.datanode.DirectoryScanner.scan()
    大致是DataNode会定期扫描磁盘上的数据块,检查是否和内存中的数据块信息一致。开始对比前要先获取锁,完成后释放锁时会进行一个检查,如果持有锁的时间超过阈值(300ms),就会打印警告日志
    这里锁持有时间为36s,有点太长了,猜测原因是DataNode存储配置不合理,只配置了一块磁盘,且数据量较大,数据块非常多,导致对比耗时比较久
    而这个时间和DataNode心跳缺失的时间也正好相符
    抽查了几次出现心跳发送异常的时间点,都有发现这个警告日志
    大概率就是因为这个影响到心跳发送

    官方也有对应的issue:

    https://www.mail-archive.com/hdfs-dev@hadoop.apache.org/msg43698.html
    https://issues.apache.org/jira/browse/HDFS-16013
    https://issues.apache.org/jira/browse/HDFS-15415
    在3.2.2, 3.3.1, 3.4.0版本中解决了这个问题,除了优化性能,最关键是把锁去掉了,及时耗时再久,也不会因为长时间持有锁而影响DataNode健康状态

    升级版本对我们来说难度比较大
    先继续观察,看这个情况会不会造成其他更大的影响
    除了升级版本,把DataNode改为多个目录,每个目录一块较小的磁盘,应该也能起到优化效果

    参考文章:
    如何识别datanode stale

    谈一谈 DataNode 如何向 NameNode 发送心跳的
    DataNode之DirectoryScanner分析

  • 相关阅读:
    一文让你了解数据采集
    实用篇-服务拆分及远程调用
    一Vue基础:绑定样式、条件渲染、列表渲染、列表过滤
    数字孪生行业相关政策梳理--智慧水利领域相关政策(可下载)
    数据迁移工具(数据库之间进行数据库迁移所使用的工具及迁移流程。)
    SAP ABAP内部单位外部单位转换问题
    hadoop伪分布模式配置
    关于竞品分析怎么做?掌握这5点就够了!
    回归 Regression
    基于SpringBoot+Vue+uniapp的OA办公系统(源码+lw+部署文档+讲解等)
  • 原文地址:https://blog.csdn.net/li281037846/article/details/125410380
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号