码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • Backblaze 2022 Q3 硬盘故障质量报告解读


    在9月份,我们更新了Backblaze 2022上半年的中期质量报告解读(Backblaze2022中期SSD故障质量报告解读),基于报告中的分析数据,Backblaze也向外界传递作证了一个信息:固态硬盘SSD的长期可靠性比机械硬盘HDD要高。

    随着Q3质量报告的发布,我们继续解读质量报告,重点关注Q3质量的表现,故障率是否出现较大的波动。

    截至2022 Q3季度末,Backblaze监控的硬盘数量超过22万片,其中4.2K是系统启动盘,包括2.7Kpcs SSD和1.4Kpcs HDD。总量22万pcs硬盘分为29个型号model。上个季度Q2的型号是27个,Q3新增2个型号:Seagate 8TB型号:ST8000NM000A和Seagate 16TB 型号: ST16000NM002J。涉及的29个型号,来自3个厂商:主要分布:

    • HGST+WDC西数:HGST,7个型号;WDC,3个型号

    • Seagate希捷:13个型号

    • Toshiba东芝:6个型号

    东芝和WD西数的型号是从2020年开始逐年增加。目前还是希捷盘的数量最多。

    下图是Backblaze从2022/7/1到2022/9/30之间的第三季度Q3故障率数据表现。从Q3季度的29个型号的质量数据中,我们可以发现几点信息:

    • 第三季度Q3有三个型号的盘故障率为0:分别是HUH728080ALE604、ST8000NM000A、WUH721816ALE6L0。其中只有WUH721816ALE6L0达到了AFR评估的标准“为了故障率AFR数据更加合理,盘的数量尽量会超过100pcs,故障率评估集群中盘运行时间也要超过10000 盘*天”

    • 有另外三个型号上电时间最长,希捷的一款4T和6T,和东芝的一块4T盘,故障率已经逐步攀升,看到了随着运行时间增长发生老化的迹象。其中,东芝8.25%的高AFR也跟数量只有95个有关,即使故障2个,故障率也飙升了。对这3块盘来说,经过七年左右的持续旋转,他们的主轴、驱动器、磁头、碟片介质等出现开始磨损和老化问题。

         

    • 2022年第三季度整体AFR为1.64%,比2022年的Q2 AFR=1.46%要高,同时比2021年Q3 AFR=1.1%也增长不少。这里面主要可能第二点说的长时间运行导致的老化有关,Blackblaze表示后续会更换新盘,预计后续的AFR故障率也会出现下降。

    基于硬盘故障率和硬盘成本,Backblaze还抛出一个问题:“在故障率表现和购买成本之间,哪种情况,终身使用累计成本最高?”

    • 上图中,有3个型号的14TB HDD,分别为Model 1、Model 2、Model 3.

    • 终身累计成本:除了最初购买的盘的成本,后续故障后更换故障盘的成本(这里面盘本身成本可能由于存在质保期内的RMA而是0,还包括维修更换的成本)。

    • 三个型号的购买成本分别是225美元、250美元、275美元,每个型号购买5000pcs。

    • 三个型号的根据故障率表现,每年维修更换的数量75、50、25,对应每年维修人力成本分别是22500美元、15000美元、7500美元。后续服役时间5年。

    • 在三个型号当前故障率表现AFR分别1.5%、1%、0.5%的情况下,终身累计成本分别是123万美元、132万美元、141万美元。Model 3的终身累计成本最高。

    • 根据上面的计算模型,我们也会发现,当Model 1 AFR=2.67% 时,Model 1和Model 2会有相同终身累计成本132万美元。当Model 1 AFR=3.83% 时,Model 1和Model 3会有相同终身累计成本141万美元。故障率的上升会增加硬盘的终身累计成本。硬盘的故障率会一个浴盆曲线,在核算终身累计成本也需要考虑故障率的变化。

    下图是Backblaze从2013/4/20到2022/9/30之间的历史累计的生命周期故障率数据表现。生命周期的故障率AFR当前是1.41%,比上个季度的1.39%略高,这也说明Q3的质量表现不太乐观。但是比2021年Q3的生命周期的故障率AFR 1.45%要低。说明2022年整体故障率表现略好。

    下图中是生命周期故障率AFR小于1%的型号列表。主要集中在12TB、14TB、16TB盘。其中,西数盘型号为WUH721816ALE6L0的16T盘,质量表现最好,AFR在0.11%。

    精彩推荐:

    • 漫谈云数据中心的前世今生

    • 多维度深入剖析QLC SSD硬件延迟的来源

    • 漫谈固态硬盘SSD全生命周期的质量管理

    • 如何快速debug定位SSD延迟问题?

    • 汽车存储SSD面临的挑战与机遇

    • 超大规模云数据中心对存储的诉求有哪些?

    • SSD写放大的优化策略要统一标准了吗?

    • 阿里云Optane+QLC存储实践案例分享

    • “后Optane时代”的替代存储方案有哪些?

    • 浅析数据中心存储发展趋势

    • 浅析PCIe链路LTSSM状态机

    • 浅析Relaxed Ordering对PCIe系统稳定性的影响

    • 实战篇|浅析MPS对PCIe系统稳定性的影响

    • 浅析PCI配置空间

    • 浅析PCIe系统性能

    • PLC SSD虽来但远,QLC SSD火力全开

    • Backblaze2022中期SSD故障质量报告解读

    • 最全电脑固态硬盘SSD入门级白皮书

    • 存储随笔《NVMe专题》大合集及PDF版正式发布!

    • 加权循环仲裁WRR特性对NVME SSD性能有什么影响?

    • Linux NVMe Driver学习笔记之9: nvme_reset_work压轴大戏

  • 相关阅读:
    tomcat启动报错Cannot find usrlocaltomcatbinsetclasspath.sh原因
    第六章:Java内存模型之JMM
    文本乱序的简单方法
    一起学数据分析_2
    弘辽科技:拼多多商品转化率是怎么计算的?转化率低是什么原因?
    48页智慧城市规划蓝图 解决方案
    HVIDB!人类病毒蛋白互作数据库介绍
    蓝桥杯算法训练-数组移动
    华为机试真题 C++ 实现【统计文本数量】
    【Docker学习】docker login/logout
  • 原文地址:https://blog.csdn.net/zhuzongpeng/article/details/127892988
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号