码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 微服务14:微服务治理之重试


    ★微服务系列

    微服务1:微服务及其演进史
    微服务2:微服务全景架构
    微服务3:微服务拆分策略
    微服务4:服务注册与发现
    微服务5:服务注册与发现(实践篇)
    微服务6:通信之网关
    微服务7:通信之RPC
    微服务8:通信之RPC实践篇(附源码)
    微服务9:服务治理来保证高可用
    微服务10:系统服务熔断、限流
    微服务11:熔断、降级的Hystrix实现(附源码)
    微服务12:流量策略
    微服务13:云基础场景下流量策略实现原理

    1 背景

    在复杂的互联网场景中,不可避免的会出现请求失败的情况。
    从程序的的响应结果来看,一般是Response返回5xx状态的错误;从用户的角度去看,一般是请求结果不符合预期,即操作失败(如转账失败、下单失败、信息获取不到等)。
    偶发的不可避免的5xx请求错误,产生的原因有很多种,比如:

    • 网络延迟或者抖动
    • 服务器资源不足(CPU、内存走高、连接池满)
    • 服务器故障
    • 符合某些特定条件下的服务程序bug(大都非必现)
      image

    2 系统稳定性等级划分

    大部分服务容忍低频、偶发的5xx错误,并使用可用性级别来衡量系统的健壮性,级别系数越高,健壮性越好,如下:

    等级描述 故障时长(年) 可用行等级
    基本可用性 87.6h 99%
    较高可用 8.8h 99.9%
    非常高的可用性(大部分故障可自动恢复) 52m 99.99%
    极高可用性 5m 99.999%

    对于强系统可靠性、强结果预期性 要求的系统,如转账、下单、付款,即使微小的可用性降级也是不可接受,用户强烈需要接收到正确的结果。
    可以想想你付款的时候发现付款失败有多么惊慌,订外卖的时候获取信息失败有多么沮丧,这些都是用户痛点。

    3 异常的治理手段

    3.1 采用异常重试实现故障恢复

    通过上面的故障原因分析我们知道,排除了必现的程序逻辑错误,大部分环境导致的错误是可以通过重试进行恢复的。
    治理的手段主要是采用 异常重试 来实现的,通过重试负载到健康实例上(实例越多重试成功率越高),降低用户感知到的故障频率。
    image

    执行过程说明

    • 这边以示例服务 Svc-A 向 Svc-B 发起访问为例子。
    • 第1次执行失败之后,根据策略,间隔25ms之后发起第2次请求。
    • 会看到有两条日志,日志的trace_id 一致,说明他是同一个调用过程(1个调用过程,包含2次请求,首发1次与重试1次)
    • 请求方为同一个实例 Svc-A-Instance1,说明请求发起方一致。
    • 被请求方发生了变动,说明调度到新的实例(Svc-B-Instance1 到 Svc-B-Instance2)。
    • 返回正常的 200 。

    因为我们的负载均衡模式默认是RR,所以实例越多,实际上重试成功的概率会越高。比如有50个实例,其中一个实例出故障,导致执行返回5xx,那么第二次请求的时候一般来说会有 49/50 的成功概率。如下图:
    image

    3.2 策略实现(Service Mesh方案)

    注释比较清晰了,这边就不解释了。

    # VirtualService
    apiVersion: networking.istio.io/v1beta1
    kind: VirtualService
    metadata:
      name: xx-svc-b-vs
      namespace: kube-ns-xx
    spec:
      hosts:
      - svc_b.google.com # 治理发往 svc-b 服务的流量
      http:
      - match:  # 匹配条件的流量进行治理
        - uri:
            prefix: /v1.0/userinfo   # 匹配路由前缀为 /v1.0/userinfo 的,比如 /v1.0/userinfo/1305015
        retries:
          attempts: 1  # 重试一次
          perTryTimeout: 1s  # 首次调用和每次重试的超时时间
          retryOn: 5xx  # 重试触发的条件
        timeout: 2.5s  #  请求整体超时时间为2.5s,无论重试多少次,超过该时间就断开。
        route:
        - destination:
            host: svc_b.google.com
          weight: 100
      - route:  # 其他未匹配的流量默认不治理,直接流转
        - destination:
            host: svc_c.google.com
          weight: 100
    

    4 总结

    云基础场景下的治理手段各种各样,这边讲解了初级版的异常重试,让用户有一个更优良的使用环境。
    后续的章节我们逐一了解下超时保护、故障注入、熔断限流、异常驱逐等高级用法。

  • 相关阅读:
    2023-10-10 LeetCode每日一题(奖励最顶尖的 K 名学生)
    Mongodb操作与Java(四)MongoTemplate的使用
    毫米波雷达上险量增长超40%:头部厂商放量,伪玩家裸泳
    【JavaScript复习十八】预解析
    Flask 学习-35.restful-full 自定义错误内容 error_msg 使用
    计算机毕业设计--基于SSM+Vue的物流管理系统的设计与实现
    Ubuntu22.04 vnc远程黑屏
    c++ 哈希表(Hash Table)
    string的应用及模拟实现
    49.Java Files文件
  • 原文地址:https://www.cnblogs.com/wzh2010/p/16124956.html
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号