码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 论文学习 --- RL Regret-based Defense in Adversarial Reinforcement Learning


    前言

    个人拙见,如果我的理解有问题欢迎讨论 (●′ω`●)
    原文链接:https://www.ifaamas.org/Proceedings/aamas2024/pdfs/p2633.pdf

    研究背景

    深度强化学习(Deep Reinforcement Learning, DRL)在复杂和安全关键任务中取得了显著成果,例如自动驾驶。然而,DRL策略容易受到观测噪声的干扰,这在安全关键环境中可能导致灾难性后果。例如,自动驾驶汽车在接收到对交通标志的对抗性扰动时(如一个被物理改变的停车标志被感知为限速标志)可能会导致严重的交通事故。

    研究意义

    目前已有的方法主要集中在通过正则化方法和“maximin”方法来提高DRL算法对观测扰动的鲁棒性。然而,正则化方法虽然可以减少攻击成功的概率,但一旦攻击成功,性能下降显著。而“maximin”方法虽然鲁棒性强,但过于保守。因此,本文研究了一种新的鲁棒性目标——遗憾(Regret),通过优化遗憾来在保证鲁棒性的同时不过于保守。

    保守指的是在面临可能需要探索的场合时,智能体可能会偏向去执行奖励更大而不是结果更优的动作


    摘要

    本文提出了一种基于遗憾优化的方法来增强对抗性强化学习中的鲁棒性。我们定义并近似优化了一种新的遗憾度量,命名为累积矛盾期望遗憾(Cumulative Contradictory Expected Regret, CCER),并提出了三种优化方法:

    RAD-DRN(基于深度遗憾网络的对抗防御)
    RAD-PPO(基于近端策略优化的对抗防御)
    RAD-CHT(基于认知层级理论的对抗防御)

    实验结果表明,这些方法在多个标准基准测试中均优于现有的最佳方法。


    具体细节

    对抗策略的训练

    文章中提出了一个假设,带有了干扰的观测状态Z和真实状态S之间一定存在一个双射的函数,即一个Z一定只会对应一个S,通过这种方式,当干扰出现时,智能体能够利用这种映射关系,将当前的Z映射到S空间,这样的话就不会出现下面的情况:

    在机械臂的抓取过程中,如果目标是红色方块,干扰是粉色方块,当遇到粉色干扰时,机械臂能够自行根据相应的算法,做出不同的动作来规避误抓取,这在下面会展开讨论

    遗憾的定义

    在对抗性强化学习中,遗憾被定义为在没有对抗干扰和存在对抗干扰的情况下,代理获得的期望值之差。具体来说,给定一个对抗性策略

  • 相关阅读:
    java八股文_1
    Qt扫盲-QJsonObject理论总结
    润和软件受邀参展第十一届“中国软件杯”大学生软件设计大赛
    Mathpix替代者|科研人必备公式识别插件|latexocr安装教程
    【微信小程序】解决分页this.setData数据量太大的限制问题
    重点已划好!OpenMMLab 7 月动态一览
    Spring底层原理学习笔记--第三讲--(bean生命周期与模板方法)
    【图像分割】基于樽海鞘算法的指数熵多阈值图像分割附Matlab代码
    FineReport----报表模板入门
    红外线相关的论文(可见光和红外图像融合、红外图像增强、红外图像目标检测、红外图像分割...)
  • 原文地址:https://blog.csdn.net/Keitheasun/article/details/140021703
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号