码农知识堂 - 1000bd
Python
PHP
JS/TS
JAVA
C/C++
C#
GO
Kotlin
Swift
Anthropic LLM论文阅读笔记
研究时间
:与Instrcut GPT同期的工作,虽然其比ChatGPT发布更晚,但是其实完成的时间比ChatGPT更早。
与ChatGPT的应用区别
:该模型比ChatGPT回答我不知道的概率更高。
将强化学习用于大语言模型(RLHF)
:发现这种方法可以提升几乎在所有NLP任务上的性能。随着参数的增加,效果也越来越好。如果模型经过了强化学习的辅助,效果会进一步提升;如果经过了有用性的训练,模型会有更大的提升;但是如果经过了有害性的训练,模型的有用性会下降,非有害性会提升。
模型不断更新
:每个星期用一个新的奖励函数和强化学习目标进行训练,相当于一个在线学习。
模型实现了有用性和无害性
:让模型分别在两组表示有用性和无害性的数据集上进行学习。这两个特性其实是相矛盾的,尽管将两个数据集放在一起训练问题也不大,但是仍然需要后续的改进来进行优化。
数据标注
:数据标注阶段,每次让模型生成两个回答,让标注工人选择他们觉得更好的回答。
RLHF对不同规格的模型的效果
:如果模型本身的规模较小,经过RLHF后Zero-shot条件下的模型准确度会下降;但是这个问题在模型规模变大后解决掉。
数据类型
:采用的是多轮对话数据,而非常规的QA(单轮)数据,因此和ChatGPT的方式是类似的。
比较不同模型的效果
:通过Elo分数进行比较,通过Elo分数计算两个模型中的获胜率。获胜率越高,模型效果越好。
模型精确度与数据量的关系
:随着数据量的指数级提升,模型的精确度呈现一个线性的提升。
模型精确度和对话轮数的关系
:总体趋势是,对话轮数变多时,模型的精确度会下降。
相关阅读:
基于token进行登录,每次请求携带token
KubeEdge设备接入的mqtt调试
【vue设计与实现】双端Diff算法 1-双端比较的原理和优势
Dubbo后台管理和监控中心部署
OCR -- 文本检测
hdlbits系列verilog解答(4输入门操作)-15
有关MYSQL的22年最新部分面试题汇总
基于springboot的地质灾害应急管理系统
阿里云ECS部署Java项目使用docker安装MySQL
Python+requests+pytest+excel+allure 接口自动化测试实战
原文地址:https://blog.csdn.net/hanmo22357/article/details/134564785
最新文章
攻防演习之三天拿下官网站群
数据安全治理学习——前期安全规划和安全管理体系建设
企业安全 | 企业内一次钓鱼演练准备过程
内网渗透测试 | Kerberos协议及其部分攻击手法
0day的产生 | 不懂代码的"代码审计"
安装scrcpy-client模块av模块异常,环境问题解决方案
leetcode hot100【LeetCode 279. 完全平方数】java实现
OpenWrt下安装Mosquitto
AnatoMask论文汇总
【AI日记】24.11.01 LangChain、openai api和github copilot
热门文章
十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
奉劝各位学弟学妹们,该打造你的技术影响力了!
五年了,我在 CSDN 的两个一百万。
Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
面试官都震惊,你这网络基础可以啊!
你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
心情不好的时候,用 Python 画棵樱花树送给自己吧
通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
13 万字 C 语言从入门到精通保姆级教程2021 年版
10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系
2656653265@qq.com
京ICP备2022015340号-1
正则表达式工具
cron表达式工具
密码生成工具
京公网安备 11010502049817号