码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • 大模型时代下做科研的四个思路


    1 Efficient高效

    2 Pretraining

    3 plug and play 插即用模块

    4 Dataset,evaluation,summary 数据集,评测,综述文章

    整理自 B站Bryanyzhu老师,原视频链接如下

    大模型时代下做科研的四个思路【论文精读·52】_哔哩哔哩_bilibili

    2023年初Facebook开源了自己的大语言模型LLaMA,为了让模型更加亲民

    LLaMA的参数量有四个等级,分别是70亿(7 Billion)、130亿(13 Billion)、330亿(33 Billion)、650亿(65 Billion)这四个等级

    比较好玩的是Facebook命名模型的时候是大语言模型,但是在他的发布博文里,他通篇都”谦逊“称呼小模型 Smaller Model

    不过这个确实是看和谁比了,如果和GPT3 1750亿 (175Billion)比,或者Google的PaLM的5400亿 (540BIllion)比,还是小了一个数量级

    但是比我们日常中用的很多模型都大多了

    至于CV领域,在2月10号,Google放出了更大的模型VIT 参数量22B (220亿参数)可以说在视觉领域也有了非常大的模型了

    bryanyzhu 老师给出了自己的四点建议

    1 Efficient高效

    把原来做不了或者做的很慢的工作,通过模型上的改进,使得用少量的计算资源就可以完成!

    作者举了自己的一篇工作

    之前视频理解的工作需要微调时间空间网络,参数量很大,耗时很长

    而他们仿照自然语言处理那边的工作在不同位置添加了adapter层(可学习参数),主干网络参数冻住进行微调

    效果非常好,而且由于添加的层参数量很少,内存占用和所用时间也很少

    还有前几天怎么把attention做出Efficient attention

    2 Pretraining

    当没有足够多的资源的时候,尽量不去碰pre_trainning

    尽量选择一些topic比较新的

    这些方向数据集比较小,backbone也比较小

    3 plug and play 插即用模块

    模型上的一些模块

    或者一些新的loss损失函数之类的

    或者是一个数据增强的方法

    4 Dataset,evaluation,summary 数据集,评测,综述文章

    评测,综述文章的话对于卡的占用就比较少了

    而且可以加深我们对于一个领域的理解

    在刚开始一个领域的时候,写写综述的帮助是非常大的

  • 相关阅读:
    html常用的标签
    Java计算机毕业设计大学生家教管理系统源码+系统+数据库+lw文档
    基于核心素养劳动教育与学科教学融合研究结题报告
    netty 拆包/粘包
    JVM虚拟机(1)- 内存结构
    PicGo+Gitee+Typora搭建云图床
    【Kotlin学习】Kotlin的类型系统——基本数据类型和其他基本类型、集合与数组
    【数据结构】顺序表---C语言版(数据结构开篇小菜,全网最详细!小白看一遍就学会!!!)
    小A对我说,他现在快想钱想疯了…
    C++ 之多态总结
  • 原文地址:https://blog.csdn.net/Q52099999/article/details/133612056
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号