BEIT-3杂谈

paper: BEIT-3

看到这篇的人应该都知道这篇文章的多任务SOTA结果了，我就不放那张披萨图了。
在这里插入图片描述
论文中没有给具体的预训练方法图，大概就参考上面这张Beit的图吧，Beit-3就是变成了多模态输入。跟MAE很像，主要区别在他不是还原像素、text，而是还原embedding or token。

至于token是怎么来的，还得再看两篇文章，等我后面再补。

说一下我的看法吧。
这篇工作的主要的特点：

只用了MLM一种预训练方法，且还原token并不还原原图/原text。
使用Multiway Transformer，给不同模态单独encode的空间
数据集并不很大（相比CLIP之类），Batch Size并不很大（相比CLIP），整体网络结构很大（参数量多）
Note: 1.9Billion参数量实际并不算很大，相对SwinT的3billion

最主要的问题，凭什么超越CLIP？
猜想：
（1）数据噪声小
因为MLM方法不一定需要图像-文本对，所以可以利用现有的标注较好的公开数据集，而CLIP的数据由网络采集，难免很多噪声。
（2）token重建或许比原始data重建更好？更少噪声？

相关阅读:
FPGA的256点FFT调用Quartus IP核实现VHDL傅里叶变换
react路由基础理解
Prompt learning 教学[技巧篇]：通过增加示例、引导词、特殊符号指令等方式让chatgpt输出更好的答案
电容器选型指南-电子元器件选型指导系列
Codeforces-1696 C: Fishingprince Plays With Array
Python函数每日一讲4 - 一文让你彻底明白hasattr函数的使用
去 BAT 面试完的 Mysql 面试题总结（55 道，带完整答案）
【洛谷题解】P2670 [NOIP2015 普及组] 扫雷游戏
【数据结构】排序（1）插入排序、选择排序
淘宝店铺订单解密接口/淘宝店铺订单插旗接口/淘宝店铺订单交易接口/淘宝店铺商品上传接口/淘宝店铺订单明文接口/代码对接分享

原文地址：https://blog.csdn.net/lt1103725556/article/details/126607497