paper: BEIT-3
看到这篇的人应该都知道这篇文章的多任务SOTA结果了,我就不放那张披萨图了。

论文中没有给具体的预训练方法图,大概就参考上面这张Beit的图吧,Beit-3就是变成了多模态输入。跟MAE很像,主要区别在他不是还原像素、text,而是还原embedding or token。
至于token是怎么来的,还得再看两篇文章,等我后面再补。
说一下我的看法吧。
这篇工作的主要的特点:
最主要的问题,凭什么超越CLIP?
猜想:
(1)数据噪声小
因为MLM方法不一定需要图像-文本对,所以可以利用现有的标注较好的公开数据集,而CLIP的数据由网络采集,难免很多噪声。
(2)token重建或许比原始data重建更好?更少噪声?