欢迎关注我的公众号 [极智视界],获取我的更多笔记分享
大家好,我是极智视界,本文解读一下 性能数据炸裂的多模态模型 BEiT-3:Image as a Forign Language。
介绍一个在 视觉 和 视觉-语言任务上具有 state-of-the-art 迁移能力的多模态模型 BEiT-3,BEiT-3 主要从三个方面来促进大融合:(1) backbone architecture;(2) pretraining task;(3) model scaling up。在 BEiT-3 中有意思的是把图片 images 都用语言的形式 “Imglish” 来表示,配合文本 texts “English” 和 图片-文本对 “parallel sentences” 。BEiT-3 在多种任务如视觉任务(目标检测、图像分割、图像分类问题)、多模态任务(图像理解、图像问答等任务) 中都有优秀的表现,迫不及待上图了:

