FROZEN TRANSFORMERS IN LANGUAGE MODELS ARE EFFECTIVE VISUAL ENCODER LAYERS

本文是LLM系列文章，针对《FROZEN TRANSFORMERS IN LANGUAGE MODELS ARE EFFECTIVE VISUAL ENCODER LAYERS》的翻译。

语言模型中的冻结Transformer是有效的视觉编码器层

摘要
1 引言
2 相关工作
3 方法：用于视觉编码的冷冻LLMTransformer
4 LLMTransformer在视觉任务中的适用性
5 面向可视化任务的LLMTransformer分析
6 信息过滤假设
7 结论

摘要

本文揭示了大型语言模型（LLM），尽管仅根据文本数据进行训练，但在没有语言的情况下，对于纯视觉任务来说，它是令人惊讶的强大编码器。更有趣的是，这可以通过一种简单但以前被忽视的策略来实现——使用来自预训练LLM的冻结transformer块作为组成编码器层来直接处理视觉标记。我们的工作突破了利用LLM进行计算机视觉任务的界限，大大偏离了传统实践，传统实践通常需要多模式视觉语言设置以及相关

相关阅读:
基于php+mysql的菜品食谱美食网
【无标题】
基本地址变换机构
数据库开发总结
P95陷阱
STM32实现霍夫圆检测
Springboot毕设项目购物网站3ztkv（java+VUE+Mybatis+Maven+Mysql）
C语言编译和链接
【AngularJs】前端使用iframe预览pdf文件报错
【Kafka源码分析】二、服务端Server

原文地址：https://blog.csdn.net/c_cpp_csharp/article/details/133940249