码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks论文笔记


    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks
    Code

    1. Motivation

    • CLIP这一类方法只能进行图片级别的视觉和文本对齐;
    • 也有一些方法利用预训练的目标检测器进行目标级别的视觉和文本对齐,但是只能编码目标内部的特征,无法有效表达多目标上下文关联;
    • 本文致力于进行多粒度(objects, regions, and images)的视觉文本对齐预训练任务;

    2. 模型结构

    在这里插入图片描述

    3. 损失函数

    3.1 contrastive loss

    1. 文本特征和视觉特征之间的相似性定义:

    在这里插入图片描述
    3. vision-to-text similarity

    在这里插入图片描述
    4. text-to-vision similarity
    在这里插入图片描述
    5. GT:one-hot
    在这里插入图片描述
    6. cross-entropy loss

    在这里插入图片描述

    3.2 matching loss

    1. For each visual concept in a mini-batch, we sample an in-batch hard negative text by following p v 2 t ( V ) p^{v2t}(V) pv2t(V). (与当前视觉特征越接近的文本越可能被采样)
    2. We also sample one hard negative visual concept for each text.
    3. put the pairs as inputs for the fusion module, and then we use xcls, the output [CLS] embedding of the fusion module, to predict the matching probability p m a t c h p^{match} pmatch , and the loss is:
      在这里插入图片描述

    3.3 masked language modeling loss (MLM)

    在这里插入图片描述

    3.4 bbox loss

    在这里插入图片描述

  • 相关阅读:
    洛谷 P8762 [蓝桥杯 2021 国 ABC] 123
    分类预测|基于黑翅鸢优化最小二乘支持向量机分类预测Matlab程序BKA-LSSVM 多特征输入多类别输出 含基础LSSVM
    MCU通过KT6368A用SPP透传发送1K左右的数据,手机APP显示是3个包或者4个包,但是我看手册说最大一个包是512,理论应该是两个包吧,请问这正常吗?
    latex-minted高亮代码配置
    Access数据库操作踩坑记:数据溢出,设置1字段为Null是因为类型转换失败
    解决caffe中的python环境安装的问题(补充)
    【打卡】【sysfs相关API详解】21天学习挑战赛—RK3399平台开发入门到精通-Day21
    架构:C4 Model
    怎么让NetCore接口支持Json参数
    windows系统部署minio,以及添加到系统服务器
  • 原文地址:https://blog.csdn.net/xijuezhu8128/article/details/132809885
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号