码农知识堂 - 1000bd
  •   Python
  •   PHP
  •   JS/TS
  •   JAVA
  •   C/C++
  •   C#
  •   GO
  •   Kotlin
  •   Swift
  • TimeSformer:Is Space-Time attention all you need for video understanding?


    【实践】CV领域的Transformer模型TimeSformer实现视频理解 - 飞桨AI Studio本项目选取CV中的transformer模型TimeSformer进行项目开发,在UCF101数据集上训练、验证、评估 - 飞桨AI Studiohttps://aistudio.baidu.com/aistudio/projectdetail/3413254?contributionType=1

    VideoTransformer系列(一):TimeSformer - 知乎TimeSformer: Is Space-Time Attention All You Need for Video Understanding?paper: https://arxiv.org/abs/2102.05095 accept: ICML2021 author: Facebook AI code(offical): https://github.com/facebookresea…https://zhuanlan.zhihu.com/p/449323671timesformer这篇动作识别的文章是基于transformer的,上述的paddle的材料讲的很细,可以直接看材料。以vit作为backbone,提出时空自注意力机制,讨论了空间,时间以及时空组合的注意力机制在视频上的应用。目前的视频识别网络设计上一般是基于2d,3d,transformer以及lstm等。

    1.输入视频片段

     F是抽帧的个数,也就是一段视频被分解为F张图片。

    2.图像块拆分 

    这里是将一个视频中的所有帧全都处理成了patch,其中p表示其在一帧中的位置,t表示帧的索引,通过这两个值就建立了二维的一个体系。

    3.线性嵌入

    每个像素块通过p,t进行索引,这里是transformer输入的常规操作,将patch转成向量,这里的向量z中还需要位置信息,transformer的序列式处理弱化了空间位置关系。这一步是在做patch的embedding化。

    4.qkv计算

    这里是标准的transformer架构,可以看到右侧是encoder模块,timesformer包括了L个encoder,每个z经过LN之后产生了三个维度的qkv,w是学习的。往后是一个多头的自注意力模块,自注意力就是q和每个k计算相似度再和v计算softmax,就是该q的self-attention。

    5.自注意力

    这块是timesformer的核心,核心就在于attention如何计算。

  • 相关阅读:
    跟进 .NET 8 Blazor 之 ReuseTabs 支持 Query 属性绑定
    计算机毕业设计之流浪宠物管理系统
    Go 函数的健壮性、panic异常处理、defer 机制
    代码简洁之道:对象转换神器MapStruct
    java项目中@Data注解详细解析
    web前端期末大作业——仿小米商城电商平台(6页) html+css+javascript网页设计实例 企业网站制作
    【tg】2:视频采集的输入和输出
    负载均衡原理分析与源码解读
    华为机试 - 考古学家
    vue单页面应用使用 history模式路由时刷新页面404的一种可能性
  • 原文地址:https://blog.csdn.net/u012193416/article/details/127979286
  • 最新文章
  • 攻防演习之三天拿下官网站群
    数据安全治理学习——前期安全规划和安全管理体系建设
    企业安全 | 企业内一次钓鱼演练准备过程
    内网渗透测试 | Kerberos协议及其部分攻击手法
    0day的产生 | 不懂代码的"代码审计"
    安装scrcpy-client模块av模块异常,环境问题解决方案
    leetcode hot100【LeetCode 279. 完全平方数】java实现
    OpenWrt下安装Mosquitto
    AnatoMask论文汇总
    【AI日记】24.11.01 LangChain、openai api和github copilot
  • 热门文章
  • 十款代码表白小特效 一个比一个浪漫 赶紧收藏起来吧!!!
    奉劝各位学弟学妹们,该打造你的技术影响力了!
    五年了,我在 CSDN 的两个一百万。
    Java俄罗斯方块,老程序员花了一个周末,连接中学年代!
    面试官都震惊,你这网络基础可以啊!
    你真的会用百度吗?我不信 — 那些不为人知的搜索引擎语法
    心情不好的时候,用 Python 画棵樱花树送给自己吧
    通宵一晚做出来的一款类似CS的第一人称射击游戏Demo!原来做游戏也不是很难,连憨憨学妹都学会了!
    13 万字 C 语言从入门到精通保姆级教程2021 年版
    10行代码集2000张美女图,Python爬虫120例,再上征途
Copyright © 2022 侵权请联系2656653265@qq.com    京ICP备2022015340号-1
正则表达式工具 cron表达式工具 密码生成工具

京公网安备 11010502049817号