• CVPR'22 | 基于像素差异学习的视频高光检测算法及在视频广告中的应用


    丨目录:

       · 背景

       · 相关工作

       · 主要成果

       · 方法设计

       · 实验效果

       · 电商数据集建设

       · 算法应用

       · 总结与展望

       · 关于我们

    本文分享阿里妈妈创意&视频平台团队在视频制作方向上关于视频高光检测技术的探索与实践,在多个核心广告场景中取得线上收益。基于该项工作总结的论文已被 CVPR 2022 录用,欢迎阅读交流~

    论文:Learning Pixel-Level Distinctions for Video Highlight Detection

    下载:https://arxiv.org/abs/2204.04615

    背景

    淘内主要的商业化流量集中在搜索、推荐等信息流场景,基于性能、效率等各方面原因,以上场景对视频素材有特殊的要求:时间短(3秒~10秒) + 静音播放。在这样的限制下,对视频素材的视觉内容要求很高,需要集中高效地传递信息,以迅速抓住用户的眼球,留住用户并促成点击。否则由于用户滑动浏览的成本低速度快,如果不能在较短的时间内播放最可能吸引用户的精彩内容,那么这次曝光就无法产生收益。

    在我们能够获取的商品各类素材中,本身就存在质量相对可靠的视频来源,即商品主图视频(也叫详情页视频、头图视频)。商品主图视频由广告主拍摄上传得到,覆盖了近一半的淘宝商品,数量和质量都有一定保障。商品主图视频的内容比较符合主流的内容化视频风格,对商品的描述也很全面,但是由于视频信息比较分散,不能在短时间内集中展现吸引用户眼球的主要内容,并不适合直接投放在淘内主要的搜索、推荐等信息流场景。为了解决这个问题,我们需要把主图视频的高光时刻自动选取出来,用于信息流场景的广告投放。

    相关工作

    将长视频中最吸引人的高光时刻自动化提取的视频高光检测(Video Highlight Detection,以下简称VHD),在CV领域一直是一个被广泛关注的经典问题。学术界对VHD技术的探索主要集中在通用场景的内容视频中,公开的数据集包括YouTube Highlight Dataset、TVSum、CoSum、SumMe等,主流方法主要分为监督方法和弱监督方法。

    监督方法主要依赖于标注数据,需要人工选取原视频的highlight部分作为训练标签,典型代表为Video2GIF、LSVM等。已有的人工标注数据集主要以表演秀或者运动视频为主,这些视频的主旨非常明确,精彩部分所具有的特点比较容易达成共识,比如在马戏团表演视频中的精彩部分一定是关于动物的表演片段。因此对于标注人员而言,能够比较准确的选取出其中的精彩片段。算法模型也能利用视频表征进行VHD任务的学习。

    弱监督方法往往不依赖明确的标注,而是通过利用精彩视频的某方面特定先验知识,通过额外的约束去训练算法模型。比如LIM方法利用短视频(时长<15s)往往比长视频(时长>60s)更加精彩的先验,同时为ranking loss加入latent weight去约束噪声数据,在Instagram的视频数据集上训练得到比较可靠的评价模型。

    不难发现,以上主流方法都是基于对视频片段内容的比较和差异化学习,通过分类或者排序问题来优化高光检测效果。因为主流数据集主要是关于运动、表演等内容化视频,所以基于视频片段内容的方法目前基本达到了一个高水位效果。那么当前高光检测效果提升的瓶颈在哪里呢?我们分析发现,正是因为主流方法仅依赖于对视频片段内容的理解进行高光检测任务。这样的内容理解粒度太粗糙,也不符合我们观看视频时情绪的发展过程。由此,我们提出了新的视频高光检测方法PLD-VHD。

    主要成果

    首先,我们认为观看者在看视频时,当前时刻的视频内容是否精彩很大程度是由前序内容的铺垫决定的。这样的对比是有很强的时序先后关系。然而目前主流方法大多是基于两个视频片段组成的视频数据对来比较排序,完全丢掉了视频内容在时序上的先后关系。由此,在判断当前内容吸引力的时候,它的前序内容发挥着重要的辅助作用。

    然后,某个片段精不精彩是一个比较主观的问题,主观问题往往是由很多维度的信息综合后,判断得到一个绝大多数人都认可的结果。如果仅仅依靠视频内容来判断精彩与否这个主观问题,实际上会丢失掉很多有用的辅助信息,其中就包括人的注意力信息。某个人在观看视频的过程中,他的注意力变化是对内容吸引力的较强反馈之一。如果当前内容吸引他,他的注意力会集中在吸引他的区域,且这一段时间内该区域的内容往往具有一致性。如果当前片段缺乏吸引力,他的注意力会比较分散,不具备参考意义。因此,我们需要对眼动信号和高光内容之间的关系进行建模。

    综上,我们提出了新的视频高光检测方法PLD-VHD。主要贡献如下:

    • 在VHD任务中,提出了一种新的像素差异学习任务,来获取更加细粒度的视频上下文表征。

    • 设计了用于VHD任务的Encoder-Decoder的网络以学习像素差异,通过3D CNN和视频显著性检测完成时空上下文关系的建模。

    • 整个方法可解释性强,在主流公开数据集上效果SOTA。

    方法设计

    我们认为在观看者观看视频的过程中,他的眼动信号是对内容的一个较强反馈。如果当前内容吸引他,他的注意力会集中在吸引他的区域,且这一段时间内该区域的内容往往具有一致性。如果当前片段缺乏吸引力,他的注意力会比较分散,不具备参考意义。基于以上假设,我们尝试对眼动信号和高光内容之间的关系建模。在计算机视觉任务中,主体检测任务是眼动信号的直接建模任务。于是,我们通过引入视频主体检测任务作为辅助,融合时间序列内的帧信息,学习当前帧的像素之间的差异,从更加细粒度的视角反应当前内容的吸引力。

    aabdcfd8d96d1a469d54705d82db0e88.png
    PLD-VHD方法

    在PLD-VHD中,我们采用Encoder-Decoder的网络结构。为了能够精细地利用时序信息,我们将视频的使用粒度从片段级别细化到帧级别。Encoder网络就是提取输入帧特征的3D卷积网络。为了让当前帧的特征表征获得更好的前序内容辅助,我们设定视频帧序列窗口大小为32,训练和预测时把当前帧及其前31帧一起输入模型,通过Learning temporal module融合时间窗口内的帧序列特征,作为当前帧的融合特征。

    同时,为了能够利用前文中提到的眼动信号辅助高光检测,我们引入了视频显著性检测任务作为辅助任务,将帧级别进一步细化到像素级别。其中,Auxiliary spatial module主要通过视频显著性检测生成highlight score map的伪标签(saliency map)。当前帧的融合特征经过Decoder网络之后,得到了与输入帧尺寸相同的predict highlight map,表示各个像素的highlight score。如果当前帧属于highlight frame,将saliency map的主体区域的值置为1,其他区域置为0。如果当前视频帧不属于highlight frame,则将saliency map全部置为0。经过重置之后的saliency map作为ground truth,与Decoder网络输出的predict highlight map计算损失,监督模型学习。

    实验效果

    我们分别在YouTube Highlight Dataset、TVSum、CoSum等三个主流数据集上和主流方法进行了实验对比。相对于基于片段级别的主流方法和前面讲到的基于帧级别的高光检测方法,PLD-VHD不仅能够反应当前帧的每个像素在时间和空间上的关系,而且能够清楚地展现吸引力强的内容区域位置。该方法在VHD的公开数据集上的指标均达到SOTA。

    数据结果如下

    08595286b2c3c2e7133a80aec3e94fa1.png
    YouTube Highlight Dataset 效果
    01f99ea5879fee8e324a2731ca62abda.png
    TVSum 效果
    12bd7917e83ce5fb9e7b35dc19db2a94.png
    CoSum 效果
    25b1aa544c2718b6c6b0a85a15215630.png
    可视化结果
    e812bb2c6c67cb2f8fe0f1b7574a84fa.png
    消融实验效果

    电商数据集建设

    为了优化电商场景的视频高光检测,我们分行业构建了商品视频标注数据集。由于商品视频片段吸引力的评价本身存在一定的主观性,所以我们难以制定一套可靠的择优规则去指导标注人员。参考其他公开数据集的标注方法,我们对整个标注任务做了如下设计:

    数据过滤:送标的原始数据涵盖32个一级类目,分别划分为自定义的17个行业,且每个原始视频长度均在15~60秒之间

    人员要求:多位标注人员各有差异,男女比例1:1,年龄涵盖20~50岁,教育背景涵盖大专、大学及其以上),日常生活兴趣爱好广泛,经常使用购物软件(淘宝、京东、拼多多等)和短视频产品的经历(抖音,快手,火山等)

    标注要求

    • 同一个视频需要所有标注人员进行独立标注

    • 在原始视频不为PPT视频的情况下,选出视频中最吸引标注人的片段,选中片段的所有帧记为1分,其余为0分

    • 每个精彩片段标注时长必须控制在2秒至10秒之内

    • 每个标注的精彩视频片段必须为一段完整的场景,即不能有转场切换,否则以转场位置为参考,断开为多个片段

    后期处理:累加视频帧在所有标注人员中的得分并归一化,记为视频帧最终得分,该得分既可以直接作为回归目标分数,也可以通过合理阈值进行离散化为 0/1 二元label

    通过以上标注方式,我们构建了一个电商场景的Video Highlight Detection数据集。该数据集总共4724个视频,平均每个一级类目147个视频,和VHD相关的公开数据集基本一致。

    算法应用

    利用上述数据集完成算法模型优化之后,我们将算法应用至视频创意业务中。在广告创意制作中,由于不同的广告展现位置对视频的尺寸要求不同,我们在关注高光内容片段选取的同时,还需要关注视频尺寸的自动裁剪。PLD-VHD算法在设计上天然满足了这样的双重需求。算法输出结果不仅有高光时刻以支持时间维度截取,同时输出了像素级的高光得分highlight map,所以可以直接根据highlight map为中心进行空间尺寸裁剪,一步到位地实现了时间剪辑和尺寸裁剪。最终,我们将PLD-VHD算法应用于商品详情页视频剪辑、直播视频剪辑等多个视频剪辑任务,赋能了阿里妈妈搜索广告、展示广告、内容广告等核心广告业务,相比于图片创意取得了不错的投放效果提升。

    阿里妈妈搜索广告

    阿里妈妈展示广告

    总结与展望

    本文分享的PLD-VHD方法简单巧妙提升了视频高光检测效果,提高了视频剪辑结果质量,取得了不错的线上效果。未来我们将继续探索个性化的视频高光检测算法,持续提升视频剪辑在广告场景中的应用效果。

    关于我们

    我们是阿里妈妈创意&视频平台,专注于图片、视频、文案等各种形式创意的智能制作与投放,以及短视频多渠道投放,产品覆盖阿里妈妈内外多条业务线,欢迎各业务方关注与业务合作。同时,真诚欢迎具备CV、NLP和推荐系统相关背景同学加入!

    简历投递邮箱:alimama_tech@service.alibaba.com

    END

    5b1640c11926a3d2cbd2376cd98515a3.gif

    也许你还想看

    如何快速选对创意 —— 阿里妈妈广告创意优选

    告别拼接模板 —— 阿里妈妈动态描述广告创意

    CVPR 2021 | 如何让GAN的训练更加高效优雅

    关注「阿里妈妈技术」了解更多~

    addca382d09e337a6a53631f30cbe2a4.png

    edbb6ea48d3036a3a774af50b0bed8f2.gif

    喜欢要“分享”,好看要“点赞”哦ღ~

    ↓欢迎留言参与讨论↓

  • 相关阅读:
    爬虫项目(四):批量下载高清美女桌面壁纸
    企业电子招投标采购系统源码之电子招投标的组成
    工业智能网关BL110应用之三十五: 如何连接配置金鸽MQTT云服务器
    Nginx中实现自签名SSL证书生成与配置
    详解 Spark 编程之 RDD 依赖关系
    DeepCTR:易用可扩展的深度学习点击率预测算法包
    Stimulsoft Reports.PHP 2022.4.3 Crack
    NextJs 数据篇 - 数据获取 | 缓存 | Server Actions
    Spring从入门到精通--(完结篇)Spring中事务管理
    GPT4应用讲解,如何获取ChatGPT账号
  • 原文地址:https://blog.csdn.net/alimama_Tech/article/details/125419451