• 论文总结:3D Talking Face With Personalized Pose Dynamics


    论文解决的问题:大多数现有的3D人脸生成方法只能生成静态头部姿势的3D面部,只有少数几篇文章关注头部姿势的生成,但这些文章也忽略了个体属性。
    解决方法:框架由两个独立模块组成:PoseGAN和PGFace。给定输入音频,PoseGAN首先为3D头部生成一个头部姿势序列,然后PGFace利用音频和姿势信息生成自然的面部模型。通过结合这两个部分,可以构建一个具有动态头部运动的3D说话头部。
    在这里插入图片描述
    Gpose表示3D头部姿势序列的生成器,Dpose是鉴别器。人脸形状参数由PGFace生成。

    在生成阶段,首先使用深度语音对输入音频进行编码,然后将提取的特征馈送到两个之前提出的模块中:头部姿势生成对抗网络(PoseGAN)模块和姿势引导面部(PGFace)生成模块。如上图所示,PoseGAN模块用于提取具有旋转和平移参数的跨模态头部姿势序列。PGFace模块使用头部姿势参数来生成与音频相对应的面部形状参数。通过结合音频、头部姿势序列和面部形状参数,可以合成具有动态姿势的最终3D说话脸。

    数据集:如果简单地应用OpenFace在原始视频中检测到的头部姿势序列,可能会在一些高频区域引起不稳定的效果,使头部运动看起来不令人满意。因此,我们提出了一种高斯滤波方法,通过在时间维度上对头部姿势参数进行滤波,以产生令人满意的结果。
    在这里插入图片描述

    蓝色曲线表示原始音高参数。橙色曲线表示平滑的音高参数。

    Head Pose Sequence Generation Network:
    在这里插入图片描述
    在U-net 之前设计了一个增强型CNN编码器,用于构建生成器G,并将初始头部姿势p嵌入输入层和U-net输出层,以约束生成的头部姿势序列的初始位置和方向。在训练阶段,采用第一帧的姿势作为头部姿势序列中的初始姿势p。在推理阶段,采用相同身份的其余姿势作为 p 来生成第一个头部姿势序列。对于后续的头部姿势序列生成,采用前一个序列的最后姿势作为初始姿势p。CNN结构被应用于区分真实和虚假的头部姿势序列,这里采用生成的头部姿势序列 G(x, p) 结合音频 x 作为输入。

    4.2 姿势引导人脸生成网络
    我们提出了一种姿势引导的人脸形状生成方法(PGFace),该方法包括头部姿势参数作为输入,用于估计人脸形状的变化以弥补差异。我们将音频特征 x∈R_29*16 和头部姿势参数 p∈R_6 拼接在一起,作为每帧的输入送入网络。网络的输出是相应的面部形状参数aid,aexp。

  • 相关阅读:
    FSC认证助您进入日新月异的时尚领域
    Ros2 学习02- ubuntu22.04 安装ros2
    2023.11.15 关于 Spring Boot 配置文件
    Monaco Editor教程(七): 实现版本对比功能
    电感的两种模式——DCM和CCM的区别
    查看使用Android API接口创建的AppLinking链接的分析数据
    docker容器资源限制:限制容器对内存/CPU的访问
    2023年考PMP证书有什么意义?一定要清楚!
    记忆法——第一节 记忆的本质
    Redis之Redis集群、持久化到mysql、与mysql数据同步
  • 原文地址:https://blog.csdn.net/m0_46312382/article/details/133634490