51-43 DragNUWA，集成文本、图像和轨迹实现视频生成细粒度控制 - 码农知识堂

51-43 DragNUWA，集成文本、图像和轨迹实现视频生成细粒度控制
微软 NÜWA 系列主要功能及发布时间如下：
- 22年11月，微软亚洲研究院、北京大学联合提出同时覆盖语言、图像和视频的统一多模态生成模型女娲NÜWA，直接包揽草图转图像、图像补全、视频预测、文字指导修改视频等8项SOTA。
- 23年3月，微软亚洲研究院发布多模态新模型NUWA-XL，可直接生成11分钟长动画。
- 23年8月，微软亚洲研究院联合北大、中科院提出了一种基于开放域的新型视频生成模型DragNUWA。
生成视频时，主要关注两种运动，即摄像机和对象运动。DragNUWA同时引入simultaneously introduce文本、图像和轨迹信息三种控制因素，使得模型能够同时控制摄像机运动camera movements、多个对象移动object motions以及复杂轨迹complex trajectories，从语义、空间和时间层面对视频内容实现细粒度控制，从而生成具有真实世界场景和艺术绘画特色的视频。

您只要在图上Drag给出运动轨迹，DragNUWA就能让图像中的物体对象按照该轨迹移动位置生成一致连贯的视频！！！
相关阅读:
用HTML+CSS做一个漂亮简单的个人网页——樱木花道篮球3个页面学生个人网页设计作品学生个人网页模板简单个人主页
 Nacos基本学习
 C语言-自定义类型结构体详细讲解
 EXPLAIN概述与字段剖析
 R--基础知识总结
 Himall商城字符串帮助类移除前导/后导字符串
 汽车线束行业调研：预计2028年将达到615亿美元
 linux 误删nginx.conf文件恢复
 Java面试、面经丨从试题到面试讲个遍
 Maven学习笔记汇总--附笔记、代码
原文地址：https://blog.csdn.net/weixin_45035094/article/details/137891420