• Talk|北京大学PKU-DAIR余昭辰:从多模态理解到生成 - 从LLM到Diffusion Model


    本期为TechBeat人工智能社区第603期线上Talk。

    北京时间6月26日(周三)20:00,北京大学PKU-DAIR实习生—余昭辰的Talk已经准时在TechBeat人工智能社区开播!

    他与大家分享的主题是: “从多模态理解到生成 - 从LLM到Diffusion Model”,在本次Talk中,他向大家介绍了PKU-DAIR课题组在大语言模型和扩散模型两个领域上的最新研究成果,并提出将LLM和Diffusion Model进行结合的新思路。

    Talk·信息

    主题: 从多模态理解到生成 - 从LLM到Diffusion Model

    嘉宾:北京大学PKU-DAIR实习生 余昭辰

    时间:北京时间 6月26日(周三)20:00

    地点:TechBeat人工智能社区

    点击下方链接,即可观看视频!

    TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。icon-default.png?t=N7T8https://www.techbeat.net/talk-info?id=882

    Talk·介绍

    大语言模型(Large Language Models, LLMs)与扩散模型(Diffusion Models)都是生成模型,可以根据输入条件生成新的数据样本。大语言模型主要生成文本,扩散模型生成图像或其他形式的数据。两者都是当前人工智能研究的热点领域,LLM/MLLM更侧重于多模态数据的理解与推理,而Diffusion Model更侧重于生成多模态数据,建模其分布。本次talk将介绍本课题组在两个领域上的最新研究成果,并提出将LLM和Diffusion Model进行结合的新思路。

    Talk大纲

    1. 增强大语言模型推理的思维缓存方法——Buffer of Thought

    2. 将扩散模型用于不同数据建模生成:

    (1)文生视频——ContextDiff;

    (2)文生3D——IPDreamer;

    (3)3D小分子药物设计——IRDiff

    3. 将LLM与Diffusion Model进行结合,用于复杂多模态数据生成:

    (1)组合式/长文本文生图——RPG;

    (2)组合式/复杂文生视频——VideoTetris;

    (3)拥有世界知识的图形编辑器——EditWorld

    Talk·预习资料

    图片

    论文链接:

    https://arxiv.org/abs/2406.04271

    项目名称:

    Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

    项目链接:

    https://github.com/YangLing0818/buffer-of-thought-llm

    图片

    论文链接:

    https://openreview.net/forum?id=nFMS6wF2xq

    项目名称:

    Cross-Modal Contextualized Diffusion Models for Text-Guided Visual Generation and Editing - ICLR 2024

    项目链接:

    https://github.com/YangLing0818/ContextDiff

    图片

    论文链接:

    https://arxiv.org/2310.05375

    项目名称:

    IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts

    项目链接:

    https://github.com/YangLing0818/IPDreamer

    图片

    论文链接:

    https://openreview.net/forum?id=eejhD9FCP3

    项目名称:

    Interaction-based Retrieval-augmented Diffusion Models for Protein-specific 3D Molecule Generation (ICML 2024)

    项目链接:

    https://github.com/YangLing0818/IRDiff

    图片

    论文链接:

    https://arxiv.org/2401.11708

    项目名称:

    Mastering Text-to-Image Diffusion: Recaptioning, Planning, and Generating with Multimodal LLMs - ICML 2024

    项目链接:

    https://github.com/YangLing0818/RPG-DiffusionMaster

    图片

    论文链接:

    https://arxiv.org/2406.04277

    项目名称:

    VideoTetris: Towards Compositional Text-To-Video Generation

    项目链接:

    https://github.com/YangLing0818/VideoTetris

    图片

    论文链接:

    https://arxiv.org/2405.14785

    项目名称:

    EditWorld: Simulating World Dynamics for Instruction-Following Image Editing

    项目链接:

    https://github.com/YangLing0818/EditWorld

    Talk·提问交流

    在Talk界面下的【交流区】参与互动!留下你的打call🤟和问题🙋,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

    你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

    Talk·嘉宾介绍

     

    余昭辰

    北京大学PKU-DAIR · 实习生

    余昭辰,北京大学数据与智能实验室(PKU-DAIR)本科实习生,研究方向为扩散模型与大模型,已在ICLR、ICML等顶会上一作发表两篇论文,担任NeurIPS等顶会审稿人。

    个人主页: 

    https://www.techbeat.net/grzytrkj?id=38118


    关于TechBeat人工智能社区

    TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

    我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

    期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

    更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区

  • 相关阅读:
    22-06-28 西安 redis(02) 持久化机制、入门使用、事务控制、主从复制机制
    记一次 Sedona(GeoSpark) 空间计算优化
    FreeMarker生成pdf上传atm
    使用并查集处理树的路径
    rpm(基本命令、Makefile、建立rpmbuild编包)
    Android存储:轻松掌握MMKV
    jupyter notebook使用相对路径的方法
    计算机毕业设计Java无人智慧药柜系统设计(源码+系统+mysql数据库+Lw文档)
    一文了解Go语言的I/O接口设计
    0基础学习VR全景平台篇 第104篇:720全景后期软件安装
  • 原文地址:https://blog.csdn.net/hanseywho/article/details/139973361