
ChatGPT——OpenAI
DALL-E——OpenAI
Sora——OpenAI
Gen-2——Runway(视频生成 4k)
Grok——Twitter(可修改回答,继续交流)
HeyGen——诗云科技(让视频中的人物说出任何语言)
LLaMA——Meta
AI 锐化,丰富细节,加入光影,使AI生成的图像更真实

Midjourney——Midjourney
Moonvalley——Moonvalley.ai(视频生成)

vivo 蓝心,AI 大模型助手
Generative Fill:比如将 PS中的 Generative Fill 和 AR 结合,了解一下~属于是一键加特技了。

Pika-Pika labs AI自动对口型
HoloTile——迪士尼,魔法地板
补充:
视频生成技术发展史
2017 《video generation from text》
1)早期 GAN,细节容易失真,输出结果不稳定
2)后来 Diffusion, 《video diffusion models》模拟物理学的扩散,生成图像的过程更容易控制和优化
3)Make-A-Video 解决数据不足问题,Tune-A-Video,训练文本生成图片的模型,然后用视频 fine-tune 以获得文本生成视频的能力
4)Runway
2023年7月,华为正式发布盘古大模型3.0,并提出3层模型架构。
L0:基础大模型,包括自然语言、视觉、多模态、预测、科学计算;
L1:N个行业大模型,比如政务、金融、制造、矿山、气象等;
L2:更细化场景的模型,提供“开箱即用”的模型服务

3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型

Project Page: http://one-2-3-45.com
Paper: https://arxiv.org/pdf/2306.16928.pdf
Code: https://github.com/One-2-3-45/One-2-3-45
Demo:https://huggingface.co/spaces/One-2-3-45/One-2-3-45


仅靠“口才”就能解决视觉任务!商汤提出Shikra:新一代多模态大模型
《Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic》
https://arxiv.org/pdf/2306.15195.pdf
https://github.com/shikras/shikra
基于 CLIP 做的


会拼图

会分辨谁是镜子中的人


点作为输入也可以


Reffering Expression Generation

Referring Expression Compression


谷歌DeepMind打破十年算法封印,AlphaDev惊世登场,颠覆人类算法格局!
Alpha」家族再添新成员AlphaDev!谷歌大脑DeepMind合体后首发力作,全新AI系统将排序算法提速70%,C++排序库十年来首次更改。AI创造AI的时代要来了?

谷歌 DeepMind 的研究者相信,在这个较低的层级中存在许多可改进的空间,而这些改进在更高级的编程语言中可能很难发现。

AlphaDev:汇编版 AlphaZero

老罗落泪!北大团队搞出ChatExcel,说人话自动处理表格,免费且不限次使用


《Tracking Anything with Decoupled Video Segmentation》(ICCV 2023)
ICCV 2023开源 | 最新跟踪一切!分割一切视频版来了!
一种解耦的视频分割方法DEVA,用于"跟踪一切"。它使用双向时序传播,有效地将图像分割方法扩展到视频数据中。DEVA最大的创新在于对训练数据的需求非常低,而且可以使用现成的图像分割模型直接扩展到其他视频分割任务上,非常的通用。