天下 > 天下 > 正文

媲美Sora的视频大模型，“95后”清华博士研发！

2024-07-17 10:06:42 来源：清华大学编辑：覃贻花

不需要复杂的指令

仅仅输入一段文字描述

严丝合缝的代码便会为你构建起

一帧帧栩栩如生的影像

2024年4月

媲美Sora的首个国产自研

视频生成大模型Vidu

出现在大众视野

支持一键生成

16秒、1080P的视频

带领团队完成这项工作的

是清华大学计算机系博士生鲍凡

毕业后他即将担任

AI创业公司的首席技术官

在追求极致的过程中

持续探寻技术最本质的乐趣

零基础跨专业

结缘人工智能

2014年

鲍凡被清华大学

生命科学学院录取

在开展诸多生物实验的同时

他也开始自学计算机编程

鲍凡（左一）和同学讨论问题

学习的过程中

鲍凡逐渐发现

偏理论的计算机学习

对自己有着更大的吸引力

“可能这是一个很复杂的系统

但是一旦深入其中，你会发现

这里面本质的东西非常简洁优雅”

无论是数学公式推导

把公式变成可执行的代码

还是收集、训练数据

在鲍凡看来

每一个环节都充满着魅力

如何通过自学掌握跨学科知识？

鲍凡有着自己的一套方法

“将不同的知识整理到

我自己定义的语言体系中

没有直接复制粘贴

所有的定理

都被我一个个证明过”

鲍凡记录的部分笔记

数百页的笔记

见证着少年的勤奋与努力

靠着这种学习方式

鲍凡在大一到大二期间

掌握了丰富的计算机知识

顺利通过转专业的考核

进入计算机系

清华十年

开展纯粹的科研

“我觉得清华实验室的

学术科研氛围很浓厚

所以决定继续留在学校

纯粹地去做科研”

本科毕业时

鲍凡凭借出色的成绩获得了

免试攻读博士学位研究生的机会

鲍凡（中）与导师张钹院士（右）、朱军教授

读博期间

他师从张钹院士、朱军教授

先后在ICML、NeurIPS、ICLR、CVPR等

计算机领域顶级会议

以第一作者的身份

发表8篇高水平论文

其中有关扩散概率模型的论文

获得机器学习领域顶级会议

ICLR 2022杰出论文奖

成为该会议首篇

由中国大陆单位独立完成的获奖论文

鲍凡获得ICLR2022杰出论文奖

该成果被人工智能公司OpenAI

作为核心技术应用于

超大规模跨模态生成模型DALL·E 2

产生了广泛的影响力

回忆起十年求学生涯

鲍凡感慨

“清华园的每个人

都全力以赴地投身于工作

我也逐渐融入到了

这个务实进取的群体中

变得更加稳重和踏实”

从论文到产品

首个国产视频大模型诞生

“很多时候人跨境界的提升

都需要有一次把自己逼到极限的过程”

导师朱军教授的这句话

给鲍凡留下了深刻的印象

在科研攻关的过程中

他也曾“无数次被逼到极限”

Vidu是鲍凡和团队成员采用

原创架构U-ViT研发出的

中国首个长时长、高一致性、高动态性

视频生成大模型

与OpenAI发布的

以DiT为底层架构的大模型Sora

有着一致的架构路线

与网络上将Vidu视为

国外视频大模型Sora的追赶者不同

有业内人士认为

“Vidu并不属于追逐 Sora 的一员

而是一早就踏在了同一起跑线

甚至是更早”

事实上，2022年9月

鲍凡就率先提出了全球首个

扩散模型与Transformer模型的融合架构U-ViT

成果发表在了计算机视觉顶级会议上

早于Sora采用的DiT架构的提出时间

——2022年12月

然而在产品上

OpenAI却领先一步

2024年2月Sora问世

鲍凡意识到

U-ViT也有着广阔的应用前景

他非常果断地做出决策

“要做中国自己的视频大模型！”

制定整体的计划与分工

设计出算法和模型的框架

在攻关期间深入到每一个细节里

不分昼夜抓进度，加班加点赶工程

两个月后

鲍凡带领团队完成的

文本生成视频大模型Vidu

出现在大众视野

由Vidu生成的画面

汽车穿过林间小路

玩具船在起伏的地毯上航行

湖边，熊猫正弹奏吉他

带着珍珠项链的橘猫回眸

……

支持一键生成

16秒、1080P视频的Vidu

性能全面对标国际顶尖水平

不仅可以复刻现实世界

还能生成想象中的虚构画面

《新闻联播》报道Vidu

发布后获得央视《新闻联播》

《东方时空》《新闻30分》

等多个栏目的报道

在海外社交平台也拥有百万讨论量

包括TechTimes（《科技时报》）在内的

多家媒体都对其进行了介绍

如今的Vidu

还未停止迭代升级的脚步

理解用户更为复杂的需求

生成更加令人满意的视频

鲍凡将和团队成员一起

探寻视频大模型的更多可能

边学术边创业

毕业后成为首席技术官

在清华大学

浓厚的创新创业氛围影响下

读博期间

鲍凡踏上了创业之路

他的创业契机很纯粹

“就是希望能够做出伟大的模型”

“开始我也有考虑过走学术路线

但是回归到自己的目标

我希望掌握透大模型里面的每一个细节

以这个目标来看的话

确实只有创业才有这种机会”

鲍凡（右一）与朱军教授讨论问题

毕业之后

鲍凡将在生数科技担任首席技术官

带领着团队继续开展

视频生成模型的研发工作

希望能在现有基础上

让大模型变得更加通用可控

关于未来

鲍凡认为Vidu能做的

不仅仅是生成视频

在虚拟世界复刻物理规律

应用于各种各样的学科中

“为世界建模”

是团队的终极目标

鲍凡在大礼堂前

从罗姆楼、大礼堂

到二校门、东升大厦

采访结束已经到了晚上九点

鲍凡又回到了他的工作岗位

还有一些紧迫的任务

在等待着他去完成

代码交织，光影变幻

鲍凡的身影消融在夜色里

从清华起步

助力中国大模型迈向世界舞台

一段崭新的旅程

已经开启

编辑推荐

视觉焦点

排行榜