中国版Sora来了！清华打造！背后创业公司已融资数亿元

时隔两个(gè)月，清华团队打造了(le)一(yī)个中国版的Sora视频大模型(xíng)。

4月27日，在中关村论坛未来人工智能先锋论坛上，中国(guó)首个长时长、高一致性(xìng)、高动态性视频大模型Vidu正式(shì)发布。这一模型由(yóu)清华大学和大模型创业公司生数科技联合(hé)发布(bù)，可以一键生成长(zhǎng)度达16秒、分(fēn)辨率为1080P的高(gāo)清视(shì)频内(nèi)容。

证券时报记者独家(jiā)获(huò)悉，清华大学人工智能研究院副院长、生数科技首席科学家朱军(jūn)在(zài)Vidu发布(bù)后发声表示：“Vidu，we do, we did, we do together！感谢小伙伴(bàn)们日(rì)以继(jì)夜的坚持，在实验室架(jià)构上开花结果。”据介绍，这也是自(zì)OpenAI发布Sora以后，全球率先取得重大(dà)突破的视频大模型。

Sora发(fā)布后，行业内一直有团队宣称要追赶和复现Sora，而(ér)Vidu团队用两个月的时间率先跑出来。记者梳理发现，生数科技在多模(mó)态大模型领域已经有(yǒu)较深的积累，也是目前多模(mó)态大模型(xíng)赛道估值最高的初创公司之一。目前(qián)公司已完成三轮融资，融资额达数亿元人民币，投资方包括启明创投、智谱AI、BV百度风投、锦秋基(jī)金等(děng)一(yī)众机(jī)构。

对标Sora，生成视频(pín)连(lián)贯高清

“画室里的一艘船驶向镜头(tóu)”，只需要输入(rù)这样一句简单的指令，即(jí)可以生成效果逼真、镜头连贯的一段视(shì)频。在生数科技发布的Vidu模型生成视频样片中，视频(pín)的整(zhěng)体质(zhì)感几(jǐ)乎可与Sora相媲美。

据生数科技介绍，Vidu模(mó)型采用团队原创的Diffusion与Transformer融(róng)合的架(jià)构U-ViT，支持一键生成长达16秒(miǎo)、分(fēn)辨率高达1080P的高(gāo)清视频内容。“U-ViT架构早在2022年9月就由团队提出，早于Sora采用的DiT架构，是全球首个Diffusion与Transformer融(róng)合的架构。”生(shēng)数科技表示。

记者注意到，今年(nián)3月生数科技完成新一轮融资后，公司(sī)就公开表示，虽然Sora的出现(xiàn)表明美国在多模态大模型领(lǐng)域具有领先(xiān)性，“但(dàn)中国也(yě)并非完全从零开始的阶段”。据介绍，朱军(jūn)在2023年1月就提出(chū)了基于Transformer的多模态扩(kuò)散大模型UniDiffuser，采用了U-ViT，该架构与Sora的架构路线完全一致，区别在(zài)于UniDiffuser主要应(yīng)用于图像生成任务，但也可以以(yǐ)此为基础进行视频(pín)任务的拓展。

正是基于在机器学习和多模态大模型的长期积累，团队才能(néng)够在短短的两个月时间里(lǐ)突破了长视频表示(shì)与处理的多项关键技术，成功研发推出Vidu视频大模型。朱(zhū)军在Vidu模型(xíng)发布现场表示，Vidu主要(yào)有以下(xià)方面(miàn)的(de)特(tè)点与(yǔ)优(yōu)势(shì)：

一(yī)是模拟真实物理(lǐ)世(shì)界(jiè)，可以生成复杂、细节丰富的场景(jǐng)，光影效果与(yǔ)人物表情都能(néng)够符合真实的(de)物(wù)理规律。

二是富有想象力(lì)，可以虚构(gòu)场景以及想象超现实主(zhǔ)义的(de)画面。

三是具有多(duō)镜头语(yǔ)言，不(bù)再局限于固定镜(jìng)头，能够在遵循主体一致(zhì)性的情况(kuàng)下(xià)实(shí)现远景、近景、中景、特写等不同镜头的动态切换，还可以实现长镜头、追焦等(děng)效果。

四是有(yǒu)出色的视频时长(zhǎng)，能支持16秒长度的视频生成，保持镜(jìng)头和主体的连贯一致。

五是(shì)能理解中国元素，可以更好地(dì)理解生成熊猫、龙等富有中国文化(huà)特色的形象。

Vidu生(shēng)成的龙、熊猫等中国文化元素(sù)视频

背后(hòu)团队来自清华，已融资数亿元

Vidu的背后，是一家来自清华的(de)明星创(chuàng)业公司生数科技。

公开资料显(xiǎn)示，生数科技(jì)成立于(yú)2023年3月，核心成员来(lái)自清华大学人工(gōng)智能研究院，致力于自主研(yán)发世界领先的可控多模态通用大模型。公司的CEO本硕就读于清华大学计算机系的唐家渝，首席科学家由清华人工智能研究院副院长朱军(jūn)担任，CTO鲍凡则是(shì)清华大学计(jì)算机(jī)系博士生、朱军教授的(de)课题(tí)组成员，长期关注扩散(sàn)模型(xíng)领域研究。

记者注(zhù)意到(dào)，今年3月(yuè)，唐家渝曾在沟通会上向媒体表示(shì)，今年内公司的大模(mó)型一定能达到Sora目前版本的效果(guǒ)，“但(dàn)很难说(shuō)是三个月还是半年”。然而，Vidu却提前交出了一份令人惊艳的考卷，这主(zhǔ)要得益于团(tuán)队是国内最早布(bù)局多模态大(dà)模型的团(tuán)队之一，多(duō)年(nián)以来在这一(yī)领域形成(chéng)了深厚的(de)积累。

据唐家渝介绍，生数科技目(mù)前采取模型层和应用层两条路走路的模式。一方面(miàn)，构建覆盖文本、图像、视频、3D 模型等多模(mó)态能力的(de)底层通用大模型，面(miàn)向B端提供模型(xíng)服务能力；另一方面，面向图像生成(chéng)、视频(pín)生成等(děng)场(chǎng)景打造垂类应用，按照订阅等形式(shì)收费，应用方向主要是游戏制作、影视后期等内容创作场景(jǐng)。

记者(zhě)梳理(lǐ)发(fā)现，生(shēng)数科技自成立(lì)以来(lái)就备受资本关注。天眼查数据显示，生数科技目前共(gòng)完成3轮融资。2023年6月，完成近亿元人民币天(tiān)使(shǐ)轮融资，投资方(fāng)包括蚂蚁集团、BV百度风投、卓源亚洲、卓源资本；2023年8月，完(wán)成数千万人民(mín)币天使+轮融资，投资(zī)方为(wèi)锦(jǐn)秋基金；2024年3月(yuè)，完成数亿元人民币A轮融(róng)资，投资方除(chú)了启明(míng)创投、达泰资(zī)本、智谱AI等新机构以外，还有BV百度风投、卓源亚洲两个老股东(dōng)。

在三轮(lún)融资总计数亿元人(rén)民币的(de)资本加持(chí)下(xià)，生数科技已成为(wèi)目前国(guó)内多模态大模型中估值最高的(de)初创公司之(zhī)一。生数科技表示，Vidu的问世不仅是U-ViT融合架构在大(dà)规(guī)模视觉任务中的又一次成功(gōng)验证，也代表了(le)生数科技在多模(mó)态原生大模型领域的持续创新能力和领先(xiān)性。

责编：朱(zhū)雨蒙

校对：冉燕青

时隔两个月，清华(huá)团队(duì)打造(zào)了一个中国版的Sora视频大(dà)模型。

4月27日，在中关村论坛未来人工智能(néng)先锋论坛上，中国首个长时长、高一致性、高动态性视频大模型(xíng)Vidu正式(shì)发布。这一模型由(yóu)清华大学(xué)和大模型创业公司生数科技联合发布，可以一键生成长度达16秒、分辨率为1080P的高清视频内容(róng)。

证券时报记者独家获悉，清华大学人工智能研究院副院长、生数科技首(shǒu)席科学(xué)家朱(zhū)军在Vidu发布后发声表示(shì)：“Vidu，we do, we did, we do together！感谢小伙伴们日以继夜的坚持，在实验室架构(gòu)上开花结果(guǒ)。”据介绍，这也是自OpenAI发布(bù)Sora以后，全球率先取(qǔ)得重大突破(pò)的视频大模型。

Sora发布后，行(xíng)业内一直有团队宣称要追赶和复现Sora，而Vidu团队用两个月的时间(jiān)率先跑出来。记者梳理发现，生数科技在多模态大模型领域(yù)已经有较(jiào)深的积(jī)累，也(yě)是目前多模(mó)态(tài)大模型赛道估值最高(gāo)的初创公司之一。目前公司已完(wán)成三轮(lún)融资(zī)，融资额达数亿元人民币，投资方包括启明创投、智谱AI、BV百度风投、锦秋基(jī)金等一众机构。

对标Sora，生(shēng)成(chéng)视频连(lián)贯高清

“画室里的一艘船驶(shǐ)向镜头”，只需(xū)要(yào)输入这样一句简单的指令，即可以生成效果逼真、镜头(tóu)连(lián)贯的一段视频。在生数科(kē)技发(fā)布的Vidu模型生成视频样片中，视频的(de)整(zhěng)体质感(gǎn)几乎可与Sora相媲美。

据生(shēng)数科技介绍，Vidu模型采用团队原创的Diffusion与Transformer融合的架构U-ViT，支持一键生成长(zhǎng)达16秒、分辨率高达1080P的高清(qīng)视频内容(róng)。“U-ViT架构早(zǎo)在2022年9月就由团队(duì)提出，早于(yú)Sora采用的DiT架构，是全球首个Diffusion与Transformer融合(hé)的架构。”生数科技表示。

记者注意到，今年3月生数科技完成新一轮融资后，公司就(jiù)公(gōng)开表示，虽然Sora的出现(xiàn)表明美国在多模态大模型领域具有领先性，“但中国也并非完全从(cóng)零开(kāi)始的阶段”。据介绍，朱军在2023年1月就(jiù)提出了基于Transformer的(de)多模态扩散大模型UniDiffuser，采用了U-ViT，该架(jià)构与Sora的架构路线完全一致，区别在于UniDiffuser主(zhǔ)要应用于图像生成任务，但也可以以此为基(jī)础进行视频任务的(de)拓展。

正是基于在机器学习和多模态大模型的长期(qī)积累，团队(duì)才能够在短短的两个月时间里突破了长视频表示与处理的多项关键技术，成功研发推(tuī)出(chū)Vidu视频大模型。朱军在(zài)Vidu模型发布现场表示，Vidu主要有以下方面(miàn)的特点与优(yōu)势：

一是模(mó)拟真实物(wù)理世(shì)界，可以生成复杂、细(xì)节丰富的场(chǎng)景，光影效果与人物表情(qíng)都能够符合真实的物理规律。

二(èr)是富(fù)有想象力，可以虚构场景(jǐng)以及想(xiǎng)象超现实(shí)主(zhǔ)义的画面。

三是具有多镜头语言，不再局限(xiàn)于固定镜(jìng)头(tóu)，能(néng)够在遵循主体一致性的情况(kuàng)下实现远景(jǐng)、近景、中景、特(tè)写等不同镜头的动态切(qiè)换，还可以实现长镜(jìng)头(tóu)、追(zhuī)焦等效果。

四是有出色的视频时长，能支持16秒长度的视频生成，保持镜头和主体的连贯一致。

五是能理解(jiě)中国元素(sù)，可以(yǐ)更好地理解生成熊猫、龙等富有(yǒu)中(zhōng)国文化特色的形象。

Vidu生成的龙、熊猫等(děng)中国文化元素视频

背后团(tuán)队来自清(qīng)华，已融(róng)资数亿元(yuán)

Vidu的背(bèi)后，是一家来自清(qīng)华的明(míng)星创业公司(sī)生数科技。

公开资料显示，生数科技成立于2023年3月，核(hé)心成员(yuán)来自清华大学人工智能研究院，致力(lì)于自主研(yán)发世界领先的可控多模态通用大模型。公司的CEO本硕就读于(yú)清华(huá)大学计算机系的唐家渝，首席科学家由清华人(rén)工智能研究院副院长朱军担任(rèn)，CTO鲍凡则是清华大学计算机系博士生、朱军教授的课题(tí)组成员，长期(qī)关注扩散(sàn)模型领域研(yán)究。

记者注意到，今(jīn)年3月，唐家渝曾在沟通会上向媒体表示，今年内公司的大模型一(yī)定能达到Sora目前版本(běn)的效(xiào)果，“但很难说是三个月还是半年”。然而，Vidu却(què)提前交出了一份令人惊艳的考卷，这主要得益于团队(duì)是国内最早布局多(duō)模(mó)态大模型的团队之一(yī)，多年以来在这一领域形成了(le)深厚的积累。

据唐家渝介绍，生数(shù)科(kē)技目前采取模型(xíng)层和应用(yòng)层两条(tiáo)路走路的模(mó)式。一方面，构建覆盖文本、图像、视频、3D 模型等多模态能力的底层通用大模型，面向B端提供模型服务能力；另一方面，面向图像生成、视频生成等场景打造(zào)垂类应用，按照订(dìng)阅等形式收费，应用方向主要是游戏制作(zuò)、影视后期(qī)等内容创作场景(jǐng)。

记者梳理发现，生数科技自成(chéng)立以来(lái)就备受资本关注。天眼查数(shù)据(jù)显(xiǎn)示，生数科技目(mù)前共完成3轮融资。2023年6月，完成近(jìn)亿元人民币天(tiān)使轮融资，投资(zī)方包括(kuò)蚂蚁集团、BV百度风(fēng)投、卓源亚(yà)洲、卓(zhuó)源资本；2023年(nián)8月，完成数千(qiān)万人民币天使+轮融(róng)资，投资方为锦(jǐn)秋基金；2024年3月，完成数亿元人(rén)民币A轮融资，投资方除了启明创投(tóu)、达泰资本、智谱AI等新机构以外，还有BV百度风投、卓源亚洲两个老股东。

在三轮融资总计数亿元人民币的资(zī)本加持下，生(shēng)数科技已成为目前(qián)国(guó)内(nèi)多模态大模型中估(gū)值最(zuì)高的初创公司之一。生数科技表示，Vidu的问世不仅是U-ViT融(róng)合架构在大规模视觉任务(wù)中的又一(yī)次成功验(yàn)证(zhèng)，也代表了生数(shù)科技在多模(mó)态原生大模型领域的持续创新(xīn)能力和领(lǐng)先性。