中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器

中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

4月27日,在中(zhōng)关村论坛未来(lái)人工智能(néng)先(xiān)锋论坛(tán)上,生数科技 联合清华(huá)大学正式发布中国首个长时长、高一致性、高动(dòng)态(tài)性视频(pín)大模型——Vidu。该模型采用团队原创(chuàng)的Diffusion与Transformer融合(hé)的架构U-ViT,支持一键生成长达16秒(miǎo)、分辨率高达1080P的高清视频内(nèi)容。Vidu不仅能够模拟真实(shí)物理世界,还拥有丰富想象力,具备多(duō)镜(jìng)头生成(chéng)、时(shí)空一致性高等特点。Vidu是自Sora发布之后全球率先取得重大突破的视频大模型,性(xìng)能全面对(duì)标国际(jì)顶尖水平,并在加速迭代(dài)提升中。

与Sora一致,Vidu能够根据提供的文本描(miáo)述(shù)直接生成长达16秒的高质量视(shì)频。除了在时长方面的突破外,Vidu在(zài)视频效果方面实现 显(xiǎn)著提升,主(zhǔ)要体现(xiàn)在几个方面(miàn):第一(yī)、模拟(nǐ)真实物理世界:能够生成细节复杂的场景,且符合(hé)真实的物理规律(lǜ),例(lì)如合理的光影效果、细 腻的人物表情等(děng);第二、具有丰富 想象力:能够生(shēng)成真实世界不存在的虚构(gòu)画面,创造出具有深度和复杂性的超现实主义内容(róng);第三、多镜头语言:能(néng)够生成复杂的动态(tài)镜(jìng)头 ,不再局限于简单(dān)的推、拉、移等固(gù)定镜头(tóu),而是能(néng)够围(wéi)绕统一主体在一段画面里就实现远景、近景(jǐng)、中景、特(tè)写等 不同镜头的切换(huàn),包括(kuò)能(néng)直接生成长镜头、追焦、转场等效果,给视频注入镜头语言;第四(sì)、时空一致性高:在16秒的时长上 保持 连贯流(liú)畅,随着镜头的移动(dòng),人物和场景在时间、空间中能够保持一致;第五、理解中国元(中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出yuán)素:能够生成特有的(de)中国(guó)元素,例如熊猫、龙等。

值得一提的是,短(duǎn)片中的片段都是从头到尾连续生成,没有明显的插帧现象,从这种“一镜到底(dǐ)”的表现能够推测出,Vidu采用的是“一步到位”的生成方式,与Sora一样,文 本到视频的转换是直接且连续的,在底层算法实现上是(shì)基于单一模型完全端到(dào)端生成,不涉及中间的插帧和其他多步骤的处理。 

Vidu的快速突破源自于团队在贝(bèi)叶斯机器学(xué)习和多模态大模型的长期积累(lèi)和多项原创性成果。其核心技术(shù)U-ViT架 构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个(gè)Diffusion与Transformer融合的架构,完全由团队自主(zhǔ)研发。

2023年(nián)3月,团队开源全(quán)球首个基于U-ViT架构的多模态扩散大模型UniDiffuser,在全(quán)球(qiú)范围内率先(xiān)完成(chéng)融合架构(gòu)的大规模可扩展性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支(zhī)持图文模态间的任意生成和转换。在架构(gòu)上,UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。

自今(jīn)年2月Sora发布推出后,团(tuán)队基于对U-ViT架构的深入理解以及长期积累的工 程与数据经验,在短短两个月进一步突(tū)破长视频表示与处理关键技术(shù),研发推出Vidu视频大模(mó)型,显著提升视频的连贯(guàn)性与动态性。

从(cóng)图文任务的统一到融合(hé)视频能力 ,作为通用视觉模(mó)型,Vidu能够支持生成更加多样(yàng)化、更长时长(zhǎng)的视频内容,同时(shí)面向未来,灵 活架构也将中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出能够兼容(róng)更广泛的模态,进一步拓展多模态通用能力的边界。

Vidu的问世,不(bù)仅是U-ViT融合架构在大规模视(shì)觉任务中的又一(yī)次成(chéng)功验(yàn)证,也代(dài)表(biǎo)了生数科技(jì)在多(duō)模态原生大(dà)模型领域的持续创新能力和领先性。同时生数科技表示,大模型的 突破是一个(gè)多维(wéi)度、跨领域的(de)综合性过程,需要技术与(yǔ)产(chǎn)业应用的 深(shēn)度(dù)融合。生数科技正式推出“Vidu大(dà)模型合作伙伴计划”,希望产业(yè)链上下游企业(yè)、研究机(jī)构(gòu)能一起加入,共同构建(jiàn)合作生态。

校对:廖胜超

未经允许不得转载:中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器 中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

评论

5+2=