中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器

中国首个Sora级视频大模型Vidu发布 生 数科技与清华联合推出

中国首个Sora级视频大模型Vidu发布 生 数科技与清华联合推出

4月27日,在(zài)中关村论坛未来人工智能(néng)先锋论坛上,生数科技联(lián)合清华(huá)大学正式发布中国首个长时长(zhǎng)、高一(yī)致性、高动态(tài)性视频(pín)大模(mó)型——Vidu。该模型采用团队原创的Diffusion与(yǔ)Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨(biàn)率高达1080P的高清视频内(nèi)容。Vidu不仅能够模拟真 实物理世界(jiè),还拥有丰富想象力,具备多镜头生成、时空一致(zhì)性高等特点。Vidu是自Sora发布之后全球率先取得重大突破(pò)的中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出视(shì)频大模型,性(xìng)能全面对标国际顶尖水平(píng),并在加速迭(dié)代(dài)提升中。

与Sora一致,Vidu能够根据提供的文本描述直接生(shēng)成长达16秒的高质量视(shì)频(pín)。除了在 时长方面的突破外,Vidu在视频效果方面实现显著提升,主要体现在几个方面:第(dì)一、模拟真实物(wù)理世界:能够生成细节复杂的场景,且符合真实的物理规律,例如合理的光影效果(guǒ)、细腻的人(rén)物表情(qíng)等;第二、具有(yǒu)丰富想象(xiàng)力:能够生成真实(shí)世界不存在的虚构画面,创(chuàng)造出(chū)具有深度和复杂性(xìng)的超现实主义内(nèi)容;第三、多镜头(tóu)语言:能够生成复杂(zá)的动态镜头(tóu),不再局限 于简单的推、拉、移(yí)等固定镜(jìng)头(tóu),而是能够围绕统一主体在(zài)一段(duàn)画面里就实现远景、近景、中景、特写等不同镜头的 切换,包括能直接生成长镜头、追焦、转场(chǎng)等效果,给视(shì)频注入镜头语言(yán);第四、时空一致性高(gāo):在(zài)16秒(miǎo)的时长上保持连贯流畅,随着镜头的移动,人物和场景(jǐng)在(zài)时间、空间(jiān)中能够保持一致;第五、理解中国元素:能够生成特有的中国元(yuán)素(sù),例如熊猫、龙(lóng)等。

值得一提的是,短片中的片段都是从头到尾连续生成,没有(yǒu)明显的插帧现象,从 这种“一镜到底”的(de)表现能(néng)够(gòu)推测出,Vidu采(cǎi)用的是“一步到位”的(de)生成方式,与Sora一样,文本到(dào)视(shì)频的转换是直接(jiē)且连续的,在(zài)底层算法实现(xiàn)上是基于单一模型完全端到端生成,不涉(shè)及中间的插(chā)帧和(hé)其他多步骤的处理。 

Vidu的快速突(tū)破源自于团队在(zài)贝叶斯机器学(xué)习和多模态(tài)大模型的长期积(jī)累(lèi)和多项(xiàng)原(yuán)创性成(chéng)果。其(qí)核心技术U-ViT架 构由团队于2022年9月提(tí)出,早于Sora采(cǎi)用的(de)DiT架构(gòu),是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。

2023年(nián)3月,团队(duì)开源全球(qiú)首(shǒu)个(gè)基于U-ViT架(jià)构的多(duō)模态扩散大模型UniDiffuser,在全球范围内(nèi)率先完(wán)成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在 大(dà)规模图(tú)文(wén)数据集LAION-5B上训练出的近10亿(yì)参数(shù)量模型,支(zhī)持图(tú)文模态间(jiān)的任意生成和转换。在架构上,UniDiffuser比同样DiT架构的Stable Diffusion 3领先了一年。

自今年2月 Sora发布推出(chū)后,团队基于(yú)对U-ViT架构的深入理解(jiě)以及长期积累的工程与数(shù)据经验,在短短两个月进一步突 破长视频(pín)表示与处理关键技术,研发 推出Vidu视频大模型,显著提升视频的连贯性与动 态性。

从图文任务的(de)统一到融合视频能力,作为通用视觉模型,Vidu能(néng)够支持生成更加多(duō)样化、更长时长的(de)视频内容,同时面向(xiàng)未来,灵活架构(gòu)也将能(néng)够兼容更广(guǎng)泛(fàn)的模 态,进一步拓展多模态通用能力的边界。

Vidu的问世,不仅是U-ViT融合架构(gòu)在大规(guī)模视觉(jué)任(rèn)务中的又一中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出次 成功验证,也代表了生数(shù)科(kē)技在多模态原生大模型领域的持(chí)续创新能(néng)力和领先性。同时生数科技(jì)表示,大模型的突破是(shì)一个多维(wéi)度、跨领域的综合性过程,需要技术与产业应(yīng)用的(de)深度(dù)融合。生数科技正式推出“Vidu大模型合作伙伴(bàn)计划”,希望产业链上下游企业、研究机构能一起(qǐ)加(jiā)入,共同构建 合作生态。

校对:廖胜超

未经允许不得转载:中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器 中国首个Sora级视频大模型Vidu发布 生数科技与清华联合推出

评论

5+2=