阶跃星辰姜大昕、月 之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
【TechWeb】9月(yuè)20日消息,在(zài)2024云(yún)栖大(dà)会上,极客公园创始(shǐ)人、总裁 张鹏对话(huà)阶跃星辰创始人、首席(xí)执行官姜大昕,月之暗面Kimi创始人 杨植(zhí)麟,清华大学人工智能研究(jiū)院副院(yuàn)长、生数科技首席科学家朱军,三人对AGI发展现状和未来展望进行了激烈讨(tǎo)论(lùn)和前瞻展望。
2024年,AI 发展变慢 了吗?过去18个(gè)月,AGI的(de)发展(zhǎn)是加速还是减速?如何评价OpenAI 最新发布的 O1 模型?强化学习(xí)将改变什么?大模型时代(dài)的创业(yè)新范式是什么?
姜大(dà)昕表示AI 技术发展(zhǎn)加速, AI 发展正在经(jīng)历关键的技术范式(shì)迭代: OpenAI 的大模型 o1 探索出了通过强化学习让 AI 具备人类慢思考(kǎo)(可主动反(fǎn)思、纠错的复杂思(sī)考)能力的方式(shì),接下来提升强化学习模(mó)型(xíng)的泛化能(néng)力和加速推进(jìn)多模态理解生成一体化是 AI 技术进一步(bù)突破的关键。阶跃星辰积极探索(suǒ)新的技(jì)术范式,已经在万亿参数模(mó)型上(shàng)实现了强化学习训练的 方法(fǎ)论。同时,持续打磨更 高性能(néng)的底(dǐ)层大模型,提升C端产 品体验。据(jù)他透露,近期(qī)阶跃星辰 自研的 Step-2 万亿参(cān)数 MoE 语(yǔ)言(yán)大(dà)模型(xíng)已接入智能助手(shǒu)“跃(yu阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”è)问”,展现出更强大的指令跟随(suí)、创作(zuò)和推理能(néng)力。
谈到AI产品未来的可能形态,杨植麟表(biǎo)示(shì),以后的AI可(kě)能(néng)要思考或者调用各种(zhǒng)工具,它(tā)可能执(zhí)行分钟(zhōng)级别、小时级别甚至天级别的任务,所以产品(pǐn)形态上可能会更接近一个人(rén),它更接近“助理”的概念,帮你完成异步的任务。这里面的产品形态设计可能也会发生很大的(de)变化,想象空间蛮大。
谈到未(wèi)来18个(gè)可能发生的事情,朱军表示,预想未来18个月可能比较令人兴奋的(de)一个进展,我(wǒ)希望看(kàn)到AGI的L3已经(jīng)基本上实现。至少在(zài)智能(néng)体,比如我们说的世界模型的创建生成、虚实融合,至少在一些特定场景下的决策能力的巨大的提升。其实它(tā)会利(lì)用我们今天讲到的推理、感知等等。
以下(xià)为(wèi)对话实录(lù)摘录:
主持人:从ChatGPT的发展,引发了整个世界(jiè)对于AGI这个事情的理(lǐ)解,发展(zhǎn)到(dào)现在也18个月(yuè)了(le)。各位的感受是怎么样的,过去18个月,AGI的发展是加速还是减速(sù)?
姜大(dà)昕:我觉得过去18个月速度还(hái)是在加(jiā)速的,速度还是非常快的。因为当我们回(huí)顾过去18个月发生的大大小小的AI事件以后,可以从两个维度去(qù)看,一(yī)个是数量的角度,一个是质量的角度。
从数(shù)量的角度来看,还是每个月都会有新的模型、新的产品、新的应用(yòng)涌现(xiàn)出来。比(bǐ)如单从模型来看,OpenAI 2月份发了一个(gè)sora,我记得当时还是过年的时(shí)候,把大家轰炸(zhà)了一下。然(rán)后5月份出了一个GPT-4o,上周又出了o1。OpenAI的老对手Anthropic它有Claude3到(dào)Claude3.5的系列,再加上谷歌Gemini系列、Claude系列、LLaMA的系列,等等。
所以,回顾过去,我们的感(gǎn)觉还是GPT-4是一家独大,遥(yáo)遥领先。到了今(jīn)年就(jiù)变成了一个(gè)好像是群雄并起,你追我赶(gǎn)的局面,所以感觉各家是(shì)在提速了。
从质量(liàng)的角度来看,我觉得有三件事情可能给我的印象非常的深刻(kè)。
第一件事情(qíng),GPT-4O的发布。因为(wèi)我看它,认为它(tā)是在多模融(róng)合(hé)这样的一(yī)个领域上了一个新的台阶。在GPT4O之前 ,是有GPT4V,它是一个(gè)视觉的理解模(mó)型,有Dalle、Sora,这是视觉的生(shēng)成(chéng)模型。还有Whisper这是声(shēng)音(yīn)模(mó)型。所以原(yuán)本这些孤立(lì)的模型到了4O这里都融(róng)合在一(yī)起(qǐ)了。
那为什么融合这件事情非(fēi)常的重要(yào)?是因为我们的物理世界(jiè)本身就是(shì)一个多模的世界,所以多模融合一(yī)定(dìng)是有 助于更好的去为我们的物理世界建模,去模(mó)拟世界这(zhè)样(yàng)一件事情。
第二件事情,特斯拉发布的(de)FSD V12。大家知道它是一(yī)个端(duān)到端(duān)的大模型,它把感知信号(hào)变成一个控制(zhì)序列。智驾是一个非常有代表性的,它是一个从数字(zì)世界走(zǒu)向物理世界一(yī)个真实的应用(yòng)场景。所以,我觉得FSDV12它的成功,意义(yì)不仅在于(yú)智驾本身,这(zhè)套方法论可以认为是(shì)为将来的智能设备如何和大模型相结合,更好的去探索物理世界指(zhǐ)明了(le)一个方向。
第三件(jiàn)事情,上周的O1,我对它的理解,它(tā)第一次证明了语言模型其实(shí)也可以有人脑的慢思考,就是(shì)系统2的能力。而我们 觉得系统(tǒng)2的能力它是归纳(nà)世界所必备的一个(gè)前提条件(jiàn),是一个基础的能力。所以(yǐ),我们(men)一直认为,AGI的演进路线可以(yǐ)分为模拟(nǐ)世界、探索(suǒ)世界、最后归纳世界。而过去几个月的时间我们看到(dào)GPT4O、FSD V12和O1分别在这三个阶(jiē)段或者这三(sān)个(gè)方向上都取得了非常大的突破,而且更重要的是为将来的发(fā)展也指明了一个方向。所以无(wú)论是从数量还是质量上来(lái)说(shuō),都是(shì)可圈(quān)可点。
杨植麟:我觉得整体也是属于加速发(fā)展的阶(jiē)段,核心可以从两个维度来看(AI的(de)发展),第一个维度是(shì)纵(zòng)向的维度,也就是说你的智商是一直(zhí)在(zài)提升的,这个主要现在的反应(yīng)方式还是你(nǐ)去(qù)看文本模型能(néng)做到多好。第二个是横向的发展(zhǎn)。除了文本模型之外,刚(gāng)才姜总提到的,也会有各种不同的(de)模态,这些模态会做(zuò)一(yī)个(gè)横向的(de)发展,更多的让你这个模型具备更多的(de)技能,能够(gòu)去完成更多的任务,然后同时跟纵向的智(zhì)商的发展 相结合。
在这两个维度上,我觉得都看到了非常大的进展,比如说(shuō)在纵向的维(wéi)度上,其实智商(shāng)是一直(zhí)在(zài)提升的,比如说我们如(rú)果去看(kàn)竞赛数学能力,去年是完全不及格,到今年 已(yǐ)经(jīng)能做(zuò)到90多分,像代码基本上(shàng)也是一样,能(néng)够击败很多专业的编程选手,包括因(yīn)此也产生了很多新的应用机会(huì),比如(rú)说像现在比较(jiào)流行的类似curser这样的,通(tōng)过自然(rán)语言直接(jiē)去(qù)写代码的(de)这样(yàng)的软件也越来越普(pǔ)及,这是技(jì)术发展的结果。包括我们去(qù)看很(hěn)多具体(tǐ)的技术指标,现在的语言模型能支持的上下(xià)文的长度,我们如果去年这个时间点(diǎn)去看的话,大部分的模型都只能支持4K-8K的(de),但是从今天去看你会发现4K-8K已经是非(fēi)常低(dī)的数了,128K是一个标配,已经有很多可以支持1M甚(shèn)至10M的长文本的长度。所以,它这个(gè)其实(shí)也是后面你的(de)智商不断提(tí)升的一个很重要(yào)的基础。
包括最近的很多进(jìn)展,它不光只(zhǐ)是说Scaling,Scaling还(hái)是会持续。而且很多进展也来自于你的后训练算法(fǎ)的优化,来自于(yú)你数据的优化,这些优化它的周期是会更短的。所以,这个周期更短导致你整体AI发展节奏也(yě)会进一(yī)步加快,包括我们最近在数学上看(kàn)到的(de)很多(duō)进展,其实也是得益于这些技术的发展。
横向上当(dāng)然(rán)也产生了很多新(xīn)的突破,当然Sora可能是影响力(lì)最(zuì)大的,在这里面(miàn)完成(chéng)了这个视频(pín)生成。包括最近(jìn)有特别多新(xīn)的产品和技(jì)术出来,现在你已经(jīng)可以(yǐ)通过一个论文直接生(shēng)成基本上你看不出(chū)来(lái)是真(zhēn)是假(jiǎ)的(de)双人的对话。类(lèi)似这样的不同模态之间的(de)转化、交互(hù)和生成,其实会变的(de)越(yuè)来越成熟(shú)。所以,我觉得整体是(shì)在(zài)加速的过程中。
朱军:AGI这里 面大家最关注的还是大模(mó)型 ,刚才两(liǎng)位也讲了去年包括(kuò)今年大模型也发生了很多重 要的变化。整(zhěng)个的进展我是(shì)非常同意刚才(cái)讲到的,在(zài)加快。
另外,我想补充一点,大(dà)家在(zài)解(jiě)新的问题,这个速度也在加快了,我们说(shuō)它的Leaning corve在变的更陡。原来如果你看语言模型,可能从2018年(nián)最早 去做的,到去年以及到今 年,大家走了(le)五六年(nián)的路。但其实从去(qù)年开始,上半年大家还是关注语言(yán)模型(xíng),下半年在讨论多模态,从多模态理解再到多模态生(shēng)成。我们(men)再回过头看的话,比如说图像或者视频,其实视频最明(míng)显,从今年的2月份,当时(shí)很多人被震惊到了,因为(wèi)它很多没有公开,就说怎么去突破(pò)?有很多的讨论。但事实上我们现在看到这个行业里面(miàn),大概(gài)用了半年的时间,已(yǐ)经做到了可以去用,而且(qiě)达到了一个很好的一(yī)些效果,在时空一致性上。所以大概走了半(bàn)年的路。
所以这里面(miàn)加速的一个最核心的原因,现(xiàn)在大家对这种路线的 认知和准备上,达到了比较好的程度。当然我们还有物理的条件(jiàn),比(bǐ)如说像(xiàng)云的设施,计算的 资源的准备(bèi)上,不像ChatGPT当时出来的时候,大家当时更多的是一种不知(zhī)所措,我觉得很多人可能没准备好去接受这个,所以中间去花了很长时间去学习、去掌握(wò)这(zhè)个。当我(wǒ)们掌握了之后再发现这个进(jìn)展的话,再去做新的问题,其实它的速度是越来越(yuè)快的。
当然,这个可能不同的能力它再辐射到实际的用户的角度来说,有一些快慢之分,当然也分行业。这个可能在(zài)广泛的(de)角度来说,大家(jiā)可能没感(gǎn)知到。但是从技术来说,其实这个进展我感觉是曲线越来越陡,而且可能对后边我们要预测未来的话,包括向更高阶的AGI发展,我是比 较乐观的,可能(néng)会看到比之前更快的速度去实现了。
主(zhǔ)持人:最近OpenAI刚(gāng)刚(gāng)出的O1的新的模型,也是在专(zhuān)业人群里形成了非常多的影响,现在(zài)还在(zài)很丰富的讨论(lùn)。怎么评价O1进展 的意义?
姜大昕:确实我看(kàn)到一些非共识,有(yǒu)些人觉(jué)得(dé)意(yì)义很大,有些人觉得(dé)也不过如此。我觉得大家(jiā)如果(guǒ)去试用O1的话,可能第一(yī)印(yìn)象是它的推理能力确实非常惊(jīng)艳,我们自己试了(le)很多(duō)Query,觉得推理(lǐ)能力确实上了一个(gè)很大(dà)的(de)台阶。
然后我(wǒ)们(men)去思考它(tā)背后的意义(yì)究竟是什么,我能想(xiǎng)到(dào)的有两点(diǎn):1.它第一次证(zhèng)明(míng)了Large language model,就是(shì)语言模型,它可以有人脑的(de)慢思考的能(néng)力。它和以前GPT的范式,或者GPT的训练,它叫(jiào),Predict next Token,它只要这样训练了,就(jiù)注定了它只有system 1的能力。而O1是用了一(yī)个强化学习(xí)的训练框架,所以带来了系统2的能力。
系统1的体现(xiàn),它(tā)是一个 直(zhí)线性思维,虽然我们看(kàn)到GPT4有时候可以把一个复杂的问(wèn)题(tí)拆(chāi)解成很(hěn)多步,然后(hòu)分步去解决,但它还是直线(xiàn)性的。系统1和系统2最大的区别(bié)在于(yú),系统(tǒng)2能够去(qù)探索不(bù)同的(de)路径,它能够自我去反思、自我去纠错,然后不断的试错,直到找到一个正确的途径(jìng),这是系统2的特点。这次O1,它是把以前的模仿学习和强化(huà)学习结合起来(lái)了,使得一(yī)个模型(xíng)同时有了人脑系(xì)统1和系(xì)统2的能力。所以我觉得从(cóng)这个角度(dù)来看,它的意(yì)义是(shì)非常大的。
第二,它带来了一(yī)个Scaling Law的新方向,我(wǒ)理解O1试图回答的一个问题,就是说(shuō)RL(强化学习)究竟怎么去泛化。因为强化学习它不是第一个,DeepMind一直走的是强化学习的路线,从AlphaGo到AlphaFold到AlphaGeometry,其实它在强化学习上是非常厉害的。但(dàn)以前强化学习的场景都是会为特定(dìng)场景去设计,AlphaGo只能下围棋,AlphaFold只能去预测蛋白质的结构。所以这次(cì)O1的出现,它是在RL强化学习通用性和泛化性(xìng)上了一个大的台阶,而且(qiě)它scale到了一(yī)个(gè)很大(dà)的规模,所(suǒ)以我把它看成scaling带来新的技术(shù)范式,我们不妨称之为RL Scaling。而且我们(men)看到(dào)有意思的一点,O1并没有到很成熟(shú)的阶段,它还是一个(gè)开端(duān),但是这个恰恰让人觉得(dé)非常(cháng)的兴奋,这就等于OpenAI跟我们说,我找(zhǎo)到(dào)了一条上限很高的道路,而(ér)且你仔细去思考它背(bèi)后的方法,你会相信这条路实(shí)际上是能走(zǒu)得下去。所以O1从能力上(shàng)来讲,我觉得它(tā)展示了Language model可以(yǐ)有系统2的能力,从技术上来说它带来新的scaling范式,所以它的意义还是(shì)非常大的。
朱军(jūn):我的看法,它是(shì)代表着一个显著的质变。我们也对AGI大概做了一些分级,学术界,包括产业界大家有L1-L5的分级。其实(shí)L1的话相当于聊天机器人,就(jiù)是像ChatGPT等,之前(qián)大家做了(le)很多对话的。L2叫推理者,实际上可以做复杂问题深(shēn)度思考的推(tuī)理。L3叫(jiào)智能体,回(huí)应吴总讲的“数字世界”走向“物理世界”,我要去(qù)改变的,我要去交互的。L4是创新者,它要(yào)去发现、创造一些新(xīn)的(de)东(dōng)西,或者发现一些新(xīn)的知(zhī)识。L5是组织者,它可以去协同,或者某(mǒu)种组织方式更高效来运转,这是大家对于AGI L1-L5的分(fēn)级(jí),当然每一级也有narrow和general的区分,在某(mǒu)些(xiē)Task上展示出来(lái)。比如O1在(zài)L2的narrow场(chǎng)景下,在一些特定任(rèn)务(wù)下已经实现了人类达到很高阶的智能(néng)水平。我觉得从分级角度来看,它确实代表着整个行(xíng)业巨大的进(jìn)步。
刚才(cái)技术上姜总也讲了,它将过去(qù)强化学习或者其他一些技术(shù),其(qí)实(shí)在研究里(lǐ)已经做(zuò)了很多东西,但实际上它在大(dà)规模基座模(mó)型(xíng)上能(néng)够做出来的效果,这还是从(cóng)工(gōng)程(chéng)上,或者从实现上来说(shuō)对行(xíng)业很大的触动(dòng)。当(dāng)然它也会错(cuò)发或者激发(fā)出来很多未来(lái)的探索(suǒ),或者实际的研发,可能会走向(xiàng)从narrow到general的跃迁。刚才讲到速度,我相信它会很(hěn)快,因为大家已经有(yǒu)很多准备了,我也期待这个领(lǐng)域里更多(duō)将L2做得(dé)更(gèng)好,甚至更高阶的能实现。
杨植麟:我觉得它 的意义确(què)实是很大,主要意义在于它(tā)提(tí)升了AI的上限。AI的(de)上限是(shì)说,你现在去(qù)提升5%、10%的生产力,还是说10倍的GDP,我(wǒ)觉(jué)得这里最重要的问题就是(shì)你(nǐ)能不能通过强化学习进(jìn)一步scaling,这是完全提升了(le)AI上(shàng)限的东西。我们如果看AI历史上七八十年的(de)发(fā)展 ,唯一有效的就是scaling,唯一有效的就是(shì)加 更多的算(suàn)力。但在O1提(tí)出(chū)之前,可能也有很多(duō)人在研究强化学习,但都没(méi)有一(yī)个非常确切的答 案,强化学习如果和(hé)大语言模型(xíng),或者和(hé)training processin这些东(dōng)西整合在一起,它能否持续提升。比如GPT4这一代模型的提升,更多是确(què)定性的提升,我在一样范式(shì)下把(bǎ)规模变得更大,它 肯(kěn)定(dìng)是确(què)定性(xìng)的提升。但是我觉得O1的提升并不是一个完全确定性的,这样的提升。
所以在之前大家可能会担心现在互联网上大部分优质数据(jù)都已 经(jīng)被使用完了,然后(hòu)你可能继续使用这个数据也没有(yǒu)更多数据可以挖(wā)掘,所(suǒ)以你原来的范式可能会遇到问题。但AI有效了,你又需要进一步scaling,那你这个阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”scaling从哪里来,我觉得(dé)很大程度上解(jiě)决了这个问题(tí),或者说至少证明了它(tā)初(chū)步可行。初(chū)步可行的情(qíng)况下,可能我们会有越来越多人(rén)投入去做这个事情,最终你要做(zuò)到10倍GDP的最终(zhōng)效果,它完(wán)全有可能,我觉得是一个(gè)很重要的开端。
我觉得对很(hěn)多产业(yè)格局(jú)上,或者对于创业公司新 机会来说也会发生一些变化。比如(rú)我觉(jué)得这里很关键的(de)一(yī)个点 ,你的训练和推理算力占比是(shì)会发生很大的(de)变化,这个变化我不是说训练的算力会(huì)下降,训(xùn)练的算力还会持续(xù)提升。与此同(tóng)时,推理的算力提升(shēng)会更快,那这个比例的变化本质上(shàng)会产生很多新的(de)机会,可能这里很多新的创业公司的机会。一方面(miàn),如果你达到一定 的算力门槛,它可以在这 里(lǐ)做很多算(suàn)法的基(jī)础创新,那(nà)你可(kě)以在(zài)基础的模型上甚(shèn)至取得突(tū)破,所 以我觉得这个很(hěn)重要。
对于算力相对小一(yī)点的公司,它也可以通过后训练的方(fāng)式,在一些(xiē)领域(yù)上(shàng)做到一些效果,这里也会产生更多的(de)产品(pǐn)和技术机会,所以我觉得整体 也是打开了创业相关的想象空间。
主持人:这一波AI新 的(de)变(biàn)化,接下来会对AI相关的产品带来什么样的连锁反应,这个变化如何发生?
杨植麟:这(zhè)是(shì)很好的问题,我们现在还(hái)是(shì)处于(yú)产业发展的早期。产业发展的早(zǎo)期有(yǒu)一个特点,还是(shì)技术驱动产品会更多,所以很多时候你的产(chǎn)品会去看当前的(de)技术是怎么发展,然(rán)后把(bǎ)它最 大化的价值提取出来,所以这(zhè)个问题首先非(fēi)常好,可能我(wǒ)们根据这个新(xīn)的技术进展(zhǎn),再返(fǎn)过来推一下现在产品应该做什么变化。
现在的技术发展有几个点:
一个,我(wǒ)觉得(dé)这里(lǐ)面会有很(hěn)多探(tàn)索新的PMF(product market fit)的机会。我觉得(dé)PMF指的是两个东西的平(píng)衡:一方面是(shì)由于你需要做(zuò)这种(zhǒng)系统2的思考,导(dǎo)致你的(de)延时增加。对 用户来说,延时增加(jiā)是一个负向的体(tǐ)验,因(yīn)为所有用户都希望我(wǒ)尽快能拿(ná)到结果;第二个点,它确实能提供更好的输出(chū),能拿到更好(hǎo)的结果,甚至能完(wán)成一些跟更(gèng)复(fù)杂的任务。等于(yú)说新(xīn)的PMF产生的过程或者探索的过程,其实(shí)是要在在(zài)延时(shí)增长的用户体验下降和最后结果产生质量更高的用户价值的上升之间找到一(yī)个平衡(héng)点。所以你(nǐ)要让这个增量(liàng)的价值是大于(yú)体(tǐ)验的损失,我觉(jué)得这个很重要。所以在这(zhè)里面更高价值的场(chǎng)景(jǐng),特别是生产力(lì)的(de)场景(jǐng),我觉得会(huì)率先有一些东西出(chū)来。因为如果(guǒ)你是一个娱乐场景,大概率你可能很难忍受这(zhè)种延时上的增加。所(suǒ)以,我觉(jué)得这是比较重要的一点(diǎn)
产品形态上,我觉得也会发生一(yī)些变(biàn)化。因为你引入这种思考的范(fàn)式,所以现(xiàn)在同步及时的类似聊(liáo)天(tiān)的产品形态一(yī)定会发生变化。因为以后的(de)AI,可能它(tā)不光是现在思考个(gè)20秒、40秒,它(tā)已经可能要思考或者调用各种工具,它(tā)可能执行(xíng)分钟级别、小时(shí)级别甚至(zhì)天(tiān)级别的(de)任务,所(suǒ)以你的产品形(xíng)态上(shàng)可能会更(gèng)接近一个(gè)人,它更接近“助理”的概念,帮你完成异步的任务。这(zhè)里面(miàn)的产品形态设计,我觉得可能也会发生很大的变(biàn)化。所以这里面,我觉得新的想象空间蛮大的。
朱军:我觉得大模型或者大规模预训练的技(jì)术(shù)代表着整个(gè)范式(shì)的(de)变化,前面也聊(liáo)到(dào)很多,不光是语言,到多模态(tài),到具身、空间智能,中间还是想(xiǎng)我怎么去让(ràng)智能体能(néng)够有交互,能够在这个(gè)过程中来学习。从智能的角度来看,包括从AGI发展上,它是(shì)一个必然(rán),因为(wèi)决策、交互实际上是我们说的(de)智能里面非常核心的能(néng)力的体现。我们每时每刻(kè)其实都在做决策,我 们面对的是一个未知的开放环(huán)境,所以对(duì)于智能来说,它的发展路径(jìng)上,在整个规(guī)划里面大(dà)家也是朝着这个方向走。
现在所有这些进展,包(bāo)括刚刚(gāng)讨论很多(duō)的(de)O1,包括做(zuò)视频生(shēng)成,或者3D,这些东西(xī)大家最后要(yào)指向的(de)有两个方向(xiàng):
一个是给消(xiāo)费者(zhě)看到(dào)的这些数字内(nèi)容,就是说看上去很好(hǎo)看、很自然,能够讲故事,能够让(ràng)大家参(cān)与讲故事、能够交互。这肯定是一个很重(zhòng)要的方向(xiàng),在数字内容上。
另外(wài)一个方向,指 向实体、指向物理世界。
现在可能最好的一个结(jié)合点就是和机器人来结合在一起。其实现在已经有(yǒu)好多例子在展(zhǎn)示出来,我们也看到(dào)很好的一些进展,比如用了预训练(liàn)的范式,如何让(ràng)机器(qì)人的能力具有通用性;比如我们自己(jǐ)实验室做多的例子,像四足机器人,过去大家在不同场地上,你要让它跑起来都需要(yào)用很多的(de)人工调参。但现在你(nǐ)在一个仿真环境里面,或者用一(yī)些AI的方式来生成一些合成数据(jù),让它在里面大规模地训练,训练出来的(de)策略可(kě)以(yǐ)灌到机器人上,它相当(dāng)于换了一副大脑,可以让 它的四肢更好 地协同起来,同样一套策略可以做各种场地(dì)的适应。其实这还是一个初步的例子,现在(zài)大家也(yě)在关注更复(fù)杂的控制决策,就(jiù)像空间智能、具身智能。
就像刚(gāng)才讲到智能体是AGI的L3,所以现在用(yòng)到(dào)L1、L2的进展之后,后面 肯定(dìng)会提升到L3,让机(jī)器人更好(hǎo)地做它(tā)的推理规(guī)划,然后更(gèng)好更(gèng)高效地和环境做交互,更好地(dì)完成我们的(de)复杂任务。因为现在很多时候任务相对来说分散,给它定义成一个简化的。未来(lái),我们很快可以看到它(tā)可以接受复杂(zá)的指令、完成复杂的任务,通过它内嵌的思维链或者过程的学习方式,能够完成复杂任务。所以到那个时候,智能的能力又有(yǒu)一个很巨大的(de)提(tí)升。
主(zhǔ)持人:虽然意料未来都很难,至少心里会有一(yī)个(gè)期待,比(bǐ)如(rú)在下一个18个(gè)月里,我们希望看(kàn)到(dào)什么样的进展(zhǎn),在AGI的领域里?
朱军:因为现在整(zhěng)个是一个加(jiā)速,其实很多时(shí)候我们预测通常会过(guò)于(yú)保守(shǒu)。如果回到你的问(wèn)题,我预想未(wèi)来18个月(yuè)可能比(bǐ)较令人兴奋的(de)一个进展,我希望(wàng)看(kàn)到AGI的L3已经基本上实现。至少在(zài)智能体,比如我们说的世界模型的创建(jiàn)生成、虚实融合(hé),至少在(zài)一些特定场(chǎng)景下的决策能力的巨大(dà)的提升。其实(shí)它会利(lì)用我们今天讲到的(de)推(tuī)理、感知等等。
因为我前一段时间领了一个任务,就是对L4做专门的分析,就是到底我们缺什么?做了L4的。其实(shí)最后调研或(huò)者是分(fēn)析下来,你会发现如果我(wǒ)们要做(zuò)科学发现或者做创新,它需要的那些能力,可能(néng)目前是(shì)散落在(zài)各个(gè)角落里面,当然现在可能还缺一个系统怎么把这些东西集成在一起,给它做(zuò)work。所以(yǐ)我觉得如果更激进一点,我甚至(zhì)觉得未来18个月可能在L4上也会有显著的(de)进(jìn)展。当然这里面我讲的(de)是严肃的科(kē)学(xué)发现,其实L4还有一些创意的表达上,目前(qián)我们在某种(zhǒng)意义上已经达到(dào)了,比如说(shuō)艺术创造(zào)、图生视频(pín),一定程(chéng)度上它已经帮大家放大你的想象,或者让(ràng)你的想象可以具(jù)象化。所以,我对整个于是(shì)还是(shì)比较乐(lè)观的,我觉得至少L3或者未来L4有(yǒu)一(yī)些苗(miáo)子了(le)。
到今年年底,希望将(jiāng)我们(men)本来做的视频模型能够以更加高效、更可控的方式提供给大家。
我解释一下高效和可控。可控,比如你 想表达一个故事,不是简单地将(jiāng)一段话(huà)或者一个图片给它(tā)动起来,我们是(shì)希望你可以连续地讲,而且它不光是人的一致性,还包(bāo)括物体等各种主题的一致性,还(hái)包括交互(hù)性;高效,它一方(fāng)面解决对算力成本的考量(liàng),因为你(nǐ)如果想要服务很多(duō)人,让大家用的话,首先你成(chéng)本要降下(xià)来,不然这个本身就是烧钱,一直赔钱。另外一(yī)个(gè)更(gèng)重要的,还(hái)是从体验上。就使用者来说,因为他想表达(dá)自己的创意,他可(kě)能需要多次和系统来交互,一方面是验证,另外一方面是启发,所以(yǐ)这个过程也需要你的模型系(xì)统能够比较高效,比如说终极目标达 到实时,能够让大家快速尝试(shì)。等到这个阶段,我相信(xìn)大家的用(yòng)户体验,包括 用户量都(dōu)会有一个(gè)巨大的提升,这是 我们今(jīn)年想(xiǎng)重点突破的。当然长远的话(huà),可 能明年18个(gè)月会走向实体的虚实融合的场景了。
杨植鳞:我觉得接(jiē)下来最重要的,可能是开放性的强化学(xué)习,比如说你在(zài)产品上跟用户交互,在一个真实的环(huán)境里(lǐ)面完(wán)成任(rèn)务,然后(hòu)自己去进化(huà)。当然,我觉得O1一定(dìng)程度上说明这个方向有(yǒu)比之前更(gèng)强的确(què)定性,我觉得这个会是一个重要的里程碑,也是AGI路上现在仅甚唯一的一个重要问题了。所以,我觉得这个会很关键。
张鹏(péng):对,18个月已经是很长了,如果(guǒ)看看看过去18个月(yuè)走(zǒu)的路。你未(wèi)来3个月,有什么可以透露的吗?
杨植鳞:我们还是希望能够(gòu)在产品(pǐn)和(hé)技术上持续地创新(xīn),至少 可(kě)能在(zài)一两(liǎng)个重要领域 能够做到世(shì)界最好,但是有新的进展(zhǎn)会尽快跟大家分享。
姜大(dà)昕(xīn):第一(yī),我也很期待强(qiáng)化学习能够进一(yī)步泛化。另外一个方(fāng)向其实(shí)我也很期待(dài),应该说期待(dài)了很久就(jiù)是(shì)在(zài)视觉领域的理解和生成一体化的事情。因为在文字领域(yù),GPT已经做到了(le)理解生成(chéng)一体化,但遗(yí)憾的(de)是在视觉领(lǐng)域,这个问题当然不是遗憾,它非常难。所以在目前(qián)为止,我们 看到的 视觉的理(lǐ)解和生(shēng)成,这两个模型是(shì)分开的。即使(shǐ)像刚(gāng)才说的(de)多模融合,如果大家仔细看(kàn)GPT4,它其他模态都解决了,它唯(wéi)独不(bù)能生成(chéng)视频(pín),所以这(zhè)是一个悬而未决的事(shì)情。
它为什么很重要呢?如果我们解决了视(shì)频理解生成一体化,我们就可以彻(chè)底建立一个多模的世(shì)界模(mó)型,有(yǒu)一个(gè)多模的世界(jiè)模型以后,可以帮助我们真正产生非常长的视频,也就是说解决Sora(音译)目(mù)前的技术缺陷。还有一(yī)个,它可以和具身智能相结合,它可以(yǐ)作为(wèi)机器人的大脑去帮助智能体更好地探索物(wù)理世界,所以 我也是非常(cháng)期待的。
张鹏(péng):你未来年底之前,有什么我们值得期待(dài)的(de)你的进展?
姜大昕:我也是期待一方面模型和技术的进步(bù),另外一方面产品能带给(gěi)用户更多(duō)更好的体验,其实阶跃有一款产品叫“跃问”,在上面,用户可以体验我(wǒ)们最新的万亿参数的模型,它不光是理(lǐ)科很强,而且(qiě)它的文学创作能力也很强,经(jīng)常(cháng)给大家带来一 些惊喜(xǐ)。同时,跃问(wèn)上还有一个(gè)新的功能叫(jiào)“拍照问”,我们看到用户经常拍张照(zhào)片去问食物的卡路(lù)里(lǐ),去问宠(chǒng)物的心情(qíng),问一个文物的前世今生,包括Mata眼镜的发布(bù),还有Apple Intelligence,它今年都突出了视觉交互的功(gōng)能。所以我们在跃问上也有体现,而且我们会努力一步步把(bǎ)这个功能做得越来越(yuè)好。
未经允许不得转载:中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了