阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
【TechWeb】9月(yuè)20日(rì)消息,在2024云栖大会上,极(jí)客公园创始人、总裁 张(zhāng)鹏对话阶跃星辰创始人、首席执行官姜大昕,月之暗(àn)面Kimi创始人 杨(yáng)植麟,清华(huá)大学人工智能研(yán)究院副院长(zhǎng)、生(shēng)数科技首席科学家朱军,三人对AGI发展现状和未来展望进行了激烈讨论和前瞻展望。
2024年,AI 发展变慢了(le)吗?过去18个月,AGI的发展是加速(sù)还是减速?如(rú)何评价OpenAI 最新发布的 O1 模型(xíng)?强化学习将改变什么?大模型时(shí)代的创业新范式是什么?
姜大昕(xīn)表示AI 技术发展(zhǎn)加速(sù), AI 发展正在经历关键(jiàn)的 技(jì)术范式迭代: OpenAI 的大模(mó)型 o1 探索出了通过强化学习让 AI 具备人类慢思考(可主(zhǔ)动反思(sī)、纠错的复杂思(sī)考)能力的方式,接下来提升强化学习(xí)模型的泛化能力和加速推进多模态理解生成一体化(huà)是 AI 技术(shù)进一步(bù)突破的关键(jiàn)。阶跃星辰积极探索新的技术(shù)范式,已经在万亿参数模型上实现(xiàn)了强化学习训练的方法论。同时,持续(xù)打磨更高性能的底层大模型,提升C端产品体验。据他透露(lù),近期阶(jiē)跃(yuè)星辰自研(yán)的 Step-2 万亿参数 MoE 语言大模型已接入(rù)智能(néng)助手“跃问”,展现出更强大的指令跟(gēn)随、创作和推理能力。
谈到AI产品未来的可能形态,杨植麟表示,以后的AI可能要思(sī)考或者调 用各种工具,它可能执行分钟级(jí)别、小时级别甚至天级别的任务,所以产(chǎn)品形态上可能会更接近一个人,它(tā)更接近(jìn)“助(zhù)理(lǐ)”的概念,帮你(nǐ)完成异步(bù)的任务。这(zhè)里面的产(chǎn)品形态设计(jì)可能也会发生很大的变化,想象空间蛮大。
谈到未来18个(gè)可(kě)能发生的事情,朱军表示,预想未来18个月可能比较令人兴奋的一个进展,我希望看到AGI的L3已经基本上实现。至少在智能体(tǐ),比如我们说(shuō)的(de)世界(jiè)模型的创建生成、虚(xū)实融合(hé),至少在一些特(tè)定场景下的决策(cè)能力(lì)的巨大的提升。其实它会利用我们(men)今天讲到(dào)的推理、感知等等。
以下为对话(huà)实录摘录:
主持人:从ChatGPT的发展,引发了整个世界对于AGI这个事情的理解,发展到现在也(yě)18个月了。各(g阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”è)位的感(gǎn)受是怎么样的,过去18个月,AGI的发展是加速还(hái)是减(jiǎn)速?
姜大昕:我觉得过去18个月速度还是(shì)在加速的,速度还是非常(cháng)快的 。因为(wèi)当我们回(huí)顾过去18个月发生的大大小(xiǎo)小的(de)AI事件以后,可以从两个维(wéi)度(dù)去看,一个是数量的角度,一(yī)个是质量的角度。
从数量的角(jiǎo)度来看,还是每个月都会有新的模型、新的产(chǎn)品(pǐn)、新的应用涌(yǒng)现出来。比如单从模型来看,OpenAI 2月份(fèn)发了一个sora,我记得当时还是(shì)过年的时(shí)候,把 大家(jiā)轰炸了一下。然后5月份出了(le)一(yī)个GPT-4o,上周又出 了(le)o1。OpenAI的老(lǎo)对手Anthropic它(tā)有Claude3到Claude3.5的系列,再加上(shàng)谷歌Gemini系列、Claude系列、LLaMA的系列(liè),等等(děng)。
所以,回(huí)顾(gù)过去,我(wǒ)们的感觉(jué)还是GPT-4是一家独大(dà),遥遥(yáo)领先。到了(le)今年就(jiù)变(biàn)成了一个好(hǎo)像是群(qún)雄(xióng)并起,你追我赶(gǎn)的局面,所以感觉各家是在(zài)提速了。
从质量的角度(dù)来看,我觉得有三件事情可能(néng)给我的印象非常的深刻。
第一件事情,GPT-4O的发布。因为(wèi)我看它,认为它是在(zài)多模融合这样的一(yī)个领域上了(le)一个(gè)新的台阶。在GPT4O之前,是(shì)有GPT4V,它是一个视 觉的理解模型(xíng),有Dalle、Sora,这是(shì)视觉的生成模型。还(hái)有Whisper这是(shì)声音模型。所以原本这些孤立的模型到了4O这里(lǐ)都融合在一起(qǐ)了。
那为什么融合这件事情非常的(de)重要?是因为 我们的物(wù)理世界本身就是一个多模的世界,所以多模融(róng)合一定是有助于更好的去为我(wǒ)们(men)的物理世界建模,去模拟世界这样一件事情。
第二件事情,特斯(sī)拉发布的FSD V12。大家知道它是一个端到端的大模(mó)型(xíng),它把感知信(xìn)号变成一个控制序列。智驾是(shì)一个非(fēi)常(cháng)有代表性的,它是一个从数字世界走向物理(lǐ)世界一个真实的应用场(chǎng)景。所以,我觉得FSDV12它(tā)的成功,意义不仅在于智驾本身(shēn),这套(tào)方法论可以认为是为将来的智能设备(bèi)如(rú)何(hé)和大模型相结(jié)合,更好的去(qù)探(tàn)索物理世界指明(míng)了一个方向。
第(dì)三件(jiàn)事情,上周的O1,我对它(tā)的理解,它第一次证明了语言模型其实也可以有人(rén)脑的慢(màn)思考,就是系统2的能力。而我们觉得系统2的能力它是归纳世界(jiè)所(suǒ)必备的一个(gè)前提条件,是一个基础的(de)能力。所以,我们一直(zhí)认(rèn)为,AGI的演进路线可以(yǐ)分为模拟世界、探索世界、最后归纳世界。而过去几(jǐ)个月的(de)时间我们(men)看到GPT4O、FSD V12和O1分别在这三个阶 段或者这三个方向上都取(qǔ)得了非常大(dà)的突破,而且更重要的是为将来(lái)的发展也指明了一(yī)个方向。所以无(wú)论是从数量还是质量上来说,都是可圈可点。
杨植麟:我觉得整体(tǐ)也是属于加(jiā)速发展的阶段(duàn),核心可以(yǐ)从两(liǎng)个维度(dù)来看(AI的发展),第一个维(wéi)度(dù)是纵向(xiàng)的维(wéi)度,也就是说(shuō)你的智商是一直在(zài)提升的,这个主要现在的反应方(fāng)式还是你去看文本模(mó)型能做到多好。第(dì)二个是横向的发展。除了文本模型之外,刚才(cái)姜总提到的,也会(huì)有各种不同的模态,这些模态会做一个横向(xiàng)的发(fā)展,更多的让你这个模(mó)型具备更多的(de)技能,能够去(qù)完(wán)成更多的(de)任务,然后同时跟纵向的智商的发展(zhǎn)相结合。
在这两个维度上,我觉得都看到(dào)了非常大的进展,比如说(shuō)在纵向的维度上,其实智(zhì)商是一直在提升的,比如说我们如果去看竞赛数学能力,去年是完全不(bù)及格,到今(jīn)年(nián)已经能做到90多分,像代码基本上(shàng)也是一(yī)样,能够(gòu)击败(bài)很多专业的编程选手,包括因此也产生了很多新的应用机(jī)会,比如说像(xiàng)现在比较流行的类似(shì)curser这样的 ,通过自然语言直接去(qù)写代码的这(zhè)样的软(ruǎn)件也越来越普及(jí),这是技术发展的(de)结果。包括我们去(qù)看很多具体的技术指(zhǐ)标,现在(zài)的语言模型能支持(chí)的(de)上下文的长度 ,我们如 果去(qù)年这个(gè)时间(jiān)点去看的话,大(dà)部分的模型都(dōu)只能支持4K-8K的,但是从今天(tiān)去看(kàn)你会发现4K-8K已经是非常(cháng)低(dī)的(de)数了,128K是一个标配,已(yǐ)经有(yǒu)很多可以支(zhī)持(chí)1M甚至10M的长文本的长(zhǎng)度。所以,它这个其实也是后面你的智商不断提升的一个(gè)很重要的基础。
包括最(zuì)近(jìn)的很多进展,它不光(guāng)只是说Scaling,Scaling还是(shì)会持续。而且很多进展也来自于你的后训练算法的优化,来自于你(nǐ)数(shù)据的优(yōu)化,这些优(yōu)化它的周期是会更短的。所以,这(zhè)个周期更短导致你整体AI发展节奏也会进(jìn)一(yī)步(bù)加快,包括我们最近在(zài)数(shù)学上看到的(de)很多(duō)进展,其实也是(shì)得益于这些(xiē)技术的发展。
横向上(shàng)当然也产生了很(hěn)多新的突破,当然(rán)Sora可能是影响力(lì)最大的,在这里面完成了这(zhè)个视频生成(chéng)。包 括最近有特别多新的(de)产品和技术出来,现在你已经可以通过一(yī)个论文直接生成基本上你看不出来是真是假的(de)双人的对话。类似这样的不(bù)同模态之间的转化、交互和生成,其实会变的越来越成熟。所以,我(wǒ)觉得整体是在加速的过程(chéng)中。
朱军:AGI这里(lǐ)面大家最关注的还是大模型(xíng),刚才两位也讲了去年包括今年大模型也发生了很多重要的变化(huà)。整个的进展我是非常同意(yì)刚才讲到(dào)的,在加快。
另外,我想(xiǎng)补充一点,大家在解新的问题,这个(gè)速度也在加快了,我们说(shuō)它的Leaning corve在变的更陡(dǒu)。原来如果你看语言模型,可能从2018年最(zuì)早(zǎo)去做(zuò)的(de),到去年以及到今(jīn)年,大(dà)家(jiā)走了五六年的路。但其实从去(qù)年(nián)开始,上半年大家还是关注语言模型,下半年在讨论多模态,从多模态理解再到多模态生成。我们(men)再回过头看(kàn)的(de)话,比如(rú)说图像或者视(shì)频,其实视频最明显,从今年的2月份,当时很多人被震惊到了,因为它很多没有公开,就(jiù)说怎么去突破?有很多的讨论。但事实上(shàng)我(wǒ)们现(xiàn)在看到(dào)这个行业里面,大(dà)概用了半年的时(shí)间,已经(jīng)做(zuò)到(dào)了可以去用,而且达到了一(yī)个很好的一些效果,在时空一致性上。所以大概走了半年的路。
所以这里面加速的(de)一个最核心的原因,现在大家对这种路(lù)线的认知和准备上,达到了比较好的程(chéng)度。当然我(wǒ)们还有物理(lǐ)的(de)条件,比如说像云的设施(shī),计算的资源的准备上,不像ChatGPT当时(shí)出(chū)来的时候,大家当时更多的是一种不知所措,我觉(jué)得很多人可能没准备好(hǎo)去接受这个(gè),所(suǒ)以中间去花了(le)很长时间去学习、去(qù)掌握这个。当我们掌握了之后再发现这个进展的话,再去做新的(de)问题,其实它的速度是越来越快的。
当然,这个可能不同的能力它再辐射到实际的用户(hù)的角(jiǎo)度来说,有一些(xiē)快慢(màn)之分,当然也(yě)分(fēn)行业。这个可(kě)能 在(zài)广泛的角度来说,大(dà)家可能没感(gǎn)知到。但是从技术(shù)来说,其实这个进展我感觉是曲(qū)线越来越陡,而且可能对后边我们要预测未来的(de)话,包括向更高(gāo)阶的AGI发展,我是比较乐观的,可能会看到(dào)比之前更快的速度去实(shí)现了(le)。
主持人:最近OpenAI刚刚出的O1的新的模型,也是在专(zhuān)业(yè)人群里形成了非常(cháng)多的(de)影响(xiǎng),现在还在很丰富的讨论。怎(zěn)么评(píng)价(jià)O1进展的意义?
姜大(dà)昕:确(què)实我看到一些(xiē)非共识,有些人觉得意(yì)义很大,有些人觉(jué)得也不过如此。我觉得(dé)大家如果去试用O1的话,可能第一印象是它的推(tuī)理能力确实非常惊艳,我们自己试了很多Query,觉得推理能力确实(shí)上了一个很大的(de)台(tái)阶。
然后我们去思考它背后(hòu)的意义究竟(jìng)是(shì)什么(me),我能想到的有两点:1.它第(dì)一(yī)次证明了(le)Large language model,就是语言(yán)模型(xíng),它可以有人脑的慢思考的(de)能力。它和以(yǐ)前GPT的范式,或者GPT的训练,它(tā)叫,Predict next Token,它只要这(zhè)样训练(liàn)了,就注(zhù)定了(le)它只有system 1的能力(lì)。而O1是用了一个强化学(xué)习的训练框架,所以带来了系统(tǒng)2的能力。
系统1的体现,它是一个直线性思维,虽然我们看到GPT4有时候可以(yǐ)把一个复(fù)杂的问题拆解成很多步,然(rán)后分步去解决,但它还是直(zhí)线(xiàn)性的。系统1和系(xì)统2最大的区(qū)别(bié)在于,系统2能够去探索不同的路径,它能够自我去反思、自我去纠错,然(rán)后不断的试(shì)错,直到(dào)找到一个正确的途径,这是系统2的特点。这次(cì)O1,它是把以前的模仿学习和强(qiáng)化学习结合起(qǐ)来(lái)了,使得一(yī)个模型(xíng)同时有了人脑系统(tǒng)1和系统2的能力。所以(yǐ)我觉得从这(zhè)个角度来看,它的意义是非常大的。
第二,它带来了一个Scaling Law的新方向,我理解O1试图回答的一个问题,就是(shì)说RL(强(qiáng)化学习)究竟怎(zěn)么去泛(fàn)化。因为强化学习它不是第一个,DeepMind一直(zhí)走(zǒu)的是强化(huà)学习的路线,从AlphaGo到AlphaFold到(dào)AlphaGeometry,其实它在强化学习上是非常(cháng)厉害(hài)的。但以前强化学习的场(chǎng)景(jǐng)都是会为特定场(chǎng)景(jǐng)去设计,AlphaGo只能下围棋,AlphaFold只(zhǐ)能去预测(cè)蛋白质的结构。所以(yǐ)这次O1的出现(xiàn),它是(shì)在RL强化学习通用(yòng)性和泛化性上了(le)一个大的台阶,而且它scale到了一个很大的规模,所以(yǐ)我把它看成scaling带来新的技术范式,我们不妨称之为RL Scaling。而且我们看到有意思的一点,O1并没有到很成熟的阶段(duàn),它(tā)还是(shì)一个(gè)开端,但(dàn)是这个恰恰让人(rén)觉得(dé)非常的兴奋,这就等于OpenAI跟我们说,我找到了一条上限很高 的道路,而且你仔(zǎi)细去思考它背后的方法,你会相信这条路实际上是能(néng)走得下去。所以O1从能力(lì)上来讲(jiǎng),我觉得它展示了Language model可以有系(xì)统2的能(néng)力,从技术上(shàng)来说它带来新的scaling范式,所(suǒ)以它的(de)意(yì)义还是非常大的(de)。
朱军:我的(de)看法,它是代表着一个显著的质变。我们也对AGI大概做(zuò)了(le)一些分级,学术界,包(bāo)括产业界大家有L1-L5的分级。其实L1的话相(xiāng)当于聊天机器人,就是像ChatGPT等,之前大(dà)家(jiā)做了很(hěn)多对话的。L2叫推理者,实际上可以做(zuò)复杂问题深(shēn)度(dù)思考的推理。L3叫智能体,回应吴总(zǒng)讲的“数字(zì)世界”走向“物理(lǐ)世界(jiè)”,我要(yào)去改变(biàn)的,我要去交互的。L4是创新者,它要去发现、创造一些新(xīn)的东西(xī),或者发现一些新(xīn)的知识。L5是组织者,它可以去协同,或者某种组阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”(zǔ)织方(fāng)式(shì)更高效来运转,这是大家对于AGI L1-L5的分级,当然每一级也有narrow和general的区分(fēn),在(zài)某些Task上展示出来。比如O1在L2的narrow场景下,在一些 特定任务下(xià)已经实(shí)现了人类达到很高阶(jiē)的智能水平。我觉得从分级角度来看,它确实代表着(zhe)整个(gè)行业巨大(dà)的进(jìn)步。
刚才技术上姜总也讲了,它将过去强化学(xué)习或者其他一些技术,其实在研究(jiū)里(lǐ)已 经做(zuò)了很多东西,但(dàn)实际上它在大规模基座模型(xíng)上能够做出(chū)来的效果,这还是(shì)从工程上,或者从实现上来说对行业(yè)很大(dà)的触动。当然它也会错发或者激发出来(lái)很多未来的探(tàn)索,或者实(shí)际的研发,可能会走向从narrow到general的跃迁。刚(gāng)才讲到速度,我相信它会很快,因为大家(jiā)已经有很多准备了,我也(yě)期待这个领域里更多将(jiāng)L2做得更好,甚至更高阶的(de)能实现。
杨植麟:我觉(jué)得它的意义确实是(shì)很大,主要意义(yì)在于(yú)它提升了AI的上限。AI的上限是说,你现在去提(tí)升5%、10%的生产力(lì),还是说10倍的GDP,我觉得这里最重要的问(wèn)题就(jiù)是(shì)你能不能通(tōng)过强化学习进(jìn)一(yī)步scaling,这是 完全提升了AI上限(xiàn)的东西。我们如果看AI历史(shǐ)上七八十年(nián)的发展,唯一有效的(de)就是阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”scaling,唯一 有效(xiào)的就是加(jiā)更多的算力(lì)。但在O1提出之前,可能也有(yǒu)很多人在研(yán)究强化学习,但都没有 一个非常确切的答案(àn),强化学习如果和大语言模型,或者和(hé)training processin这些东西(xī)整合在一起,它能否持续提升(shēng)。比如GPT4这(zhè)一代模型的提(tí)升(shēng),更多是确定性的提升,我(wǒ)在一样范式下把规模变得更大,它肯定是确(què)定性的(de)提升(shēng)。但(dàn)是我觉得O1的提升并不是一个完全确定性的,这(zhè)样的提升。
所以在之前大家可能会担心现在互联(lián)网(wǎng)上大(dà)部分优质数据都已经被使用完了,然后你可能继续使用这个数(shù)据(jù)也没有更多(duō)数据可以挖掘,所以你原来的范式可能会遇到问(wèn)题。但AI有效了(le),你又需要进一步scaling,那你这个scaling从哪里来,我觉得很大程度上解决了这(zhè)个问题,或者说至少证明了它初步可行。初(chū)步可行的情况下,可能我们(men)会有越来越多人投入去做这(zhè)个事(shì)情,最终你要做到10倍GDP的最(zuì)终效(xiào)果,它完全(quán)有可能,我觉得是(shì)一(yī)个很重要的开端。
我觉(jué)得对很多产业格局上,或(huò)者对于创业公(gōng)司新机会来说也会发生一些变化。比(bǐ)如(rú)我觉得这里(lǐ)很关键的一个点,你的训(xùn)练(liàn)和推理算力占比是会发生很大的变化,这个变化我不是说训练的算力会下降,训练的算力(lì)还会持续提升(shēng)。与此同时,推理的算力提升会更快,那这个比例(lì)的变化(huà)本质上会产(chǎn)生很多新(xīn)的机(jī)会,可能这里很多新的(de)创(chuàng)业公司的机会。一方面,如果你达到(dào)一定的(de)算力(lì)门槛,它(tā)可以在这里做很(hěn)多算法的基础创(chuàng)新,那你可以在基(jī)础的模型上甚至取得突破,所以我觉得这个很重要。
对于算力相对小(xiǎo)一点的公司,它也可(kě)以通过(guò)后训练的方(fāng)式,在(zài)一些领域上做到一些效果,这里也(yě)会产生更多的产品和(hé)技术机会,所以我觉得整体也是打开(kāi)了创业相关的想象空间。
主持人:这一波AI新的变(biàn)化,接下(xià)来(lái)会对AI相关的产品带来什么样的连锁反应,这个变化如何发生?
杨植麟:这是很好的问题,我们现在还是处(chù)于产业发展的早期(qī)。产业发展的早期有(yǒu)一个特点,还是技术驱动产品会更多(duō),所以很多时候你的(de)产品会去看当前的(de)技术是怎么发展,然后把它最大化的价值提取出来,所以这个问题首先非常好,可能(néng)我们根据这个新的技术进展(zhǎn),再返(fǎn)过来推(tuī)一下现在产品应(yīng)该做什么变化。
现(xiàn)在的技术发展有几(jǐ)个点(diǎn):
一个,我觉得这里面会有很(hěn)多探索新的PMF(product market fit)的(de)机会。我觉得PMF指的(de)是两个东西(xī)的平衡:一方面是由于你需要做这(zhè)种系(xì)统2的思考,导致你的延时增加。对用户来说,延时增加是(shì)一个(gè)负向(xiàng)的体验,因为所有(yǒu)用户都希望我尽快能拿到结果(guǒ);第二 个(gè)点,它(tā)确实(shí)能提供更好的输出,能(néng)拿到更好的结果,甚至能完成一些跟(gēn)更复杂的任务。等(děng)于说新的PMF产生的过程或者探索的过程(chéng),其实是要(yào)在在延时增长的用(yòng)户体验(yàn)下降和最后结果产生质量更高的(de)用户价值(zhí)的上升之间找到一个平(píng)衡点。所 以你要让这个增(zēng)量的价值是大于体验的损失,我觉得这个很重要。所以在这里面更高价值的场景,特别是生产力(lì)的(de)场景,我觉得会率先有一(yī)些东西出来。因为如果(guǒ)你是一个娱乐场(chǎng)景,大概(gài)率(lǜ)你可能很难忍受这(zhè)种延时上的增加。所以,我觉得这是比较重要的一点
产品形态上,我觉得也 会(huì)发(fā)生一些变化。因为你引入这种(zhǒng)思考的范式,所以现在同(tóng)步及时的类似聊(liáo)天的(de)产品形态一定会发生变(biàn)化(huà)。因为以后的AI,可(kě)能它不(bù)光是现在(zài)思(sī)考个(gè)20秒、40秒,它已经可能(néng)要思考或者调用各种工具,它(tā)可能(néng)执行分(fēn)钟级别(bié)、小时级别甚至天级别的任务,所以你的产(chǎn)品形态上可能(néng)会更(gèng)接近一个 人,它更接(jiē)近(jìn)“助理”的概念,帮你完成异步的任(rèn)务。这里面(miàn)的产品形(xíng)态设计,我觉(jué)得可能也会发生很大的变化。所以这里面,我觉得新 的(de)想象空间蛮大的。
朱军:我觉得大模型或(huò)者大规模预训练的技术代表 着整个(gè)范式的变化(huà),前面也聊到很多,不光(guāng)是(shì)语言,到多模态,到具(jù)身、空间智能,中间还是想我怎(zěn)么去让智能体能够有交(jiāo)互(hù),能够在这个过程中来学习。从智(zhì)能的角度来看,包(bāo)括(kuò)从(cóng)AGI发展上,它是一个必然,因为决策、交(jiāo)互实(shí)际上是我们(men)说的(de)智能里面非常核心的能力的体现。我(wǒ)们每时每刻其实都在做决策,我们面对的是一个未知的开放环境(jìng),所以对于智(zhì)能来说,它的发(fā)展路径(jìng)上,在整个规划里面大家也是朝着这个(gè)方(fāng)向走。
现在所有这些进展(zhǎn),包括刚(gāng)刚讨论很多的O1,包括做视频生成,或者3D,这些东西大家最后要指向的有两个(gè)方向:
一(yī)个是给消费者看到的(de)这些数字内容,就(jiù)是(shì)说(shuō)看上去很好看(kàn)、很自然,能够讲故(gù)事,能够让大家参与讲故事(shì)、能够交(jiāo)互。这肯定(dìng)是(shì)一个很重要的方向(xiàng),在数字内(nèi)容上。
另外一个方向,指向实体、指向物理世界。
现(xiàn)在(zài)可能最(zuì)好的(de)一个结合点就是和机器人来(lái)结合在一起。其(qí)实现在已经有好(hǎo)多例子在展 示出来,我们也看到很好的一些进展,比如用了预(yù)训练的范式,如何(hé)让机器人的能力具有(yǒu)通用性;比如我(wǒ)们自己实验室做多的例子,像(xiàng)四足机器人,过去大家(jiā)在(zài)不(bù)同场地(dì)上,你要让(ràng)它跑起来都需要用很多(duō)的人工调参。但现在你(nǐ)在一个 仿真环境里面,或者用一些AI的(de)方式(shì)来生成一些合成数据,让它在里面(miàn)大规模地训练,训练出来的策略可以灌到机(jī)器人上(shàng),它(tā)相当于换了一副大脑(nǎo),可以让它的四肢更好地协同起来,同(tóng)样一套策略可以做各种场地的适应。其实这(zhè)还是一个初步的(de)例子,现在大(dà)家也在关注更复杂的控(kòng)制(zhì)决策,就像空间智能(néng)、具身(shēn)智能。
就像刚(gāng)才讲到智能体是AGI的L3,所以现在用到L1、L2的进展之后,后面肯定会(huì)提升到L3,让机器人更好地做它的推理(lǐ)规划,然后更(gèng)好(hǎo)更(gèng)高效地和环境做交(jiāo)互,更好地完成我(wǒ)们的复杂任务。因为现在很多时候任务相对来说分(fēn)散,给它定义成(chéng)一个简(jiǎn)化(huà)的。未来,我(wǒ)们很快(kuài)可以看到它可以接受复杂的指(zhǐ)令(lìng)、完成复杂的任务(wù),通过它内嵌的思维(wéi)链或者过程的学习方式,能够完成复杂任务。所以到那个时候,智能(néng)的能力(lì)又有一个很巨大的提升。
主持人:虽然意 料未来都很难,至少心里(lǐ)会有一个期待,比如在下(xià)一(yī)个18个(gè)月里,我们希望看到什么样的进展,在AGI的领域里?
朱军:因为(wèi)现在整个是(shì)一个加速,其实很(hěn)多时候我们预(yù)测通常会过于保守。如果(guǒ)回到你的问题,我预想未来18个月可能比较令(lìng)人兴奋的(de)一个进展,我希望看到AGI的L3已经(jīng)基(jī)本上实(shí)现(xiàn)。至少在智(zhì)能(néng)体,比如我们说的世界模型的创建生成、虚实融合,至少在(zài)一些特定场景(jǐng)下的决(jué)策能力的巨大的提升(shēng)。其实它会利用我们今天讲到的推理、感知等等。
因为我前一段时间领了一(yī)个任务,就是对(duì)L4做专门的(de)分析,就是(shì)到底(dǐ)我们缺(quē)什(shén)么?做了L4的。其(qí)实最后调研(yán)或 者是分 析下来,你会发现如(rú)果我们要做科学发现或者做创新,它需要的(de)那些(xiē)能力,可能目前是散落在各个角落里面,当然现在可能还缺一(yī)个系统(tǒng)怎么把这些东西集(jí)成在(zài)一(yī)起,给它做work。所以我觉得如(rú)果更(gèng)激进一点(diǎn),我甚至觉得未来(lái)18个月可能在L4上也会有显著的进展。当然这里面我(wǒ)讲的是严肃的科学发现(xiàn),其实L4还有(yǒu)一些创意(yì)的表(biǎo)达上,目前我们在某种意(yì)义上已(yǐ)经达到了,比如说艺术创(chuàng)造、图生视频,一定程度上它已经帮大家放大你的想象,或(huò)者让你的想象可以具象化。所以,我对整个于是还是比(bǐ)较乐观的(de),我觉得至少L3或者未来L4有一些苗子了。
到今年年底,希望将我们(men)本(běn)来做的视频模型能够以更加高效、更可控的方(fāng)式提供给(gěi)大家。
我解释一下高(gāo)效和(hé)可控。可控,比如你想表达一个故(gù)事,不是简单地将一段话(huà)或者一个(gè)图(tú)片给它动起来,我们是希望你可以连续 地讲,而且它不光是人的一致性,还包括物体等(děng)各种主题的一(yī)致性,还包括交互性;高效,它一(yī)方面(miàn)解决对算力成(chéng)本的考量,因为你如(rú)果想要服务很多人,让大家用的话,首先你成本(běn)要降下来,不然这个本身就是烧钱,一直赔钱。另外一个更重要的,还是从(cóng)体验上。就使用者来说,因为他想表达自己的(de)创意,他可能需要多次和系统来交(jiāo)互,一方面是验证,另外一方(fāng)面是启发,所以(yǐ)这个过程也需要(yào)你的模型系统能够比较高效,比如(rú)说终极目(mù)标达到实时,能(néng)够让大家快速尝(cháng)试。等到这个阶段,我相信大家(jiā)的用户体验,包括用户量都(dōu)会有一个巨大的提(tí)升,这是我们今年想重点(diǎn)突破的(de)。当然长远的 话,可能明年18个月会走向实体的虚实融合的场景了。
杨植鳞:我觉得接下来最重要的,可能是开放性的强化学习(xí),比如说你在产品上跟用户交互,在一(yī)个真实的环境里面完成任务,然后(hòu)自己去进化。当然,我觉得O1一定程度上说明(míng)这个方(fāng)向(xiàng)有比之前更强的确定性,我觉得这个会是一个重要的(de)里程碑(bēi),也是AGI路上现在仅甚唯一的一个重要问题了。所以,我觉得这个会很(hěn)关键。
张(zhāng)鹏:对,18个月已经是很长了,如果看看看过去18个月走的路。你未来3个月,有什么可以透露的吗?
杨植鳞:我们(men)还是希望能够在产(chǎn)品和技术上持续地创新,至少可能在一两个重要领域能够做到世界最好,但是(shì)有新的进展会尽快跟大(dà)家(jiā)分享。
姜大昕(xīn):第一,我也很期待强化学习能够进一步泛化(huà)。另外一个方向(xiàng)其实我也很期待,应该(gāi)说(shuō)期待了很久就是在视觉(jué)领 域的理解(jiě)和生(shēng)成一体化的事情。因(yīn)为在文字领域,GPT已经做到了理解生成一体化,但遗憾的是在视觉领域,这个问题当然不是遗憾(hàn),它非常难(nán)。所以在目前为止,我们(men)看到的视觉的理解和生成,这两个模型是分开的(de)。即使像刚才说的多模融合,如果大家(jiā)仔细看GPT4,它其他模态都解决了,它唯独不(bù)能生(shēng)成视(shì)频,所以这是一个悬而未决的事(shì)情。
它为什么很重(zhòng)要呢?如果我们解(jiě)决了视频理(lǐ)解生(shēng)成一体化(huà),我们就可以彻(chè)底建(jiàn)立(lì)一个多模的(de)世(shì)界模型,有一个多(duō)模的(de)世界模型以后(hòu),可以帮助我们真正产生非常长的视频,也就是(shì)说解决Sora(音译)目前的(de)技术缺陷。还有一个,它可以和(hé)具身智能相结合,它可以作(zuò)为机器人的大脑去帮助智能体(tǐ)更好地探索物理世界,所以我(wǒ)也(yě)是(shì)非常期待的。
张鹏:你未来年底之前,有什么我们值得期待的你的(de)进展?
姜大昕:我(wǒ)也是(shì)期待一方面模型(xíng)和技术的进(jìn)步,另外一(yī)方面产品(pǐn)能带给(gěi)用户更多更好(hǎo)的体验(yàn),其实阶跃有一(yī)款(kuǎn)产品(pǐn)叫“跃问”,在(zài)上面,用户可以(yǐ)体验我们最新的万亿参数的模型,它不光是理科(kē)很强,而且它的文学(xué)创(chuàng)作能力也很强,经常给大家带来一些惊(jīng)喜。同时,跃问上还有一个新的功能叫“拍照问”,我们看到用户经常拍张 照片(piàn)去问食物的卡路里,去问宠(chǒng)物的心(xīn)情,问一个(gè)文物的前世今生,包括(kuò)Mata眼镜的发(fā)布,还有Apple Intelligence,它今年都突出了(le)视(shì)觉交互的(de)功能。所以我们在跃问上也有体现,而且我们会努力一步步把这(zhè)个(gè)功能(néng)做(zuò)得越来越好(hǎo)。
未经允许不得转载:中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了