阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大 模型发展之路”
【TechWeb】9月20日消息 ,在2024云(yún)栖大会上,极(jí)客(kè)公园创始(shǐ)人、总(zǒng)裁 张(zhāng)鹏对话阶(jiē)跃星辰创(chuàng)始(shǐ)人、首席(xí)执行官姜(jiāng)大昕,月之暗面Kimi创(chuàng)始人 杨植麟,清华大(dà)学人工(gōng)智(zhì)能研究院副院(yuàn)长、生数科技首席科学家(jiā)朱(zhū)军,三人对AGI发(fā)展现状和未来展望进行了激烈(liè)讨论和前(qián)瞻展望。
2024年,AI 发(fā)展变慢了吗?过去18个月,AGI的发展是加速还是减速?如何(hé)评价OpenAI 最新发布的 O1 模型?强化学习将改变什(shén)么?大模(mó)型时代的创业新范式是什么?
姜大昕表示AI 技术发展加速, AI 发展正在经历关键的技术范式迭代: OpenAI 的大(dà)模 型 o1 探索(suǒ)出了通过强化学习让 AI 具备人类慢(màn)思(sī)考(可主动(dòng)反思(sī)、纠错的(de)复杂思考)能力(lì)的方式,接下来提升强化学习模型的泛化能力和加速推进(jìn)多模态理解(jiě)生成一体化是 AI 技术进一步突(tū)破的关键。阶跃星(xīng)辰积极探索新的技术范式(shì),已经在(zài)万亿参(cān)数模型(xíng)上实现了(le)强化学习训练的方法论。同时,持续打磨更高性能的底层大模(mó)型,提升(shēng)C端产(chǎn)品体验。据他透露,近期阶跃星辰(chén)自研的 Step-2 万亿参数 MoE 语言大模型已接入智能助(zhù)手“跃问”,展现出更强大的指(zhǐ)令跟随、创作和(hé)推理能力。
谈到AI产品未来(lái)的(de)可(kě)能形态,杨植(zhí)麟表(biǎo)示,以后的AI可能(néng)要思(sī)考(kǎo)或者调用各种工具,它可能执(zhí)行分钟级别、小时级(jí)别甚至天级别的任务,所以产品形态上(shàng)可能会(huì)更接近一个人,它更接(jiē)近“助理”的概念,帮你完成异步的(de)任务。这里面的产品形态设计可能也会发生很(hěn)大的变化,想(xiǎng)象空间蛮大。
谈(tán)到未来18个可(kě)能发生的事情,朱军表示,预想未(wèi)来18个月(yuè)可能比较(jiào)令人兴奋的(de)一个进展,我希(xī)望看到(dào)AGI的(de)L3已经基本上实现。至少在智能体,比如我们说的世界模型的创建生成、虚实融合,至少在一些特定场景下的决策能力的巨大的(de)提升。其实(shí)它会利用(yòng)我们今天讲到的推理、感知等等(děng)。
以下为对话(huà)实(shí)录摘录:
主持人:从(cóng)ChatGPT的发展,引发(fā)了(le)整(zhěng)个世(shì)界对(duì)于AGI这个事情(qíng)的理解(jiě),发(fā)展到现在也18个月了。各位的(de)感受是怎么样的,过(guò)去18个月,AGI的发展是加速还是减速?
姜大昕(xīn):我(wǒ)觉得(dé)过去18个(gè)月速度还是在加速的,速度还是非常快的。因(yīn)为(wèi)当我们回顾过去18个月发生的大大小小的(de)AI事件以后,可以从两个维(wéi)度去看,一个是数量的角度,一个是(shì)质量的角度。
从数量的角(jiǎo)度来(lái)看,还是每个月都会有新(xīn)的模型、新的产(chǎn)品、新的应用(yòng)涌现出(chū)来。比如单(dān)从模型来看,OpenAI 2月份发(fā)了一个(gè)sora,我记得当时还是过年的时候,把大家轰炸了一下。然(rán)后5月份出了一个GPT-4o,上周(zhōu)又出了o1。OpenAI的老对手Anthropic它(tā)有Claude3到Claude3.5的系列,再加上(shàng)谷(gǔ)歌Gemini系列、Claude系列、LLaMA的系列,等等。
所以,回顾过去,我们的 感觉还是GPT-4是(shì)一家独大,遥遥领先。到了今年就变成了一个好像(xiàng)是群(qún)雄(xióng)并起,你追我赶的局面,所以感觉各家是在提(tí)速了。
从质量的角度来看,我觉得有三(sān)件事情可能给我的印象(xiàng)非常(cháng)的深刻。
第一件事情,GPT-4O的发布。因为我看它,认为它是在多模融合这样的一个(gè)领域上了一个新的台阶。在GPT4O之前,是有GPT4V,它是一个视觉的理解模(mó)型,有Dalle、Sora,这是视觉的生(shēng)成模(mó)型。还有Whisper这是声音模型(xíng)。所以(yǐ)原本这些孤立的模型到了(le)4O这里都融合在一起了。
那为什么融合这件事情非常的重要?是因为(wèi)我们的物理(lǐ)世界本身就是一个多模的世界,所以多(duō)模融合一定是有助(zhù)于更好的去为我们的物理世界建模(mó),去模拟世(shì)界这样一件事情。
第二件(jiàn)事情,特斯拉发布的(de)FSD V12。大家知道它是一个端(duān)到端的大模型,它把感知信号变成一个控制序列。智(zhì)驾(jià)是一个非常(cháng)有代表性的,它是一个从数字世界走向物理世界一个真实的应用场景。所以,我觉得FSDV12它的成(chéng)功,意义(yì)不仅在于智驾本(běn)身(shēn),这套(tào)方法论可以认(rèn)为是(shì)为将来的智能(néng)设备(bèi)如(rú)何和大模型相结合,更(gèng)好(hǎo)的去探(tàn)索物理(lǐ)世界指(zhǐ)明了一个方向。
第(dì)三件事情(qíng),上周的O1,我对它的(de)理解,它第(dì)一次证明了语言(yán)模(mó)型其实也可(kě)以有人脑(nǎo)的慢思考,就是(shì)系统(tǒng)2的能力。而我们觉得系统2的能(néng)力它是归纳世界所必(bì)备的一个前提条件(jiàn),是一个基础的能力。所以,我们一直认为,AGI的演进路线可(kě)以分(fēn)为模拟(nǐ)世界、探索世(shì)界、最后归纳世界。而过去几个月的时间我们(men)看到GPT4O、FSD V12和O1分别在这三个阶(jiē)段或(huò)者这三个方向上都取得了非常大(dà)的(de)突破(pò),而(ér)且更重要的是为将来的发展也指(zhǐ)明了一个方(fāng)向。所以无论是从数量还是质(zhì)量上来说,都是可圈(quān)可点。
杨植麟(lín):我觉得整体也是属于加速发展的阶段,核心可以从两个维度(dù)来看(AI的发展(zhǎn)),第一个维度(dù)是纵向的维度(dù),也就是说你(nǐ)的智商(shāng)是一直在提升(shēng)的,这个主要现在的反应(yīng)方式还是你去看文本模型能做到 多好。第二个是(shì)横向的发展。除了文本模型之外,刚才(cái)姜总提到的,也会有(yǒu)各种不同的模态,这些模态会做一个横向(xiàng)的发展,更多的让你这个(gè)模 型具备(bèi)更多的技能,能够去完成更多的任(rèn)务,然(rán)后同时跟纵向的智商的发展相结合(hé)。
在这两个维度上(shàng),我(wǒ)觉得都看到了非常(cháng)大(dà)的进 展(zhǎn),比如说在纵向的维度上,其实智商是一直在提升的,比如说(shuō)我们如果去看竞赛数学能力,去(qù)年是完全不及格,到今年已经(jīng)能做到90多分,像(xiàng)代码基本(běn)上也是一样,能够击败很多专业的编程选手,包括因此也产生了很多新的(de)应用机会,比如说像现在比较(jiào)流(liú)行的(de)类似curser这样的,通过自然(rán)语言直接去写代码的这样的软件也越来越普及,这是技术发展的结果。包(bāo)括我(wǒ)们去看很多具体的技术指标,现在的语(yǔ)言 模型能支持的(de)上下文的长度,我们如果去年这个时间点去看的话,大部分的模型都只能支持4K-8K的,但是从今天去看你会(huì)发现4K-8K已经是非常低的数了,128K是(shì)一个标配,已经有很多可以支持1M甚至10M的长文本的长度。所以,它这个其(qí)实也是(shì)后面你的智商不断提升的一个很重要的基(jī)础。
包括(kuò)最近的很多进展,它不光只是说(shuō)Scaling,Scaling还(hái)是会持续。而且很多(duō)进展也来自于(yú)你的后训练(liàn)算法(fǎ)的优化,来自于你(nǐ)数据的(de)优(yōu)化,这些(xiē)优化(huà)它的周期是会更短的。所以,这(zhè)个周期更短导致你整体AI发展节奏也会进一步加快,包(bāo)括我们最近在数(shù)学(xué)上看到的很(hěn)多进展(zhǎn),其实也是得益于这些技术的发展。
横向(xiàng)上当然也产生了很多新的突破,当然Sora可能是(shì)影响力最大的,在这里面完成了这个视频生成。包(bāo)括最近(jìn)有特别多新(xīn)的产品和技术出来,现在你已经可以通过(guò)一个论文直(zhí)接生成基本上你看不(bù)出来是真是假的双人的对话。类似这样的不同模态之(zhī)间的(de)转化、交互和生成,其实会变的越来越成熟。所(suǒ)以,我觉得整体是在加速的过程中(zhōng)。
朱军:AGI这里面大家最关(guān)注的(de)还是大模型,刚才两位(wèi)也讲了去年包括今年大模型也发生了很多(duō)重要的(de)变(biàn)化。整个的进展(zhǎn)我是非常(cháng)同意刚才讲(jiǎng)到的(de),在加快(kuài)。
另外(wài),我想补充一点,大家在解新的问题(tí),这个速度也在加快(kuài)了,我们说它的Leaning corve在变的更陡。原来(lái)如(rú)果你看语言模型,可能从(cóng)2018年最早去做的(de),到去年以及到今年,大家走了(le)五六(liù)年的(de)路。但其实从去年(nián)开始,上半(bàn)年 大家(jiā)还是关注语言模型,下半年在讨论多(duō)模态,从多模态理解(jiě)再到(dào)多模态生成。我们再回过头看的话,比如说图像或者视频,其(qí)实视频最明显(xiǎn),从今年的2月份 ,当时(shí)很多人被震惊到了,因为(wèi)它很多没有 公开,就说怎么去突破?有(yǒu)很多的讨论。但事实上我们现在看到这(zhè)个行(xíng)业里面,大概用(yòng)了半年的时间,已经做到了可以去用,而(ér)且达到了一个很(hěn)好(hǎo)的一些效果,在时空一致性上。所以大概走了半年的路。
所以这里面加速的一个最核心的原因,现在大家对这种路线的认知和准备上,达到了比较(jiào)好的程度。当然(rán)我(wǒ)们还有物理(lǐ)的条件,比如说像云的设施(shī),计算的资源(yuán)的准(zhǔn)备上,不(bù)像ChatGPT当时出来的时候,大家当时更多的是一种(zhǒng)不知所措,我觉得很多人可(kě)能(néng)没(méi)准备好去接受这(zhè)个,所以中间(jiān)去花(huā)了很长(zhǎng)时间去学习(xí)、去掌握这(zhè)个。当我(wǒ)们掌握了(le)之(zhī)后再发现这个进展的话,再去做新(xīn)的问题,其实它的速度(dù)是越来越快的。
当然,这个可能不同的能力它再辐射到(dào)实际的用户的角度来说,有一些快慢之(zhī)分,当然也分行业。这个可能在广泛的角度(dù)来说,大家(jiā)可能没感(gǎn)知到。但是从技术(shù)来说,其实这个进展我感觉是曲线越来越陡,而且可能对(duì)后(hòu)边我们要预测未来(lái)的话(huà),包括(kuò)向更高(gāo)阶的AGI发展,我(wǒ)是比(bǐ)较乐观的,可能会看到比之前更快的速 度去实现了。
主持人(rén):最近(jìn)OpenAI刚刚出的O1的新的模型,也是在专业人群(qún)里(lǐ)形成了非常(cháng)多的(de)影响,现在(zài)还在很丰(fēng)富的讨论。怎么评价O1进展的意义?
姜大昕:确实我看到一些非(fēi)共识(shí),有些人觉得意(yì)义很大(dà),有些人觉得也(yě)不过(guò)如此。我觉得大家如果去(qù)试用O1的话,可能第一(yī)印象是 它的(de)推理能力确实(shí)非(fēi)常惊艳,我们自己试了很多(duō)Query,觉得推(tuī)理能力确实上了一(yī)个很(hěn)大的台阶。
然后我们去思考它背(bèi)后的(de)意义究(jiū)竟是(shì)什么,我(wǒ)能想到的(de)有两点(diǎn):1.它第一(yī)次(cì)证明了Large language model,就(jiù)是语言模型(xíng),它可以有人脑的慢思考的能力。它和以(yǐ)前GPT的(de)范式,或 者GPT的训(xùn)练,它叫,Predict next Token,它(tā)只要这样训练了,就注定了它只有system 1的能力。而(ér)O1是用了一个强化学习的训练(liàn)框架,所以带来(lái)了(le)系统2的(de)能力。
系统1的体现,它是(shì)一个直线 性思维,虽(suī)然(rán)我们看到GPT4有时(shí)候可以把一个复杂(zá)的问题拆解成很多步,然后分(fēn)步去解决,但它还是(shì)直线(xiàn)性的(de)。系统1和系统2最(zuì)大的区(qū)别在于,系统2能够去探索不同的路径,它(tā)能够自我(wǒ)去反思、自我去纠错,然后不断的试错,直(zhí)到找到一个正确的途径,这是系统2的(de)特点。这 次O1,它是把以前(qián)的模仿学习和强化学习结(jié)合起来了,使得一个模(mó)型同时有了人脑系统(tǒng)1和系统(tǒng)2的能力。所以我觉得(dé)从这个(gè)角度来看,它的意义是非常大的。
第二,它带来了一个Scaling Law的新方向,我理解(jiě)O1试图回答的一个(gè)问题,就(jiù)是说RL(强(qiáng)化学习)究竟怎么去泛化。因为强化学(xué)习它不是(shì)第一个,DeepMind一直(zhí)走的是强化学(xué)习的路线,从AlphaGo到AlphaFold到AlphaGeometry,其实它(tā)在强化学习上是(shì)非(fēi)常厉害的。但以前强化学习的场景都是会为特定场景去设(shè)计,AlphaGo只能下围 棋,AlphaFold只能去预测(cè)蛋(dàn)白质的结构。所以这次O1的出现,它是在RL强化学习(xí)通 用性和(hé)泛化性上了一个(gè)大的台阶,而且(qiě)它(tā)scale到了一个很大的规(guī)模,所以我把它看成scaling带来新的(de)技术(shù)范式,我们不妨称之为RL Scaling。而且我们看到有意思的一点,O1并没有(yǒu)到很成熟的阶段,它(tā)还是一(yī)个开端,但是(shì)这个恰恰让人觉得非常的兴奋,这就等于OpenAI跟我们说,我找(zhǎo)到了一条上限很高的道(dào)路,而且(qiě)你仔细去(qù)思考它背后的方法,你会相信这(zhè)条路实际上是能走得下去(qù)。所以O1从能(néng)力上来讲,我觉(jué)得它展示了Language model可以有系统(tǒng)2的能力,从技术上来说它带来新的scaling范式,所以它的意义还是非常大的。
朱(zhū)军:我的看阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”法,它是代(dài)表(biǎo)着一个(gè)显(xiǎn)著的质变。我们也对AGI大概(gài)做了一些 分级,学术界,包括产业界大家 有L1-L5的分级。其实L1的话相当(dāng)于聊天机器人(rén),就是像ChatGPT等,之前(qián)大家做(zuò)了很多对话的(de)。L2叫(jiào)推理者,实际上可以做复杂问题深度思(sī)考的推理。L3叫智能体,回应(yīng)吴总(zǒng)讲的(de)“数字世 界”走向“物理世界”,我要去改变的,我要去交互的(de)。L4是创(chuàng)新者,它要去发现(xiàn)、创造一些新的东西,或者发现一些新的知识。L5是(shì)组织者,它可以去协同,或者某种组织方式更高效来运转,这是(shì)大家对于(yú)AGI L1-L5的分级(jí),当然每一级也(yě)有narrow和general的区分,在某些Task上(shàng)展示出来。比如O1在L2的narrow场景下,在一些(xiē)特定(dìng)任务下已经实现了人(rén)类达到很高阶(jiē)的智能(néng)水平。我觉得从分级角度来看,它确实代表(biǎo)着整个(gè)行业巨大的进(jìn)步。
刚才(cái)技术上姜总也讲(jiǎng)了,它将过去强化学习(xí)或者其他一(yī)些技术,其实在研究里已经做了很(hěn)多东西(xī),但实际上(shàng)它在大规模基(jī)座模型(xíng)上能够做出来的效果,这(zhè)还是从工程上,或者(zhě)从实现上来说对行业很大的触动。当然它也会错(cuò)发或者激发出来很多未来的探索,或(huò)者实际的研(yán)发,可能会走向从narrow到general的(de)跃迁。刚才讲到速度,我相(xiāng)信它会很快,因为大(dà)家已经有很(hěn)多准备了(le),我也期待这个领域(yù)里更多将L2做得更好,甚至更高阶的能实现。
杨(yáng)植(zhí)麟:我觉(jué)得它的意义确实是很大,主要意义在于它提升了AI的上限。AI的上限是说,你现在去提升5%、10%的生产力,还是 说10倍的GDP,我觉得这里(lǐ)最(zuì)重要的问题就是你能不能通过强化学(xué)习进一步scaling,这是完全提升了AI上限的东西。我们如果看AI历史上七八(bā)十年的发展,唯(wéi)一有效的就是scaling,唯一有效的(de)就是加更多的算力。但在O1提出之前,可能也有(yǒu)很(hěn)多人在研究强化学习,但(dàn)都没有一(yī)个非常确(què)切的答案,强化学(xué)习如果和大语言模(mó)型(xíng),或者和(hé)training pro阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”cessin这些东西整合在一起,它能否持续提升。比如GPT4这一代模型的提升,更多是确定性的提(tí)升,我在一样范式下把规模变(biàn)得更大,它肯定是确定性的提升。但是我觉得O1的提升阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”并(bìng)不是(shì)一个完全确定性的,这样的提升。
所(suǒ)以在之前大家可能会担心现在互联网上大(dà)部分优质数据都(dōu)已经被使用完了,然后你可能继续使用这个数据(jù)也没有更(gèng)多数(shù)据可以挖掘,所以你原来的范式可能会遇到(dào)问题。但AI有效了,你又需要进一步scaling,那你这个scaling从哪里来,我觉得很大程度上解(jiě)决了这个问题,或者说(shuō)至少证明了(le)它初步可行。初步可行的情况下,可(kě)能我们会有越来越多人投入去做这个事情,最终(zhōng)你要做到10倍GDP的最终效果,它完全有可能,我觉得是一个很重要(yào)的开端。
我觉(jué)得对很多产业格(gé)局上,或(huò)者对于创业公司新机会来说也会发(fā)生一些 变化。比如我(wǒ)觉得这里很关(guān)键的一(yī)个点(diǎn),你的训练和推理算力占比是会发生很大的变化(huà),这个变化我不是说训练的算力会下降,训练的算力还会持续提升。与此同时(shí),推理的算力提升会更快,那这个(gè)比例的变化本质上会产生很多新(xīn)的机会,可能这(zhè)里很多新的创业公司的机会。一方面,如果你达到一定的算力门槛,它可以在这里做很多算法的基(jī)础创(chuàng)新,那你可以在基础的模型(xíng)上甚至取(qǔ)得突破,所以我觉 得这个很重(zhòng)要。
对于算力相对小一点的(de)公司,它也可以通(tōng)过后训练的方式(shì),在一(yī)些领域上(shàng)做到一(yī)些(xiē)效果,这里也会产生更(gèng)多的产品和技术机会,所(suǒ)以我觉得(dé)整体也(yě)是打开了(le)创(chuàng)业相关的想象空(kōng)间。
主持人:这一波(bō)AI新的变化,接下来(lái)会对(duì)AI相关的产(chǎn)品带来什么样的连锁反(fǎn)应,这个变化如何发生?
杨植麟:这是很(hěn)好的问题,我们(men)现在还是处于产(chǎn)业发展的早期。产业发展的早期有一个特(tè)点,还是技术驱(qū)动产品会更(gèng)多,所以很多时候你的产品会去看当前的技术是怎么发展,然后把它最大化(huà)的价值提取出来,所以这个问题首(shǒu)先非常好,可能(néng)我(wǒ)们根据这个新的(de)技术进展,再返(fǎn)过来(lái)推一下现在产品应该做什么变化(huà)。
现在(zài)的技术发展有几个(gè)点:
一个,我觉得这里面会有很多探索新的PMF(product market fit)的机会。我觉得PMF指的是两个东西的平衡(héng):一方面(miàn)是(shì)由于你需要做这种系统(tǒng)2的思考,导致你的延时增加。对用(yòng)户来说,延时增加是一个负向的体验,因为所有用户都希望(wàng)我(wǒ)尽快能拿到结果;第二个点,它确实能(néng)提供更(gèng)好的输出(chū),能拿到更好的结果,甚至能完成一(yī)些跟更复杂的任(rèn)务。等于说新的PMF产生的过程或者探索的过(guò)程,其实是(shì)要(yào)在在延时(shí)增(zēng)长的用户体验下降和最后(hòu)结果产生质量更高的用户价值的上升之间找到一个平(píng)衡点。所以你要让这个增量的价(jià)值是大(dà)于体验的损失(shī),我觉得这个很重要。所以在这里面更高价值(zhí)的场景,特别是生产力的场景,我觉得会率先有(yǒu)一些东(dōng)西出来。因为如果你是一个娱乐场景,大概率你可能很难忍受这种延时(shí)上的增加。所以(yǐ),我觉得这(zhè)是比较重(zhòng)要的一点
产品形态上,我(wǒ)觉得也会发(fā)生一(yī)些变化。因为你引入这种思考的范式,所以 现(xiàn)在同步及时的类似聊天的产品形态(tài)一定会(huì)发生变化。因为 以后的AI,可能它(tā)不(bù)光是现在思考个(gè)20秒(miǎo)、40秒,它已经可(kě)能要思考或者调用(yòng)各种工具,它可能执行分钟级别、小时级别甚至天级别的任(rèn)务,所以你的产品形态上可能会(huì)更接近一个人,它更接近“助理”的概念,帮(bāng)你完成(chéng)异步的任务。这里面的产品形态设计,我觉得可能也会发生很(hěn)大的变化(huà)。所以这(zhè)里面,我觉得新(xīn)的想象空间蛮大的。
朱军:我觉得大模(mó)型或者大规模预训练的技(jì)术代 表(biǎo)着整个范(fàn)式的变化,前面也聊到很多,不光是语言,到多模态,到具身、空间(jiān)智能,中间还(hái)是想我怎么去让智能体(tǐ)能够有交互,能够在这个过程中来学习。从智(zhì)能的(de)角度来看,包括从AGI发展上(shàng),它是一(yī)个必然,因为(wèi)决策、交互(hù)实际上是我(wǒ)们(men)说的智能里面非常核心(xīn)的(de)能力的体现。我们每时每刻其(qí)实(shí)都在做决策,我们面对的是一个(gè)未知的开(kāi)放(fàng)环境,所以对于智能来(lái)说,它的(de)发展路径上,在整个规划里面(miàn)大家也是朝着这个方向走。
现在所有这些进(jìn)展,包(bāo)括刚刚讨论很多的O1,包括做视频生成,或者3D,这些东西大家最后要指向 的有两(liǎng)个(gè)方(fāng)向:
一个是(shì)给消费者看到的这(zhè)些数字内容,就是说看上去很好看、很自然(rán),能够讲故事,能够(gòu)让大(dà)家参与讲故事(shì)、能够交互(hù)。这肯(kěn)定(dìng)是一个(gè)很重要的方向,在数字内容上。
另外一个(gè)方向,指(zhǐ)向实体、指 向物理(lǐ)世(shì)界。
现在可能最(zuì)好的(de)一个结合点就是和机器人来 结合在(zài)一起。其实 现在已经有好多例子在展示出来,我们也(yě)看到很好的一(yī)些进展,比如用了预(yù)训练的(de)范式,如何让机器人的能力具有通用性;比如我们自己实验室做(zuò)多的例子(zi),像四足机器人,过去大家(jiā)在不同场地上,你要让它跑起来都需(xū)要用很多(duō)的人工调参。但现在你在一个仿真环境里面(miàn),或者用一(yī)些(xiē)AI的方(fāng)式来生成(chéng)一些(xiē)合成数据,让它(tā)在里面大规(guī)模(mó)地训练,训练出来的策略(lüè)可以灌到机器人上,它相当于换了一副大(dà)脑,可以让它的(de)四(sì)肢更好地协同起来,同样一(yī)套策略可以做(zuò)各(gè)种场(chǎng)地的适应。其实这还是一个初(chū)步的例(lì)子(zi),现在大家也(yě)在(zài)关(guān)注更复杂的控制决策,就像空(kōng)间智能、具身智能。
就像刚(gāng)才讲(jiǎng)到智能体是AGI的L3,所(suǒ)以现在用到L1、L2的进展之后,后面肯定(dìng)会提升到L3,让机器(qì)人更好地做它的推理规划,然后(hòu)更好更高效地和环境做(zuò)交互,更好地完(wán)成我们的复杂任务(wù)。因为现在很多时候任务(wù)相对来(lái)说(shuō)分散,给它定义成一个简化的。未来,我(wǒ)们很快可以(yǐ)看到它可以接受复(fù)杂的指令、完成复杂的任务,通过它内嵌的(de)思维链或者过程的学习(xí)方(fāng)式,能够完成复杂任务(wù)。所以(yǐ)到那个(gè)时候,智能的能(néng)力(lì)又(yòu)有一个很巨大(dà)的提升。
主持人:虽然意料未来都很难,至少(shǎo)心里会有一个期待,比如在(zài)下一个18个月里,我们希(xī)望看到什么样的(de)进展,在AGI的领域里?
朱军:因为现在整个(gè)是一个加速,其(qí)实很(hěn)多时(shí)候我们预(yù)测通常(cháng)会过于保守。如果回到你的问题,我(wǒ)预想未来18个月可能比较令人兴奋的一(yī)个进(jìn)展(zhǎn),我希望看到AGI的L3已经基本上实现。至少(shǎo)在智能体,比如我(wǒ)们说的世界模型的创建生成、虚实融合,至少在一些(xiē)特定场景下的决策能力的巨大的提升。其(qí)实它会利用我们今天讲到(dào)的推理、感知等等。
因为我前一段时间领了(le)一(yī)个任务,就是对L4做专(zhuān)门的分析,就是到底我(wǒ)们缺什么?做了L4的。其(qí)实最后调研或者是分析下来,你会发现如果我(wǒ)们要做科学(xué)发现或者做创新(xīn),它需要的那(nà)些能力,可能目前是散(sàn)落(luò)在各个(gè)角落里面,当(dāng)然现在可能(néng)还缺一个系统(tǒng)怎么把这些东西集成在一起,给它做work。所以我觉得如果更激进一点,我(wǒ)甚至觉得(dé)未来18个月可能在L4上也会有显著的进展。当然这里(lǐ)面我(wǒ)讲的是严肃的科学发现,其实L4还有一些创意的表达上,目前我们在(zài)某种 意义上已(yǐ)经达到了,比如说(shuō)艺术创造、图(tú)生视频,一定程度上它已经帮大家放大你的想象,或者让你的想象可以具象(xiàng)化。所以,我对整个于是还(hái)是比(bǐ)较乐观的(de),我(wǒ)觉(jué)得(dé)至少L3或者未来(lái)L4有一些苗子了。
到今(jīn)年年底,希望(wàng)将我们本来做(zuò)的视频模型能够以更加(jiā)高效、更可控的方式 提供给大家。
我解释一下高效和可(kě)控。可控,比如你想表达一个故事,不是简单地将一(yī)段话或者(zhě)一个图片(piàn)给它动起(qǐ)来,我们是希望你可以连续地讲,而且它不(bù)光是(shì)人的(de)一(yī)致性,还包括物(wù)体等各(gè)种主题的(de)一致(zhì)性,还(hái)包(bāo)括交(jiāo)互(hù)性;高效,它一方面解决对算力成本的考量,因(yīn)为你如(rú)果想要服务很多人(rén),让大家(jiā)用的(de)话,首先(xiān)你成本要降下来,不然这(zhè)个本身就(jiù)是烧(shāo)钱(qián),一(yī)直赔钱。另外一(yī)个更(gèng)重要的,还是从体验上。就使用者来说,因为他想(xiǎng)表达自己的(de)创意,他可能需要多次和系统来交互,一方面是(shì)验证,另外一方面(miàn)是启发,所(suǒ)以这个过程也需要你的模(mó)型系统能够(gòu)比较高效,比如(rú)说(shuō)终极目标达到实时,能够让大(dà)家快速尝(cháng)试。等到这个阶段,我相信大家的用户(hù)体(tǐ)验,包括用户量都会有一个巨大的提升,这(zhè)是我们(men)今年想 重点(diǎn)突破的。当然长(zhǎng)远的(de)话,可能明年18个月会走向(xiàng)实体的(de)虚实融合的场景了(le)。
杨植鳞:我觉得接下来最重要的,可能是开放性的强(qiáng)化 学习,比如(rú)说你在产品上跟(gēn)用户交互,在一个真实的环境里面(miàn)完成任务(wù),然后(hòu)自己去进化。当然(rán),我觉得O1一定(dìng)程(chéng)度上说明(míng)这个方向有比(bǐ)之前更强的确定性,我觉得这个会是一个重(zhòng)要的里程(chéng)碑,也是AGI路上现在仅甚(shèn)唯一的一个重要问题了。所以,我觉得这个会很关键。
张鹏:对(duì),18个月已经是很长了,如(rú)果看看看过去18个月走的路。你未来(lái)3个月,有(yǒu)什(shén)么可以透(tòu)露的吗?
杨植鳞:我们还是希望能够在产品和技(jì)术上持续地创新,至少可能在(zài)一两个重要领域能够做(zuò)到世界最好,但是有新的进(jìn)展会(huì)尽快跟大家分享。
姜大昕:第一,我也很期待强化学习(xí)能(néng)够进一步泛(fàn)化。另外一个方向其实我也很期(qī)待,应该说期待(dài)了(le)很久就是在视觉领域的理解和生(shēng)成一体化的事(shì)情。因为在文字领域,GPT已经做到了理解生成一体化(huà),但(dàn)遗憾的(de)是在视觉领域,这个问题当然不(bù)是遗憾,它非常难。所以在目前为止,我们看到的视觉的(de)理解和生成,这两个模型(xíng)是(shì)分开的。即使像(xiàng)刚(gāng)才说(shuō)的多模(mó)融合,如果大家仔细看GPT4,它其他模态都解决了,它唯独不能生成视频,所以这是一个悬而未决的事情。
它为什么很(hěn)重要呢?如果我(wǒ)们(men)解决(jué)了视频理解(jiě)生成一体(tǐ)化,我们(men)就可以彻底建立一个多模的世界模型,有一个多模的世界模(mó)型以(yǐ)后,可以帮助(zhù)我们真正产生非常长的视频,也就是说解决Sora(音译)目前的技术缺陷。还有(yǒu)一个(gè),它可以和具身智能(néng)相结合(hé),它可以作为(wèi)机器人的(de)大脑去(qù)帮助智(zhì)能体更好地探索物理世界(jiè),所以我也是非 常期待的。
张鹏:你未来年底之前,有什么我们值得期待的你(nǐ)的进展(zhǎn)?
姜大昕:我也是期待一方面模型和技术的进步,另外一方面产品能带给用户更多更好的体(tǐ)验,其实阶跃有一款产品叫“跃问”,在上面,用户可(kě)以体验我们最新的万亿参(cān)数的模型,它不(bù)光是理科很(hěn)强,而且它的文学创作能力也很强,经常(cháng)给大家带来一些惊喜。同时,跃问上还有(yǒu)一个新(xīn)的功能叫(jiào)“拍(pāi)照问”,我们看到用户经常拍(pāi)张照片去问食(shí)物的卡路(lù)里,去问宠物的心情,问一个文物的前世今生,包括Mata眼镜的发布,还有Apple Intelligence,它今年都突出 了视觉交(jiāo)互的(de)功能。所以我们在跃问上也有体现,而且我们会努(nǔ)力一步(bù)步(bù)把这个功能做得越来越好。
未经允许不得转载:中央空调,电梯,空气能热水器-中央空调,电梯,空气能热水器 阶跃星辰姜大昕、月之暗面杨植麟、生数科技朱军,云栖大会激辩“通往AGI的大模型发展之路”
最新评论
非常不错
测试评论
是吗
真的吗
哇,还是漂亮呢,如果这留言板做的再文艺一些就好了
感觉真的不错啊
妹子好漂亮。。。。。。
呵呵,可以好好意淫了