官方网站-首页官方网站-首页

动态

王兴兴:人形机器人规模应用的最大卡点是AI模型不够用

发布时间:2025-08-11 16:01:16       阅读量: 326

【导语】在8月9日举行的北京世界机器人大会上,宇树科技创始人、CEO王兴兴指出,智能机器人大规模应用的最大技术障碍在于AI模型。他对当前常(cháng)用(yòng)的(de)VLA模(mó)型(xíng)架(jià)构(gòu)持(chí)怀(huái)疑(yí)态(tài)度(dù),认(rèn)为(wèi)数(shù)据(jù)采集的(de)质(zhì)量(liàng)和(hé)数(shù)量(liàng)均(jūn)不(bù)足(zú),模(mó)型(xíng)需(xū)进(jìn)一(yī)步(bù)升(shēng)级(jí)优(yōu)化(huà)。王(wáng)兴(xìng)兴(xìng)提(tí)出(chū),当(dāng)机(jī)器(qì)人(rén)能(néng)在(zài)未(wèi)知(zhī)环(huán)境(jìng)中自主顺畅完成任务时,将接近“GPT时刻”。他还讨论了谷歌Veo 3视频生成模型的优势与挑战,并强调解决Scaling law对提升机器人模仿学习能力至关重要。展望未来两到五年,王兴兴认为,端到端的具身智能AI模型将是机器人技术的核心。

8月9日,宇树科技创始人、CEO王兴兴在北京举行的世界机器人大会上,谈及当前智能机器人暂时还没得到大规模应用的技术障碍时表示,最大的挑战是模型。“现在对具身智能和机器人来说,AI模型完全不够用,这也是限制当前人形机器人大规模应用最大的卡点。”此外,王兴兴对目前机器人公司选择的常用技术路线VLA模型架构持怀疑态度。

王(wáng)兴(xìng)兴(xìng)在(zài)2025世(shì)界(jiè)机(jī)器(qì)人(rén)大(dà)会(huì)上(shàng)的(de)发(fā)言(yán)

VLA模(mó)型(xíng)指(zhǐ)的(de)是(shì)Vision-Language-Action Model(视(shì)觉(jué)-语(yǔ)言-动作模型),可以把它理解为——让机器“看得懂、听得懂,并且能动起来”的一种AI模型,强调像人一样,从感知环境到自主决策并采取一定的行动。

王兴兴认为,对于VLA模型,目前在真实世界交互中,数据采集的质量和数量都不足,即便在VLA模型基础上加(jiā)入(rù)Reinforcement Learning(强(qiáng)化(huà)学(xué)习(xí)训(xun)练(liàn)),仍(réng)不(bù)够(gòu)用(yòng),模(mó)型(xíng)本(běn)身(shēn)还(hái)需(xū)要(yào)进(jìn)一(yī)步(bù)升(shēng)级(jí)和(hé)优(yōu)化(huà)。

“目(mù)前(qián)机(jī)器(qì)人(rén)大(dà)模(mó)型(xíng)类(lèi)似(shì)于(yú)处(chù)在(zài)ChatGPT出(chū)来(lái)前(qián)的(de)一(yī)到(dào)三(sān)年(nián)。”王(wáng)兴(xìng)兴(xìng)称(chēng)。

什(shén)么(me)时(shí)候(hou)才(cái)能(néng)达(dá)到(dào)机(jī)器(qì)人(rén)GPT时刻?

王兴兴认为,如果有一天,我们带一台机器人到一个它此前从未去过的环境,随便给它一个指令,譬如“把这瓶水递给某位观众”或“帮忙整理一下这个房间”,它就能顺畅、自主地完成(chéng)任(rèn)务(wu)。那(nà)时(shí)就(jiù)接(jiē)近(jìn)机器人的“GPT时刻”了。

今年5月,谷歌在I/O 开发者大会上正式发布了新的世界模型Veo 3,这是其首款能够同步生成音效(包括环境音与对话)的AI视频生成模型。

王兴兴认为,谷歌这条视频生成路线技术的收敛速度和成功概率可能会比VLA模型更高,但仍然面临还有很多挑战。其中一个主要问题是,视频生成模型过于关注画质,导致GPU消耗非常大。

另外,王兴兴指出,目前还面临的一个大问题是,如果要进一步提升机器人模仿学习的能力,必须解决Scaling law,而这一点目前行业做得并不好。“最简单的例子是,当我训练机器人执行一个新动作,比如学一支新舞或完成一项新任务时,往往需要从零开始训练,这非常低效。理想情况下,新的训练应该基于已有训练成果,让训练速度越来越快,学习新技能的效果越来越好。”

王兴兴指出,这是一个非常值得深入研究的方向,Scaling law在语言模型上的成功已经得到验证,但在机器的运动控制上,大家做的还只是刚刚开始,他建议可以关注这方面的研究。

王兴兴表示,在未来两到五年,除了更低成本、更高寿命的硬件之外,机器人的技术核心仍将是端到端的具身智能AI模型。

为了您更好的体验,请竖屏浏览
为了您更好的体验,请竖屏浏览。