官方网站-首页【导语】人形机器人正加速从“看着酷”迈向“真能干”的新阶段。在2025世界人工智能大会(WAIC)期间,行业专家与领军企业代表围绕具身智能机器人的技术进展与应用落地展开深入探讨。从马拉松赛场到工厂流水线,人形机器人正不断突破技术边界,逐步展现其在多场景下的实际应用潜力。未来半年,随着技术水平的进一步提升与场景的持续拓展,人形机器人有望在更多领域实现商业化落地,开启智能机器时代的新篇章。
从“看着酷”到“真能干”,如今人形机器人正在加速“进场打(dǎ)工(gōng)”。从(cóng)2025年(nián)上(shàng)半(bàn)年(nián)开(kāi)始(shǐ),它(tā)们(men)陆续经历了马拉松比赛、格斗擂台赛等运动赛事。如今,随着具身智能技术的蓬勃发展,机器人已经开始走向真实的工厂流水线。在本次2025世界人工智能大会(WAIC)期间,澎湃科技(www.thepaper.cn)与蚂蚁灵波科技技术副总裁、资深技术专家王志勇、智元机器人通用业务部副总裁王闯、上汽通用动力科技有限公司智能设备高级技术经理徐啸顺,深入探讨具身智能机器人如何实现从表演到落地的跨越。
以下是对谈实录:
整体技术水平提升,尤其遥操作和运动能力
澎湃科技:和去年相比,大家觉得今年大会有哪些亮点?
徐啸顺(shùn):去(qù)年(nián)大(dà)会(huì)人(rén)形(xíng)机(jī)器(qì)人(rén)品(pǐn)牌(pái)众(zhòng)多(duō),但(dàn)不(bù)像(xiàng)今(jīn)年(nián)蓬(péng)勃(bó)发(fā)展(zhǎn),特(tè)别(bié)令(lìng)我(wǒ)惊(jīng)讶(yà)和(hé)欣(xīn)喜(xǐ)。今(jīn)年(nián)整(zhěng)体(tǐ)展(zhǎn)厅(tīng)非(fēi)常(cháng)充(chōng)实(shí),比(bǐ)如(rú)智(zhì)元(yuán)把(bǎ)整(zhěng)个(gè)工(gōng)厂(chǎng)产(chǎn)线(xiàn)搬到现场。以前这些机器人可能只会走路、挥挥手,但现在搭载上好的大模型和视觉能力,不仅会走路,还会做一些复杂动作。
王志勇:今年有一个特别明显的感受,去年的人形机器人只有18家左右,而今年整个H3展馆几乎被人形机器人“占领”,产业的发展速度确实让人非常惊喜。另外,作为人形机器人行业多年的观察者,可以明显感觉到技术水平整体提升,尤其在遥操作相关技(jì)术(shù)和(hé)运(yùn)动(dòng)能力。去年不少机器人还需要外部支架辅助,现在大部分已经可以自主行走了。
澎湃科技:回顾上半年人形机器人的表现,你们给它的表现打多少分?
徐啸顺:要(yào)分(fēn)不(bù)同(tóng)应(yīng)用(yòng)场(chǎng)景(jǐng),在娱乐和运动场景,人形机器人的表现8到9分(满分10分)。像马拉松项目,已经创下了世界纪录,基本只需要一两次充电或更换电池,就能跑完整个全程,这在以前是难以想象的。整体来看,进步非常显著。在工业物流等其他应用场景,我给到7分甚至以上。
王志勇:从提供情绪价值视角来看,从宇树机器人上春晚开始到现在,进步非常明显。但从另外一个角度,进场打工或执行具体任务角度来讲,可能打7分有点乐观,整体还比较早期。
王闯:我认为站在未来看,可能是60分。但在今天看,首次工厂常态化作业直播,我可以打100分。
这次在人工智能大会上的直播,我们有两个关键词,一是具身智能,二是常态化。为什么两者同时达到会这么难?人形机器人厂商做了这么多年,从来没有具身智能进入工厂常态化作业。
以前我们看到很多机器人进厂打工演示,周围都贴满了二维码,而且是改造的环境,并不是真正意义上的工厂,机器人其实并不具备真正进入工厂生产线的能力。越复杂的系统出错的可能性就越多,要实现长时间稳定运行的。难度也就越大。
澎湃科技:机器人在车间工作时具体会面临哪些实际挑战?
徐啸顺:我们车间主要从事新能源汽车的生产。整体来看,工厂布局非常工整、产线和工艺流程都经过明(míng)确的规划,这其实为机器人提供了比较理想的工作环境。但即使这样,还是会有一些挑战和变化点。
像智元这类机器人产品已经(jīng)具(jù)备(bèi)了(le)一(yī)定(dìng)程(chéng)度(dù)的(de)适(shì)应(yīng)能(néng)力(lì),例(lì)如(rú)能(néng)处(chù)理(lǐ)箱(xiāng)子(zi)摆(bǎi)放(fàng)位(wèi)置(zhì)和(hé)规(guī)格(gé)的(de)变(biàn)化(huà),这(zhè)些(xiē)都(dōu)已(yǐ)经(jīng)在(zài)它(tā)们(men)的程序中被考虑进去。
我们认为近期应该会出现一些试运行成功的案例,未来人形机器人实现更大规模落地推广,是可预见的趋势。据我了解,今年年底或明年初,就会有一批不同场景的试用项目陆续落地,包括在车企和物流企业的多个工位中正式运行。
“具身智能行业还处于早期阶段”
澎湃科技:今年蚂蚁集团开始官宣入局布局聚生智能,请王总来透露一下目前的进展。
王志勇:简单说一下我们的进展,我们计划在今年9月会有机器人产品面世,我们研发节奏比较快,整个行业大势也在这里,我们不能等。
澎湃科技:我也很想问问智元的王总,您感觉到现在具身智能的竞争已(yǐ)经开始进入白热化的阶段了吗?
王闯:现在还不到白热化的阶段,现在是万物生长的阶段。所有的从业者我都不想称为竞争对手,现在是一起去探索航道的时期。如果这个航道已经完全被挖掘出来了,只有存量竞争的时候,那时可能才是白热化。
现在还处于非常早期的阶段,还没有哪个公司敢说我的技术范式是以后永远不变的,我们只是稍微在量产和商业化的地方走得靠前,但我不认为现在到了竞争白热化的程度。
澎湃科技:你接下来会期待看到哪些应用场景的出现?
王闯:从我内心深处,包括身边很多亲朋好友问得最多的是养老。养老产品(pǐn)是(shì)大(dà)家(jiā)最(zuì)值(zhí)得(de)期(qī)待(dài)的(de)。但(dàn)我(wǒ)们(men)也(yě)同(tóng)时(shí)在(zài)思(sī)考(kǎo),机(jī)器(qì)人(rén)真(zhēn)正(zhèng)走(zǒu)进(jìn)家(jiā)庭(tíng),对机器人的泛化性技术、执行任务的成功率、 安全性、成本要求都特别高。
我们希望机器人能先在有限场景里把任务“做好做透”。我们的目标是把机器人执行任务的成功率提升至99.9%。我们设想的技术路线是先易后难,把机器人本体规模化和成本优化好,为机器人进入家庭做准备,这一定是一个巨大的市场。
重点突破两个方向:交互智能和作业智能
澎湃科技:各位认为,对于人形机器人行业内是看热闹更多,还是应用更多一些?
徐啸顺:专业用户还是在意人形机器人的应用落地。大家可能会掐着时间节点,比如今年年底或者到明年年初先把一些应用试运行跑起来,总结问题去更好地实现技术迭代。
看热闹的话,可能会把注意力都放在大型活动上,人形机器人去表演、互动,这也有好处,可以增加产品硬件打磨。毕竟只有人形机器人出货量大了,才有可能实现降本和产业链的优化发展。
王志勇:首先,人形机器人“表演秀”为观众提供情绪价值,肯定有价值。但在我们研发路径上,还是会更关注具体落地。我们现在大部分的精力也集中在把机器人的本体技术打磨好、做扎实,然后在一些特定的场景下让它跑起来,之后在逐步泛化。这个市场很热闹,我认为行业内的人要冷静。
王闯:情(qíng)绪价值和注意力经济也有价值,机器人有一部分场景是为情绪价值服务的。现在机器人(rén)的(de)能(néng)力(lì)是(shì)在持续增长的。我们把它定义为一个本体加三个智能。
本体的成熟度现在进步非常快,运动智能也取得不错的进展。在展台上,机器人可以在现场巡馆巡展、跳(tiào)舞(wǔ)等(děng)互(hù)动(dòng),这(zhè)些(xiē)都(dōu)说(shuō)明(míng)它(tā)的(de)运(yùn)动(dòng)智(zhì)能(néng)逐(zhú)步(bù)完(wán)善(shàn)。
但(dàn)要(yào)真(zhēn)正(zhèng)让(ràng)产(chǎn)品(pǐn)开(kāi)发(fā)出(chū)用(yòng)户(hù)价(jià)值(zhí),还(hái)需(xū)要(yào)重(zhòng)点(diǎn)突(tū)破(pò)两(liǎng)个(gè)方(fāng)向(xiàng):交(jiāo)互(hù)智(zhì)能(néng)和(hé)作(zuò)业(yè)智(zhì)能(néng)。
作业智能即让机器人(rén)“干(gàn)活(huó)”的(de)能(néng)力(lì),这(zhè)是(shì)一(yī)条(tiáo)更(gèng)长(zhǎng)的(de)路,而(ér)交(jiāo)互(hù)智(zhì)能(néng)相(xiāng)对(duì)见(jiàn)效(xiào)更(gèng)快(kuài),能(néng)更(gèng)快(kuài)地(de)让(ràng)大(dà)家(jiā)感(gǎn)受(shòu)到(dào)人(rén)形(xíng)机(jī)器(qì)人(rén)的(de)价(jià)值(zhí),这(zhè)只(zhǐ)是(shì)第(dì)一(yī)步;在我看来,在机器人发展初期阶段,只要是客户愿意买单,有实际价值的功能,都值得去做。
机器人遥控操作可做业务兜底
澎湃科技:徐总你们作为应用方,你们会比较看重机器人哪方面的作业智能?
徐啸顺:对应到机器人,一方面是稳定性,不能突然有意想不到的动作和程序有突发状况;另一方面是机器人对整体的场景适配程度。
现在我们很多工作集中在消除用户或使用人员对机器人产品的理解差距。这个过程可(kě)能(néng)还(hái)有(yǒu)点(diǎn)困(kùn)难(nán)。
从(cóng)效(xiào)率(lǜ)来(lái)看(kàn),现(xiàn)在(zài)人(rén)形(xíng)机(jī)器(qì)人(rén)的(de)效(xiào)率(lǜ)可(kě)能(néng)会(huì)比(bǐ)人(rén)稍(shāo)微(wēi)弱(ruò)也(yě)很(hěn)合(hé)理(lǐ)。随(suí)着(zhe)后(hòu)续(xù)产(chǎn)品(pǐn)持(chí)续(xù)优(yōu)化(huà),机(jī)器(qì)人(rén)最(zuì)终(zhōng)是(shì)可以达到甚至超越人工效率的。在一些高风险工位,机器人已经体现出明显优势。比如一些涉及带电作业的零部件,人形机器人上岗后,可以有效消除操作人员触电的风险。
王志勇:机器人参与表演秀提供情绪价值和机器人具体干活,这两者可以对应到人有两种激素,内啡肽和荷尔蒙。情绪价值像荷尔蒙,比较短暂。对人来讲,产生长久的价值还是内啡肽的价值,即能真正帮助人去解决具体问题,提供生产力。
传统的工业机器人在特定场景下做一个高精度的工作,已经比人都高效,具身智能的重点还是在于多任务、多场景的泛化能力。这点来讲,行业内还有很多挑战。
看落地,我反而认为遥操作的技术,可以做业务兜底,另外从获取数据的角度来看,遥操作也非常有用。短期来看,遥操作技术可能是对获取数据和在真实场景落地都非常重要的一个技术。长期来看,还是把智能的能力提高。 澎湃科技:其实包括现在其他品牌的机器人在展示具体操作能力时,往往仍离不开人工遥操作。很多网友也会质疑,既(jì)然(rán)还(hái)要(yào)人(rén)来(lái)操(cāo)作(zuò),那(nà)这(zhè)算(suàn)什(shén)么(me)智(zhì)能(néng)?什(shén)么(me)时(shí)候(hou)才(cái)能(néng)真(zhēn)正(zhèng)摆(bǎi)脱(tuō)遥(yáo)操(cāo)作(zuò)?王(wáng)闯(chuǎng):我(wǒ)们(men)的(de)机(jī)器人在工厂三小时的直播,全程都是机器人自主完成,后台没有任何人工干预。当然,我们也设计了兜底措施以应对极端情况。但兜底的措施并不完全依赖遥控操作。
遥控操作有两点价值:一是训练阶段对真实场景数据的要求。我们在训练环节,是需要操作数据,有一些场景需要数据驱动,需要人类教机器人怎么做,这个过程包括模仿学习和强化学习。越是精细复杂的任务,越需要更多的数据去训练。如组装类作业,仍需要真实场景中的操作数据,包括模仿学习和强化学习的过程。传感器数据的丰富度也会影响模型学习效果。
二是保障任务的稳定性。哪怕机器出错的概率只有万分之一,也不能让整条产线停摆,这个时候(hou)需(xū)要(yào)人(rén)远(yuǎn)程(chéng)遥(yáo)控(kòng)操(cāo)作(zuò)恢(huī)复(fù)。我(wǒ)们(men)也(yě)想(xiǎng)过(guò),在(zài)某(mǒu)些(xiē)商(shāng)业(yè)场(chǎng)景(jǐng)里(lǐ),遥(yáo)控(kòng)操(cāo)作(zuò)本(běn)身(shēn)也(yě)有(yǒu)实(shí)际(jì)价(jià)值(zhí),比(bǐ)如(rú)在(zài)较(jiào)为(wèi)荒(huāng)凉(liáng)的(de)地(de)方(fāng)开(kāi)小(xiǎo)卖(mài)部(bù),以(yǐ)坐(zuò)在(zài)办(bàn)公(gōng)室(shì)远(yuǎn)程(chéng)操(cāo)控(kòng)卖(mài)产(chǎn)品(pǐn)。
具(jù)身(shēn)智(zhì)能(néng)数(shù)据极度缺乏,包括触觉、深度识别
澎湃科技:经过半年的发展,机器人现在大脑和小脑成熟度分别怎么样?
王闯:我们小脑并没有用到大模型。现在我们机器人的小脑例如下肢的控制,我们用的强化学习都直接是端侧部署,并不依赖于云端的大模型。
另外,我们上肢系统也不依赖云端大模型。上肢“小脑”的运动规划也都在端侧完成。我认为目前大模型对机器人产业最大的赋能,主要体现在对环境的理解能力上。
让我惊艳的是多模态大模型的出现,它对现实世界中各种物体具备一定的理解能力,甚至有些它没见过的,也能分析。但现在大模型技术还不够成熟,机器人还做不到“看一眼就知道干什么”,也难以通过简单语言指令高效完成复杂任务。目前,带动作执行的大模型还没有出现,还没有形成既具泛化性又高成功率的通用方案。
王志勇:我认为一是模态,二是模型。
所谓模态即大模型就像人一样,有视觉、听觉、触觉、嗅觉等不同的感知能力。让具身智能有感知,传感器一定要足够多,尽可能多获取有3D深度的视觉、触觉、电子皮肤。
更关键的问题是,当模型拿到这些信息后,是否真的能驾驭好,做出好决策。有些国产车因为接收了更多模态的信息,导致内部的两套决策系统可能“打架”。比如拿到雷达信号,但没有实现有效融合,反而影响了最终判断。换句话说,模态信息越多,不一定是好事,关键是决策系统能否协同处理。
目前,从模型角度看,获得具身智能相关数据仍有很大挑战。这不像自动驾驶那样相对成熟。现在连视觉都还只是初步应用,更别说触觉和其他感知,这些数据极度缺乏。
从算法技术路线来讲,其实也没有收敛。现在VLA(视觉语言动作)这条路上有好几家在探索,但不像大模型已形成共识。所以有很多难点,路还比较长。
澎湃科技:好像多家都开始探索VLA模型路径,您能否给大家科普一下VLA模型到底是什么?
王志勇:VLA其实强调像人一样,从感知环境到自主决策并采取一定的行动。在自动驾驶领域已发展得相当不错,机器人本身VLA的模型能力还处于早期阶段。
王闯:VLA模型关键在于泛化性要求非常强。即使从未见过的场景,也能迅速做出正确的反应。它依赖大量数据构建基座能力,确保在千差万别的任务中也有成功率。
目前VLA模型的难点在于,行业内现在到底需要什么样的数据并没有形成共识,导致大家采集数据不一,此外数据量是否足够现在未有定论。这些新的数据会对VLA模型有什么影响,也暂时未知。另外从VLA模型效果来看,它与人类的泛化能力仍然有显著的差距,要实现强泛化、高成功率,这非常不容易。
还有一点必须考虑的是部署问题,模型不能无限大。真正落地时,也必须注重端侧运行能力,不能完全依赖云端。最好模型大小也是可控的,在端测功耗算力都可负担时,它最终价值才会非常大。
徐啸顺:在我们工厂环境中,质量和安全是首要考虑因素。但非专业用户很难理解模型的决策机制。这个行业里也一直在强调模型的可解释可信任可负责,包括自动驾驶也是要让模型达到可负责的程度才能完全交付。目前多模态VLA模型(视觉、语言、动作)技术尚未完全收敛,在现场部署中仍然存在一定风险。在现阶段,“能跑起来”已经很不错了,但要做到可信任可负责,可能还需要一段时间。
所以我个人认为,工业场景中更适合采用小模型或传统神经网络小模型去处理动作任务。而大模型要经历验证和完善,行业也需建立一整套评估和管理机制。
希望明年真正能做到客户直接签单
澎湃科技:这几天我注意到特斯拉在美国洛杉矶已经落地了一个无人化的服务场景,展望未来,如果我们以半年为单位来看,这类的场景会有在国内落地的可能性吗?半年之后又会有哪些变化或发展趋势?
徐啸顺:前不久,我们也和智元机器人合作,做了一些机器人的场景测试,比如用户抽盲盒、机器人递交盲盒。这个动作本身并不复杂,但如果每台机器人都能稳定地重复执行,就具备构建“汽车餐厅”这类场景的基础。这样的流程可以被拆解为一系列可控的步骤。只要产业各方共同推进,我相信在中国类似场景很快就会实现落地。
王志勇:我不太好预测明年的进展,从更长远的角度来看问题,我们在场景上希望未来机器人能够走进家庭。
王闯:特斯拉一直擅长向公众传递信息,善于制造能抓住大家眼球的内容。我们看到它宣传最多的其实是机器人倒爆米花的场景,咖啡反而较少。而在今年WAIC智元机器人的展台上,我们也展示了多台机器人为观众递送可乐、饮料等互动体验。
我们希望明年,机器人能在服务场景、作业场景中展现给大家更多价值,比如提供一些吃的,或具备更复杂的作业能力。我们把2025年定义为商业化元年,很重要的任务是跟客户一起去思考哪些场景真正有价值,而不是只放演示,我希望明年客户看上了可以直接签单。
