官方网站-首页3月10日,上海机器人初创公司智元机器人正式发布智元启元大模型GenieOperator-1(GO-1),这是中国首个通用具身基座模型。智元机器人表示,这款模型具有泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,降低了后训练成本。

据介绍,该模型开创性地提出了Vision-Language-Latent-Action(ViLLA)架构,实现了可以利用人类视频学习,完成小样本快速泛化。ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM(多模态大模型(xíng))、Latent Planner(隐(yǐn)式(shì)规(guī)划(huà)器(qì))和(hé)Action Expert(动(dòng)作(zuò)专(zhuān)家(jiā))三(sān)者(zhě)协(xié)同(tóng)工(gōng)作(zuò)。目(mù)前(qián)智(zhì)元(yuán)启(qǐ)元(yuán)大(dà)模(mó)型(xíng)已(yǐ)成(chéng)功(gōng)部(bù)署(shǔ)到(dào)智(zhì)元(yuán)多(duō)款(kuǎn)机(jī)器(qì)人(rén)本(běn)体(tǐ)。
具(jù)身(shēn)智(zhì)能(néng)(Embodied Intelligence),是(shì)指(zhǐ)一(yī)种(zhǒng)基(jī)于(yú)物(wù)理(lǐ)身(shēn)体(tǐ)进(jìn)行(xíng)感(gǎn)知(zhī)和(hé)行(xíng)动(dòng)的(de)智(zhì)能(néng)系(xì)统(tǒng),其(qí)通(tōng)过智能体与环境的交(jiāo)互(hù)获(huò)取(qǔ)信(xìn)息(xi)、理(lǐ)解(jiě)问(wèn)题(tí)、做(zuò)出(chū)决(jué)策(cè)并(bìng)实(shí)现(xiàn)行(xíng)动(dòng),从(cóng)而(ér)产(chǎn)生(shēng)智(zhì)能(néng)行(xíng)为(wèi)和(hé)适(shì)应(yīng)性(xìng)。机(jī)器(qì)人(rén)便(biàn)是(shì)具(jù)身(shēn)智(zhì)能(néng)的(de)代(dài)表(biǎo)产(chǎn)品(pǐn)之(zhī)一(yī)。实(shí)现(xiàn)具(jù)身(shēn)智(zhì)能(néng),更(gèng)强(qiáng)调(diào)机(jī)器人与物理世界的(de)直(zhí)接(jiē)交(jiāo)互,需要处理视觉(jué)、听(tīng)觉、触觉、运动等多种模态的数据,并将感知、决策和行动紧密结合。
2024年年底,智元机器人曾发布AgiBot World 百万真机数据集,尽管AgiBot World 数据集已经是目前最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为了解决具身智能数据困境,智元机器人此次采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner(隐式规划器)预测这些Latent Actions(隐式动作),从而将异构数据源中真实世界的动作知识转移到通用操作任务中。
智元机器人表示,通过ViLLA 创新性架构,智元机器人在五种不同复杂度任务上(shàng)测(cè)试(shì) GO-1大(dà)模型,相比已有的最优模型,GO-1平均成功率提高了32%。其中在“Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务中表现突出。此外,GO-1大模型还可以搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,“越用越聪明”。
北航机器人研究所名誉所长、中关村智友研究院院长王田苗此前在接受澎湃科技采访时提到,大模型对人形机器人的核心贡献在于实现类似人类的交互、推理和环境适应能力。然而,目前仍存在理论和技术挑战。比如,通用大模型在算法选择上,是监督学习、强化学习,还是端到端学习或者模拟学习,这些都在探索中。
智元机器人方表示,大语言模型是数字世界、单模态的,具身智能需要处理多模态物理世界的数据,包括图像、视频、传感器数据等。大模型对这些非文本数据的理解和处理能力有限,无法满足具身智能对多模态数据融合的需求。智元启元大模型采用的Vision-Language-Latent-Action(ViLLA)架构,能够更好地满足具身智能对多模态数据融合和物理世界交互的需求。
不过,一位向具身智能机器人提供基础场景数据和解决方案的从业人员认为,目前具身基座模型的“通用性”都有待验证,很难评价。在他看来,智元此次发布的大模型大概率是在其自产的机器人上搭载,其他机器人能用到什么程度还需要更多从业者去验证。
