官方网站-首页提到计算机视觉,很多人第一反应是“人脸识别”“自动驾驶”,但新加坡国立大学(NUS)的科研团队正在把这个领域推向更前沿——从单张图片重建3D物体,到让AI同时理解、生成、编辑图像和视频,甚至⛵️登录让多智能体系统拥有“组织记忆”。2025年,NUS团队发布的Anything-3D模型,仅用一张2D图片就能生成高精度3D模型,在柯基、银翅女神像等复杂物体的重建中,准确率比传统方法提升18%。这一突破直接解决了机器人操作、虚拟现实等场景的“数据瓶颈”——毕竟,现实中可没有现成的3D标注数据供AI学习。

更让人惊叹的是2025年联合浙大、港中文发布的《视觉强化学习全景综述》。这篇覆盖200+研究的论文指出,视觉强化学习(RL)已从“看图说话”进化到“决策行动”:在自动驾驶GUI自动化任务中,基于RL的模型操作成功率达85%,比监督学习高35%;在医疗影像分析中,结合视觉-语言模型的AI能通过端到端训练,自发完成80%的视觉推理行为(如肿瘤定位)。这些数据背后,是NUS团队对“奖励设计”的深度优化——比如用“点击成功+文本输入正确”的组合奖励,让GUI自动化模型的错误率下降50%。
如果说单点突破是“专才”,那NUS团队2025年提出的VI✅TRON模型就是“全能选手”。这个基于大型语言模型(LLM)的框架,能同时搞定图像理解、视频生成、像素级分割和编辑四大任务。在12项任务、22个数据集的测试中,VITRON的性能甚至超越了多个领域的“专家模型”——比如在图像生成任务(wu)中(zhōng),其(qí)CLIP对(duì)齐(qí)分(fēn)数(shù)比(bǐ)传(chuán)统(tǒng)方(fāng)法(fǎ)高(gāo)17%,人(rén)类(lèi)偏(piān)好(hǎo)率(lǜ)达(dá)78%;在(zài)视(shì)频(pín)生(shēng)成(chéng)中(zhōng),时(shí)间(jiān)连(lián)贯(guàn)性(xìng)指(zhǐ)标(biāo)(FVD)降(jiàng)低(dī)30%,动(dòng)作(zuò)自(zì)然(rán)度(dù)评(píng)分(fēn)提(tí)升(shēng)25%。
这(zhè)一(yī)突(tū)破(pò)的(de)关键在(zài)于(yú)“混(hùn)合(hé)指(zhǐ)令(lìng)传(chuán)递(dì)机(jī)制(zhì)”:传(chuán)统(tǒng)模(mó)型(xíng)只(zhǐ)用(yòng)文本(běn)指(zhǐ)令(lìng)沟(gōu)通(tōng),而(ér)VITRON同(tóng)时(shí)传(chuán)递(dì)离(lí)散(sàn)文本(běn)和(hé)连(lián)续(xù)信(xìn)号(hào)嵌(qiàn)入(rù),让(ràng)后(hòu)端(duān)解(jiě)码(mǎ)模(mó)块(kuài)能(néng)更(gèng)精(jīng)准(zhǔn)地(de)执(zhí)行(xíng)任(rèn)务(wu)。举(jǔ)个(gè)例(lì)子(zi),当(dāng)用(yòng)户(hù)要(yào)求(qiú)“把(bǎ)照(zhào)片(piàn)里(lǐ)的(de)狗(gǒu)换(huàn)成(chéng)柯(kē)基(jī)”,VITRON不(bù)仅(jǐn)能(néng)识(shi)别(bié)狗(gǒu)的(de)位(wèi)置(zhì)(分(fēn)割(gē)任(rèn)务(wu)),还(hái)能(néng)生(shēng)成(chéng)符合(hé)光(guāng)影(yǐng)的(de)柯(kē)基(jī)图(tú)像(xiàng)(生(shēng)成(chéng)任(rèn)务(wu)),甚(shén)至(zhì)调(diào)整(zhěng)背(bèi)景(jǐng)比(bǐ)例(lì)让(ràng)画(huà)面(miàn)更(gèng)协(xié)调(diào)(编(biān)辑(ji)任(rèn)务(wu))。这(zhè)种(zhǒng)“一(yī)脑(nǎo)多(duō)用(yòng)”的(de)能(néng)力(lì),正(zhèng)推(tuī)动(dòng)AI从(cóng)“工(gōng)具(jù)”向(xiàng)“合(hé)作(zuò)伙(huǒ)伴(bàn)”进(jìn)化(huà)。
如(rú)果(guǒ)说(shuō)统(tǒng)一(yī)模(mó)型(xíng)是(shì)AI的(de)“个(gè)人(rén)能(néng)力(lì)”,那(nà)NUS团(tuán)队(duì)2025年(nián)在(zài)NeurIPS发(fā)布(bù)的(de)G-Memory系(xì)统(tǒng),则(zé)赋(fù)予(yǔ)了(le)AI“团(tuán)队(duì)协(xié)作(zuò)”的(de)智(zhì)慧(huì)。传(chuán)统(tǒng)多(duō)智(zhì)能(néng)体(tǐ)系(xì)统(tǒng)(MAS)像(xiàng)“健(jiàn)忘(wàng)的(de)学(xué)生(shēng)”——完(wán)成(chéng)一(yī)个(gè)任(rèn)务(wu)后(hòu),协(xié)作(zuò)中(zhōng)的(de)推(tuī)理(lǐ)轨(guǐ)迹(jī)、失(shī)败(bài)经(jīng)验(yàn)很(hěn)快(kuài)被(bèi)遗(yí)忘(wàng),无(wú)法(fǎ)指(zhǐ)导(dǎo)新(xīn)任(rèn)务(wu)。而(ér)G-Memory通(tōng)过(guò)三(sān)层(céng)图(tú)谱(pǔ)(交(jiāo)互(hù)🈁图(tú)、任(rèn)务(wu)图、洞见图)构建了“组织记忆”:智能体不仅能记录每次任务的对话和结果,还能从历史中提炼通用策略(比如“先清洁再放置”的操作顺序),甚至在新任务中主动调用相关经(jīng)验(yàn)。
实(shí)验(yàn)数(shù)据(jù)印(yìn)证(zhèng)了(le)这(zhè)一(yī)设(shè)计(jì)的(de)价(jià)值(zhí):在(zài)AutoGen等(děng)主流(liú)框(kuāng)架中集成G-Memory后,系统平均性能提升8.9%-10.7%,在Qwen2.5-14B + MacNet组合上甚至提升20.89%,而token成本仅为传统系统的70%-80%。更关键的是,智能体学会了“反思”——比如在知识问答中能主动避免“同名实体混淆”,在游戏中会先验证目标块是否可移动再操作。这种“经验驱动”的进化,或许正是通往通用人工智能(AGI)的关键一步。
从单图3D重建到统一模型,再到多智能体的组织记忆,NUS的科研轨迹揭示了一个趋势:AI正在突破“单一任务”的局限,向“跨模态、跨任务、跨场景”的通用能力演进。但挑战依然存在——比如视觉强化学习的样本效率问题(部分任务需要数百万次训练才能收敛),比如统一模型在长视频生成中的逻辑一致性(目前最长只能稳定生成20秒连贯视频),再比如多智能体记忆系统的隐私保护(如何防止敏感任务数据被滥用)。
作为普通用户,我们或许更关心这些技术何时能落地。其实,NUS的研究早已渗透到生活:比如用Anything-3D技术快速生成3D家具模型供室内设计参考,用VITRON自动剪辑旅行视频并添加特效,用G-Memory优化的客服系统能记住用户偏好(hǎo),提(tí)供(gōng)更(gèng)个(gè)性(xìng)化(huà)的(de)服(fú)务(wu)。未(wèi)来(lái),随(suí)着(zhe)算(suàn)法(fǎ)效(xiào)率(lǜ)的(de)提(tí)升(shēng)和(hé)计(jì)算(suàn)成(chéng)本(běn)的(de)下(xià)降(jiàng),这(zhè)些(xiē)“黑(hēi)科(kē)技(jì)”或(huò)许(xǔ)会(huì)像(xiàng)今(jīn)天(tiān)的(de)手(shǒu)机(jī)摄像头一样,成为我们生活的“基础设施”。而NUS的探索,正是这场变革🔵登录的“发动机”之一。
