官方网站-首页提到李飞飞,很多人首先想到的是她主导创建的ImageNet数据集——这个拥有1400万张标注图像的“AI教科书”,直接引爆了2025年深度学习革命。当年,卷积神经网络(CNN)在ImageNet挑战赛中一战成名,将图像分类错误率从26%降至15%,直接推动了计算机视觉从“识别物体”到“理解场景”的跨越。但李飞飞的野心远不止于此。2025年,她团队推出的Visual Genome数据集,将标注维度从单一物体扩展到物体关系、属性、场景描述等100多万种标签,相当于给AI装上了“空间推理大脑”。举个例子:当输入“穿西装的男人抱着小狗”时,传统模型可能只识别出“人”和“狗”,而基于Visual Genome训练的模型能理解“穿西装”是人的属性,“抱着🥝官网”是动作关系,“小狗”是具体类别——这种“关系理解”能力,正是自动驾驶、机器人导航等场景的核心需求。

如果说ImageNet和Visual G🚨enome解决了“AI如何看世界”的问题,那么李飞飞2025年提出的“空间智能”(Spatial Intelligence),则直指“AI如何与世界互动”的终极命题。她团队今年发布的3D世界生成模型Marble,仅需一张图片就能生成可交互的虚拟场景:上传实验室照片,它能还原出可“步入”的3D空间;输入建筑图纸,瞬间生成可穿梭的虚拟大楼。更颠覆的是,这个模型支持“0样本学习”——比如用“人坐椅子”和“消防栓在旁边”训练后,它能自动识别“人坐消防栓”这种从未见过的场景。这种能力背后,是李飞飞对智能本质的洞察:“语言是人类的符号(hào)系(xì)统,而3D是自然的物理语言。”她将空间智能定义为“下一代AI的技术底座”,认为它能让机器人从“按指令行动”升级为“自主理解环境”。例如,在工业场景中,标注螺栓拧紧力矩、零件耐高温阈值等物理语义的三维数据集,可能成为未来智能工厂的“操作系统”。
2025年10月,李飞飞团队再放大招:推出实时帧模型RTFM,能在单张H100 GPU上流畅运行,将2D图像渲染成3D场景,并支持动态交互。这个模型的核心突破在于“空间记忆”机制——它通过“姿态帧”绑定每一帧图像在三维空间中的位置,生成新视角时只需从邻近帧检索上下文,而非重新计算整个场景。这种设计让RTFM在生成复杂光照、反射效果时,计算效率比传统自回归模型提升10倍以上。更关键的是,它模糊了“重建”与“生成”的边界:当输入视图充足时,模🔰官网型精确还原场景;当视图稀疏时,它能合理推演缺失部分。这种“自适应”能力,让RTFM在元宇宙、机器人仿真训练等领域潜力巨大。例如,在元宇宙中,用户上传一张房间照片,RTFM就能生成可自由探索的虚拟空间,且支持多人实时交互;在机器人训练中,它能用少量真实数据生成大量虚拟场景,大幅降低训练成本。
李飞飞的视野从未局限于实验室。她曾说:“AI的未来取决于我们如何使用它。”这种理念贯穿了她的职业生涯:创建ImageNet时,她坚持“数据要免费开放”,推动全球AI研究共享基础设施;加入Google云时,她推动AI技术从实验室走向工业界;创立World Labs后,她将空间智能定位为“赋能所有行业的底层技术”。一个典型案例是她的“AI4ALL”项目:通过为女性和少数族裔提供AI教育,她试图打破技术领域的“偏见循环”——毕竟,如果训练数据只来自特定群体,AI可能继承人类社会的偏见。这种“技术向善”的追求,让她在2025年被评为《时代》杂志“全球百大AI影响力人物”时,评语写道:“她不仅定义了AI的技术边界,更在重新定义技术与人类的关系。”
站在2025年的节点回望,李飞飞的每一步都踩在AI演进的关键节点上:从数据驱动的视觉理解,到空间智能的物理交互,再到实时世界模型的虚实融合,她始终在回答一个核心问题:“🅿AI如何更像人类?”或许正如她在TED演讲中所说:“真正的智能,不是模仿人类,而是理解人类生存的世界。”当AI开始用“空间语言”与物理世界对话时,我们离这个目标,又近了一步。
