今日科普|李飞飞引领视觉新篇-（南京）软件科技有限公司

动态行业资讯

动态

今日科普|李飞飞引领视觉新篇

发布时间：2025-12-08 12:01:30 阅读量: 204

从ImageNet到视觉基因组：数据驱动的视觉革命

提到李飞飞，很多人首先想到的是她主导创建的ImageNet数据集——这个拥有1400万张标注图像的“AI教科书”，直接引爆了2025年深度学习革命。当年，卷积神经网络（CNN）在ImageNet挑战赛中一战成名，将图像分类错误率从26%降至15%，直接推动了计算机视觉从“识别物体”到“理解场景”的跨越。但李飞飞的野心远不止于此。2025年，她团队推出的Visual Genome数据集，将标注维度从单一物体扩展到物体关系、属性、场景描述等100多万种标签，相当于给AI装上了“空间推理大脑”。举个例子：当输入“穿西装的男人抱着小狗”时，传统模型可能只识别出“人”和“狗”，而基于Visual Genome训练的模型能理解“穿西装”是人的属性，“抱着🥝官网”是动作关系，“小狗”是具体类别——这种“关系理解”能力，正是自动驾驶、机器人导航等场景的核心需求。

李飞飞引领视觉新篇

空间智能：AI从“看图说话”到“动手做事”

如果说ImageNet和Visual G🚨enome解决了“AI如何看世界”的问题，那么李飞飞2025年提出的“空间智能”（Spatial Intelligence），则直指“AI如何与世界互动”的终极命题。她团队今年发布的3D世界生成模型Marble，仅需一张图片就能生成可交互的虚拟场景：上传实验室照片，它能还原出可“步入”的3D空间；输入建筑图纸，瞬间生成可穿梭的虚拟大楼。更颠覆的是，这个模型支持“0样本学习”——比如用“人坐椅子”和“消防栓在旁边”训练后，它能自动识别“人坐消防栓”这种从未见过的场景。这种能力背后，是李飞飞对智能本质的洞察：“语言是人类的符号(hào)系(xì)统，而3D是自然的物理语言。”她将空间智能定义为“下一代AI的技术底座”，认为它能让机器人从“按指令行动”升级为“自主理解环境”。例如，在工业场景中，标注螺栓拧紧力矩、零件耐高温阈值等物理语义的三维数据集，可能成为未来智能工厂的“操作系统”。

实时世界模型：AI的“空间记忆”突破

2025年10月，李飞飞团队再放大招：推出实时帧模型RTFM，能在单张H100 GPU上流畅运行，将2D图像渲染成3D场景，并支持动态交互。这个模型的核心突破在于“空间记忆”机制——它通过“姿态帧”绑定每一帧图像在三维空间中的位置，生成新视角时只需从邻近帧检索上下文，而非重新计算整个场景。这种设计让RTFM在生成复杂光照、反射效果时，计算效率比传统自回归模型提升10倍以上。更关键的是，它模糊了“重建”与“生成”的边界：当输入视图充足时，模🔰官网型精确还原场景；当视图稀疏时，它能合理推演缺失部分。这种“自适应”能力，让RTFM在元宇宙、机器人仿真训练等领域潜力巨大。例如，在元宇宙中，用户上传一张房间照片，RTFM就能生成可自由探索的虚拟空间，且支持多人实时交互；在机器人训练中，它能用少量真实数据生成大量虚拟场景，大幅降低训练成本。

从学术到产业：李飞飞的“技术普惠”哲学

李飞飞的视野从未局限于实验室。她曾说：“AI的未来取决于我们如何使用它。”这种理念贯穿了她的职业生涯：创建ImageNet时，她坚持“数据要免费开放”，推动全球AI研究共享基础设施；加入Google云时，她推动AI技术从实验室走向工业界；创立World Labs后，她将空间智能定位为“赋能所有行业的底层技术”。一个典型案例是她的“AI4ALL”项目：通过为女性和少数族裔提供AI教育，她试图打破技术领域的“偏见循环”——毕竟，如果训练数据只来自特定群体，AI可能继承人类社会的偏见。这种“技术向善”的追求，让她在2025年被评为《时代》杂志“全球百大AI影响力人物”时，评语写道：“她不仅定义了AI的技术边界，更在重新定义技术与人类的关系。”

站在2025年的节点回望，李飞飞的每一步都踩在AI演进的关键节点上：从数据驱动的视觉理解，到空间智能的物理交互，再到实时世界模型的虚实融合，她始终在回答一个核心问题：“🅿AI如何更像人类？”或许正如她在TED演讲中所说：“真正的智能，不是模仿人类，而是理解人类生存的世界。”当AI开始用“空间语言”与物理世界对话时，我们离这个目标，又近了一步。