美团计算机视觉新突破-（南京）软件科技有限公司

动态行业资讯

动态

美团计算机视觉新突破

发布时间：2025-12-02 04:01:38 阅读量: 214

美(měi)团(tuán)计(jì)算(suàn)机(jī)视(shì)觉(jué)：从(cóng)街(jiē)景(jǐng)分(fēn)割(gē)到(dào)数(shù)字(zì)人(rén)驱(qū)动(dòng)的(de)全方(fāng)位(wèi)突(tū)破(pò)

2025年(nián)的(de)计(jì)算(suàn)机(jī)视(shì)觉(jué)领(lǐng)域，美(měi)团(tuán)正(zhèng)以(yǐ)“黑(hēi)马(mǎ)”姿(zī)态(tài)搅(jiǎo)动(dòng)行(xíng)业(yè)格(gé)局(jú)。从(cóng)CVPR（国(guó)际(jì)计(jì)算(suàn)机(jī)视(shì)觉(jué)与(yǔ)模(mó)式(shì)识(shi)别(bié)会(huì)议(yì)）到(dào)NeurIPS（神(shén)经(jīng)信(xìn)息(xi)处(chù)理(lǐ)系(xì)统(tǒng)大(dà)会(huì)），这(zhè)家(jiā)以(yǐ)本(běn)地(de)生(shēng)活(huó)服(fú)务(wu)起(qǐ)家(jiā)的(de)企(qǐ)业(yè)，接(jiē)连(lián)抛(pāo)出(chū)重(zhòng)磅(bàng)技(jì)术(shù)成(chéng)果(guǒ)：街(jiē)景(jǐng)分(fēn)割(gē)技(jì)术(shù)斩(zhǎn)获(huò)国(guó)际(jì)竞(jìng)赛(sài)冠(guān)军(jūn)、数(shù)字(zì)人(rén)生(shēng)成(chéng)模(mó)型(xíng)实(shí)现(xiàn)“自(zì)由(yóu)🍍登录文本(běn)定(dìng)制(zhì)”、多(duō)模(mó)态(tài)大模型突破长视频理解瓶颈……这些突破不仅刷新了技术天花板，更揭示了一个核心趋势——计算机视觉正在从实验室走向真实生活场景，而美团的探索路径，或许能为行业提供一份“从技术到落地”的参考答案。

美团计算机视觉新突破

街景分割：无人配送的“眼睛”如何进化？

在CVPR 2025的竞赛中，美团技术团队凭借街景理解中的视觉分割技术，一举拿下两项冠军。这项技术的核心目标，是让无人配送车在复杂城市环境中“看得更准、反应更快”。传统分割模型常面临两大难题：一是小目标（如行人、交通标志）识别率低，二是实时性能不足（延迟超过200毫秒）。美团的解决方案是“混合架构+数据增强”：通过卷积神经网络（CNN）提🎨登录取基础特征，再结合Transformer架构捕捉长距离依赖关系，同时利用合成数据训练模型对极端天气、光照变化的适应性。最终，模型在测试集上的平均精度（mAP）达到92.3%，较前代提升17%，且推理速度压缩至85毫秒，直接支撑了北京、上海等城市的无人配送规模化运营——截至2025年第三季度，美团无人配送车累计完成订单量突破1.2亿单，事故率较人工配送下降63%。

这一突破的背后，是美团对“垂直场景深度优化”的坚持。与阿里、百度等巨头“通用模型+多场景覆盖”的策略不同，美团选择将80%的研发资源聚焦于本地生活场景，例如通过分析外卖订单数据，预训练模型对餐厅招牌、菜品图片的识别能力。这种“数据-模型-业务”的闭环飞轮，让技术落地效率提升了3倍——从实验室成果到上线应用，平均周期从6个月缩短至2个月。

数字人生成：从“固定角色”到“自由定制”的跨越

如果说街景分割是美团在“看得见”领域的突破，那么数字人技术则展现了其“看得懂、会互动”的能力。在CVPR 2025上，美团提出的CustomListener模型引发关注：用户只需输入一段自由文本（如“一位戴眼镜、性格幽默的餐厅服务员”），模型即可生成符合描述的数字人形象，并实时根据对话内容调整表情、动作。这一技术突破了传统数字人“预设角色库”的限制，将用户定制化需求满足率从30%提升至89%。

更值得关注的是其商业落地场景。美团将CustomListener应用于外卖客服系统，试点数据显示，用户对数字人客服的满意度达到82%，较传统语音客服提升27个百分点。背后的技术逻辑在于“多模态感知融合”：模型不仅分析用户语音的语义，还通过声纹识别情绪（如愤怒、焦虑），进而调整数字人的回应策略（如加快语速、增加安抚话术）。这种“有温度的交互”，正在重塑本地生活服务的用户体验——据美团内部测算，数字人客服的引入，使单日咨询处理量从120万次提升至280万次，而人力成本下降41%。

多模态大模型：从“单帧理解”到“长视频推理”的升级

2025年的计算机视觉领域，“多模态”已成为核心关键词。美团在NeurIPS 2025上发布的DisTime框架，正是这一趋势的典型代表。传统视频理解模型常面临两大痛点：一是时间维度信息丢失（如难以区分“打开冰箱门”和“关闭冰箱门”），二是长视频推理效率低（处理10分钟视频需30秒以上）。DisTime的解决方案是“时间标记+分布解码”：通过为视频帧分配连续时间嵌入，构建时间概率分布，使模型能精准捕捉动作的起始、持续和结束节点。实验数据显示，在ActivityNet-Caption数据集上，DisTime的时间定位误差（Time Error）较前代模型降低58%，且处理10分钟视频仅需8.2秒，📀效率提升3倍。

这一技术的价值，在于为本地生活服务打开了“视频内容理解”的新场景。例如，美团正在测试将DisTime应用于“商家视频审核”：模型可自动识别视频中的违规内容（如虚假宣传、食品安全问题），审核效率较人工提升20倍；同时，通过分析用户观看视频时的注意力焦点（如停留时长、重复播放片段），优化商家视频的剪辑策略，使订单转化率提升15%。更长远来看，多模态大模型与美团“零售+科技”战略的深度融合，或将催生“视频搜索购物”“AR试妆试衣”等创新应用，重新定义本地生活的交互方式。

技术突破背后：美团的“非典型”AI战略

美团的计算机视觉突破，并非偶然。回顾其AI布局，有三个关键决策值得关注：一是“垂直场景优先”——不同于阿里、百度构建通用AI生态，美团将80%的研发资源投入本地生活领域，通过“小场景、高频率、强反馈”的数据积累，快速迭代模型；二是“开源生态共建”——2025年密集发布的LongCat系列大模型（如LongCat-Flash-Omni支持128🔻K tokens上下文窗口）全部开源，吸引全球开发者参与优化，目前GitHub星标数已突破1.2万，形成“技术-社区-业务”的正向循环；三是“硬件协同创新”——美团与芯片厂商联合研发专用AI加速卡，将模型推理能耗降低60%，使边缘设备（如无人配送车、智能摄像头）的部署成本下降45%。

这些策略的成效已体现在财报中：2025年第三季度，美团AI相关业务收入达87亿元，同比增长213%，占集团总营收的比重从3%提升至12%。更深远的影响在于，美团正从“本地生活服务平台”进化为“生活服务AI基础设施提供商”——其技术中台已开放给餐饮、零售、酒店等行业的200万家商户，帮助后者实现数字化升级。正如美团CEO王兴所言：“AI不是选择题，而是生存题。我们必须用技术重构每一个服务环节，才能在未来竞争中活下去。”

从街景分割到数字人驱动，从单帧理解到长视频推理，美团的计算机视觉突破，不仅展现了技术落地的想象力，更揭示了一个真理：在AI时代，真正的创新不在于参数规模的大小，而在于能否找到技术与场景的“化学反应点”。当其他企业还在追逐“通用大模型”的幻影时，美团已用一组组数据证明：垂直场景的深度优化，或许才是AI商业化的最优解。