官方网站-首页官方网站-首页

动态

美团计算机视觉新突破

发布时间:2025-12-02 04:01:38       阅读量: 214

美(měi)团(tuán)计(jì)算(suàn)机(jī)视(shì)觉(jué):从(cóng)街(jiē)景(jǐng)分(fēn)割(gē)到(dào)数(shù)字(zì)人(rén)驱(qū)动(dòng)的(de)全方(fāng)位(wèi)突(tū)破(pò)

2025年(nián)的(de)计(jì)算(suàn)机(jī)视(shì)觉(jué)领(lǐng)域,美(měi)团(tuán)正(zhèng)以(yǐ)“黑(hēi)马(mǎ)”姿(zī)态(tài)搅(jiǎo)动(dòng)行(xíng)业(yè)格(gé)局(jú)。从(cóng)CVPR(国(guó)际(jì)计(jì)算(suàn)机(jī)视(shì)觉(jué)与(yǔ)模(mó)式(shì)识(shi)别(bié)会(huì)议(yì))到(dào)NeurIPS(神(shén)经(jīng)信(xìn)息(xi)处(chù)理(lǐ)系(xì)统(tǒng)大(dà)会(huì)),这(zhè)家(jiā)以(yǐ)本(běn)地(de)生(shēng)活(huó)服(fú)务(wu)起(qǐ)家(jiā)的(de)企(qǐ)业(yè),接(jiē)连(lián)抛(pāo)出(chū)重(zhòng)磅(bàng)技(jì)术(shù)成(chéng)果(guǒ):街(jiē)景(jǐng)分(fēn)割(gē)技(jì)术(shù)斩(zhǎn)获(huò)国(guó)际(jì)竞(jìng)赛(sài)冠(guān)军(jūn)、数(shù)字(zì)人(rén)生(shēng)成(chéng)模(mó)型(xíng)实(shí)现(xiàn)“自(zì)由(yóu)🍍登录文本(běn)定(dìng)制(zhì)”、多(duō)模(mó)态(tài)大模型突破长视频理解瓶颈……这些突破不仅刷新了技术天花板,更揭示了一个核心趋势——计算机视觉正在从实验室走向真实生活场景,而美团的探索路径,或许能为行业提供一份“从技术到落地”的参考答案。

美团计算机视觉新突破

街景分割:无人配送的“眼睛”如何进化?

在CVPR 2025的竞赛中,美团技术团队凭借街景理解中的视觉分割技术,一举拿下两项冠军。这项技术的核心目标,是让无人配送车在复杂城市环境中“看得更准、反应更快”。传统分割模型常面临两大难题:一是小目标(如行人、交通标志)识别率低,二是实时性能不足(延迟超过200毫秒)。美团的解决方案是“混合架构+数据增强”:通过卷积神经网络(CNN)提🎨登录取基础特征,再结合Transformer架构捕捉长距离依赖关系,同时利用合成数据训练模型对极端天气、光照变化的适应性。最终,模型在测试集上的平均精度(mAP)达到92.3%,较前代提升17%,且推理速度压缩至85毫秒,直接支撑了北京、上海等城市的无人配送规模化运营——截至2025年第三季度,美团无人配送车累计完成订单量突破1.2亿单,事故率较人工配送下降63%。

这一突破的背后,是美团对“垂直场景深度优化”的坚持。与阿里、百度等巨头“通用模型+多场景覆盖”的策略不同,美团选择将80%的研发资源聚焦于本地生活场景,例如通过分析外卖订单数据,预训练模型对餐厅招牌、菜品图片的识别能力。这种“数据-模型-业务”的闭环飞轮,让技术落地效率提升了3倍——从实验室成果到上线应用,平均周期从6个月缩短至2个月。

数字人生成:从“固定角色”到“自由定制”的跨越

如果说街景分割是美团在“看得见”领域的突破,那么数字人技术则展现了其“看得懂、会互动”的能力。在CVPR 2025上,美团提出的CustomListener模型引发关注:用户只需输入一段自由文本(如“一位戴眼镜、性格幽默的餐厅服务员”),模型即可生成符合描述的数字人形象,并实时根据对话内容调整表情、动作。这一技术突破了传统数字人“预设角色库”的限制,将用户定制化需求满足率从30%提升至89%。

更值得关注的是其商业落地场景。美团将CustomListener应用于外卖客服系统,试点数据显示,用户对数字人客服的满意度达到82%,较传统语音客服提升27个百分点。背后的技术逻辑在于“多模态感知融合”:模型不仅分析用户语音的语义,还通过声纹识别情绪(如愤怒、焦虑),进而调整数字人的回应策略(如加快语速、增加安抚话术)。这种“有温度的交互”,正在重塑本地生活服务的用户体验——据美团内部测算,数字人客服的引入,使单日咨询处理量从120万次提升至280万次,而人力成本下降41%。

多模态大模型:从“单帧理解”到“长视频推理”的升级

2025年的计算机视觉领域,“多模态”已成为核心关键词。美团在NeurIPS 2025上发布的DisTime框架,正是这一趋势的典型代表。传统视频理解模型常面临两大痛点:一是时间维度信息丢失(如难以区分“打开冰箱门”和“关闭冰箱门”),二是长视频推理效率低(处理10分钟视频需30秒以上)。DisTime的解决方案是“时间标记+分布解码”:通过为视频帧分配连续时间嵌入,构建时间概率分布,使模型能精准捕捉动作的起始、持续和结束节点。实验数据显示,在ActivityNet-Caption数据集上,DisTime的时间定位误差(Time Error)较前代模型降低58%,且处理10分钟视频仅需8.2秒,📀效率提升3倍。

这一技术的价值,在于为本地生活服务打开了“视频内容理解”的新场景。例如,美团正在测试将DisTime应用于“商家视频审核”:模型可自动识别视频中的违规内容(如虚假宣传、食品安全问题),审核效率较人工提升20倍;同时,通过分析用户观看视频时的注意力焦点(如停留时长、重复播放片段),优化商家视频的剪辑策略,使订单转化率提升15%。更长远来看,多模态大模型与美团“零售+科技”战略的深度融合,或将催生“视频搜索购物”“AR试妆试衣”等创新应用,重新定义本地生活的交互方式。

技术突破背后:美团的“非典型”AI战略

美团的计算机视觉突破,并非偶然。回顾其AI布局,有三个关键决策值得关注:一是“垂直场景优先”——不同于阿里、百度构建通用AI生态,美团将80%的研发资源投入本地生活领域,通过“小场景、高频率、强反馈”的数据积累,快速迭代模型;二是“开源生态共建”——2025年密集发布的LongCat系列大模型(如LongCat-Flash-Omni支持128🔻K tokens上下文窗口)全部开源,吸引全球开发者参与优化,目前GitHub星标数已突破1.2万,形成“技术-社区-业务”的正向循环;三是“硬件协同创新”——美团与芯片厂商联合研发专用AI加速卡,将模型推理能耗降低60%,使边缘设备(如无人配送车、智能摄像头)的部署成本下降45%。

这些策略的成效已体现在财报中:2025年第三季度,美团AI相关业务收入达87亿元,同比增长213%,占集团总营收的比重从3%提升至12%。更深远的影响在于,美团正从“本地生活服务平台”进化为“生活服务AI基础设施提供商”——其技术中台已开放给餐饮、零售、酒店等行业的200万家商户,帮助后者实现数字化升级。正如美团CEO王兴所言:“AI不是选择题,而是生存题。我们必须用技术重构每一个服务环节,才能在未来竞争中活下去。”

从街景分割到数字人驱动,从单帧理解到长视频推理,美团的计算机视觉突破,不仅展现了技术落地的想象力,更揭示了一个真理:在AI时代,真正的创新不在于参数规模的大小,而在于能否找到技术与场景的“化学反应点”。当其他企业还在追逐“通用大模型”的幻影时,美团已用一组组数据证明:垂直场景的深度优化,或许才是AI商业化的最优解。

为了您更好的体验,请竖屏浏览
为了您更好的体验,请竖屏浏览。