【今日要闻】多模态大模型与技术革新：从视觉交互到空间计算的深度探索-（南京）软件科技有限公司

动态行业资讯

动态

【今日要闻】多模态大模型与技术革新：从视觉交互到空间计算的深度探索

发布时间：2025-05-04 16:00:53 阅读量: 425

近(jìn)期(qī)必(bì)看(kàn)的(de)多(duō)模(mó)态(tài)大(dà)模(mó)型(xíng)进(jìn)展(zhǎn)：从(cóng)Qwen2-VL到(dào)Pixtral

近(jìn)期(qī)必(bì)看(kàn)的(de)多(duō)模(mó)态(tài)大(dà)模(mó)型(xíng)进(jìn)展(zhǎn)：从(cóng)Qwen2-VL到(dào)Pixtral本(běn)文总(zǒng)结(jié)了(le)近(jìn)期(qī)一(yī)些(xiē)备(bèi)受(shòu)关注(zhù)得(de)多(duō)模(mó)态(tài)大(dà)模(mó)型(xíng)相(xiāng)关工(gōng)作(zuò)，包(bāo)括(kuò)每(měi)个(gè)模(mó)型(xíng)得(de)主要(yào)技(jì)术(shù)框(kuāng)架(jià)，训(xun)练(liàn)数(shù)据(jù)和(hé)最(zuì)终(zhōng)表(biǎo)现(xiàn)等(děng)。阿(ā)里(lǐ)千(qiān)🔺·问(wèn)：Qwen2-VL 1.1 核(hé)心(xīn)方(fāng)法(fǎ) Qwen2-VL 的(de)架(jià)构(gòu)保(bǎo)留(liú)了(le) Qwen-VL 的(de)框(kuāng)架(jià)，结(jié)合(hé)了(le)视(shì)觉(jué)编(biān)码(mǎ)器(qì)和(hé)语(yǔ)言(yán)模(mó)型(xíng)，并(bìng)在(zài)此(cǐ)基(jī)础(chǔ)上(shàng)做(zuò)了(le)若(ruò)干重(zhòng)要(yào)的(de)改(gǎi)进(jìn)：视(shì)觉(jué)编(biān)码(mǎ)器(qì)：使(shǐ)用(yòng)了(le) Vision Transformer（ViT）架(jià)构(gòu)，具(jù)有(yǒu)约(yuē) 6.75 亿(yì)参(cān)数(shù)，能(néng)够(gòu)处(chù)理(lǐ)图(tú)像(xiàng)和(hé)视(shì)频(pín)输(shū)入(rù)。Naive Dynamic Re。

多模态大模型与技术革新：从视觉交互到空间计算的深度探索

万字长文解构中国如何复刻 Sora：模型架构、参数规模、数据规模、训练成本

一🈴·般而言，一个多模态处理数据系统大概分为三大模块或步骤： Tokenizer/Encoder（分词或编码器）：通过在空间和时间维度上压缩视频数据来获得隐含表示（Latent Representation），然后切块（Patchify），即把隐含表示单元化为“时空切片”（Spacetime Patches）。这里的 Patch 就是大家常说的 Token，数据处理的原子性单位。注意，每一个 Visual Token 的具体数值可以是离散表示（可以用 VQ-VAE），也可以是连。

一周解一惑系列：机器人x具身智能的再思考

双目立体视觉系统具有实现成本低、硬件简单的优点，但在处理纹理较少或光照复杂的场景🐞时，可能会导致匹配不准确，从而影响深度计算的精度。多目视觉成像：多目视觉成像，也称为多视点立体成像，进一步扩展了双目视觉的概念，使用多个相机或单个相机从多个不同的视点采集目标场景的多幅图像，以提高三维重建的精度和完整性。通过从多个角度拍摄同一物体，多目视觉系统可以获得更丰富的视差信息，并减少因(yīn)遮(zhē)挡(dǎng)导(dǎo)致(zhì)的(de)信(xìn)息(xi)缺(quē)失(shī)。多(duō)目(mù)立(lì)体(tǐ)视(shì)觉(jué)的(de)核(hé)心(xīn)在(zài)于(yú)精(jīng)确(què)的(de)相(xiāng)机(jī)标(biāo)定(dìng)和(hé)视(shì)图(tú)几(jǐ)何(hé)关系(xì)计(jì)算(suàn)，通(tōng)过(guò)精(jīng)确(què)标(biāo)定(dìng)多(duō)个(gè)相(xiāng)机(jī)的(de)位(wèi)置(zhì)、姿(zī)。

原(yuán)创(chuàng)｜空(kōng)间(jiān)计(jì)算(suàn)技(jì)术(shù)：基(jī)于(yú)三(sān)维(wéi)视(shì)觉(jué)的(de)感(gǎn)知(zhī)交(jiāo)互(hù)计(jì)算(suàn)新(xīn)范(fàn)式(shì)

主动(dòng)视(shì)觉(jué)法(fǎ)通(tōng)过(guò)向(xiàng)场(chǎng)景(jǐng)🍎中(zhōng)发(fā)射(shè)结(jié)构(gòu)光(guāng)源(yuán)，再(zài)计(jì)算(suàn)测(cè)量(liàng)光(guāng)源(yuán)在(zài)场(chǎng)景(jǐng)中(zhōng)的(de)投(tóu)影(yǐng)信(xìn)息(xi)来(lái)检测目标位置，涉及的主要技术包括结构光法、TOF（时间飞跃）法、三角测距法等。被动式则是通过传感器获取外界光源的反射信息进行三维场景测量，被动视觉法根据摄像机数目的不同分为单目视觉法、双目视觉法和多目视觉法。空间数据管理技术主要包括数据存储管理技术、数据高效检索技术、数据可视化支撑技术及数据安全技术四方面。由于数据资产管理和大量多维分析计算能力的需求，海量多模空间数据需要入库统管，并提供原生数据类型、多模数。