斯坦福2025 AI指数出炉！中美AI终极对决差距仅剩0.3%，DeepSeek领衔-（南京）软件科技有限公司

动态行业资讯

动态

斯坦福2025 AI指数出炉！中美AI终极对决差距仅剩0.3%，DeepSeek领衔

发布时间：2025-04-09 12:30:40 阅读量: 445

【导语】斯坦福大学发布的2025年AI指数报告震撼出炉，全面剖析了全球AI领域的最新趋势。报告显示，中美顶级AI模型的性能差距已缩至0.3%，中国模型正以DeepSeek等为代表快速崛起。同时，AI推理成本大幅下降，小模型性能飙升，AI正变得更加高效且普惠。这份456页的重磅报告，不仅揭示了AI性能的再攀高峰，还展现了AI在科技、教育、日常生活等领域的广泛应用与挑战，为全球AI发展描绘了一幅波澜壮阔的图景。

新智元报道

编辑：编辑部

【新智元导读】2025年斯坦福HAI报告重磅发布，456页深度剖析全球AI领域的最新趋势：中美顶级模型性能差距缩至0.3%，以DeepSeek为代表的模型强势崛起，逼近闭源巨头；推理成本暴降，小模型性能飙升，AI正变得更高效、更普惠。

就在刚刚，每年都备受瞩目的斯坦福AI指数报告，重磅发布了！

这份报告由斯坦福大学以人为本AI研究员发布，代表着每年AI领域最核心和前沿的动向总结。

今年，这份报告长达456页，抛出不少惊人观点。

比如，如今在2025年，中美顶级AI模型的性能差距已经缩小到了0.3%（2023年，这一数字还是20%），中国模型正在快速追赶美国的领先地位！

而DeepSeek领衔的开放权重模型，更是以1.7%之差，逼宫各大闭源巨头。前者和后者的差距，已经由2024年的8%，缩小至2025年的1.7%。

当然，目前从行业主导企业来看，美国仍然领先于中国。在2024年，90%的知名AI模型来自企业，美国以40个模型领先，中国有15个。

更明显的一个趋势，就是如今大模型的性能已经趋同！在2024年，TOP1和TOP10的模型的差距能有12%，但如今，它们的差距已经越来越小，锐减至5%。

十二大亮点

最新的斯坦福HAI两篇博文中，浓缩了2025年AI指数报告的十二大亮点。

1. AI性能再攀高峰，从基准测试到视频生成全面突破

2023年，研究人员推出了MMMU、GPQA和SWE-bench等新基准来测试先进AI系统的极限。

仅一年后，性能便大幅提升：AI在三项基准得分分别飙升18.8%、48.9%和67.3%。

不仅如此，AI在生成高质量视频方面取得重大突破，甚至，在某些场景下AI智能体甚至超越人类表现。

· 更有用智能体崛起

2024年发布的RE-Bench基准测试，为评估AI智能体复杂任务能力设立了严苛标准。

数据显示：在短期任务（2小时内）场景下，顶级AI系统的表现可达人类专家的4倍；但当任务时限延长至32小时，人类则以2:1的优势反超。

值得注意的是，AI已在特定领域，如编写特定类型代码，展现出与人类相当的专业水平，且执行效率更胜一筹。

2. 美国领跑顶尖模型研发，但中国与之差距逐渐缩小

2024年，美国产出40个重要AI模型，远超中国的15个和欧洲的3个。

然而，中国模型在性能上的差距正加速缩小：MMLU等基准测试中，中美AI差异从两位数缩小至近乎持平。

同时，中国在AI学术论文和专利申请量上持续领跑，中东、拉美和东南亚地区也涌现出具有竞争力的模型。

3. AI正变得高效且普惠，推理成本暴降280倍

随着小模型性能提升，达到GPT-3.5水平的推理成本在两年间下降280倍，硬件成本以每年30%的速度递减，能效年提升率达40%。

更令人振奋的是，开源模型性能突飞猛进，部分基准测试中与闭源模型的差距从8%缩至1.7%。

· 大模型使用成本持续走低，年降幅最高900倍

在MMLU基准测试中达到GPT-3.5水平（MMLU准确率64.8%）的AI模型调用成本，已从2022年11月的20美元/每百万token，骤降至2024年10月的0.07美元/每百万token（谷歌DeepMind的Gemini-1.5-Flash-8B模型），18个月内AI成本下降280倍。

视具体任务需求，LLM推理服务价格的年降幅可达9-900倍不等。

· 小模型性能显著提升，参数暴减142倍

2022年，在大规模多任务语言理解（MMLU）基准测试中，得分超60%的最小模型是 PaLM，参数量为5400亿。

到了2024年，微软Phi-3-mini仅用38亿参数，就取得了同样的实力。

这代表，两年多的时间里模型参数减少了142倍。

4. 科技巨头称霸AI前沿，但竞争白热化

2024年，近90%的重要模型源自企业，学术界则保持基础研究优势。

模型规模呈指数增长：训练算力每5个月翻番(fān)，数(shù)据(jù)集每(měi)8个(gè)月(yuè)扩(kuò)容(róng)一(yī)倍(bèi)。

值(zhí)得(de)注(zhù)意(yì)的(de)是(shì)，头(tóu)部(bù)模(mó)型(xíng)性(xìng)能(néng)差距显著缩小，榜首与第十名得分差已从11.9%降至5.4%。

5. AI逻辑短板，推理能力仍是瓶颈

采用符号推理方法的AI系统，能较好解决IMO问题（虽未达人类顶尖水平），但LLM在MMMU等复杂推理任务中表现欠佳，尤其不擅长算术推导和规划类强逻辑性任务。

这一局限影响了其在医疗诊断等高风险场景的应用可靠性。

6. 大厂ALL in AI，投资与采用率创双纪录

科技大厂们，正全力押注AI。

2024年，美国私营AI投资达1091亿美元，约为中国（93亿）的12倍、英国（45亿）的24倍。

生成式AI势头尤猛，全球私募投资达339亿美元（同比增18.7%）。

与此同时，企业AI采用率从55%升至78%。研究证实，AI不仅能提升(shēng)生(shēng)产(chǎn)力(lì)，多(duō)数(shù)情(qíng)况(kuàng)下(xià)还(hái)可(kě)缩(suō)小(xiǎo)劳(láo)动(dòng)力(lì)技(jì)能(néng)差(chà)距(jù)。

更(gèng)引(yǐn)人(rén)注(zhù)目(mù)的(de)是(shì)，将(jiāng)生(shēng)成(chéng)式(shì)AI应(yīng)用(yòng)于(yú)至(zhì)少(shǎo)一(yī)项(xiàng)业(yè)务(wu)职(zhí)能(néng)的(de)企(qǐ)业(yè)数(shù)量(liàng)激(jī)增(zēng)——从(cóng)2023年(nián)的(de)33%跃(yuè)升(shēng)至(zhì)去(qù)年(nián)的(de)71%，增(zēng)幅(fú)超(chāo)一(yī)倍(bèi)。

7. AI荣(róng)膺(yīng)科(kē)学(xué)界(jiè)最(zuì)高(gāo)荣(róng)誉(yù)，摘(zhāi)诺(nuò)奖(jiǎng)桂(guì)冠(guān)

2024年(nián)，两(liǎng)项(xiàng)诺(nuò)贝(bèi)尔(ěr)奖(jiǎng)分(fēn)别(bié)授(shòu)予(yǔ)深(shēn)度(dù)学(xué)习(xí)理(lǐ)论(lùn)基(jī)础(chǔ)（物(wù)理(lǐ)学(xué)）和(hé)蛋(dàn)白(bái)质(zhì)折(zhé)叠(dié)预(yù)测(cè)（化(huà)学(xué)）研(yán)究(jiū)，图(tú)灵(líng)奖(jiǎng)则(zé)花(huā)落(luò)强(qiáng)化(huà)学(xué)习(xí)领(lǐng)域。

8. AI教(jiào)育(yù)普(pǔ)及(jí)加(jiā)速，但资源差距仍存

全球2/3国家已或计划开展K-12计算机科学教育，但非洲地区受限于电力等基础设施，推进缓慢。

美国81%的计算机教师认为AI应纳入基础课程，但仅47%具备相应教学能力。

9. AI正深度融入日常生活

从医疗到交通，AI正快速从实验室走向现实。

1995年，FDA批准了第一款AI赋能的医疗器械。

截至2024年8月，FDA已批准950款AI医疗设备——较2015年的6款和2023年的221款，增长迅猛。

而在自动驾驶领域，汽车已脱离实验阶段：美国头部运营商Waymo每周提供超15万次无人驾驶服务。

10. 全球AI乐观情绪上升，但地区差异显著

中国（83%）、印尼（80%）和泰国（77%）民众对AI持积极态度，而加拿大（40%）、美国（39%）等发达国家则相对保守。

值得关注的是，德国（+10%）、法国（+10%）等原怀疑论国家态度明显转变。

11. 负(fù)责(zé)任(rèn)AI生(shēng)态(tài)发(fā)展(zhǎn)不(bù)均(jūn)

虽(suī)然(rán)AI安(ān)全事(shì)件(jiàn)激(jī)增(zēng)，但(dàn)主流(liú)模(mó)型(xíng)开(kāi)发(fā)商(shāng)仍(réng)缺(quē)乏(fá)标(biāo)准(zhǔn)化(huà)评(píng)估(gū)体(tǐ)系(xì)。

HELM Safety、AIR-Bench和(hé)FACTS等(děng)新(xīn)基(jī)准(zhǔn)为(wèi)事(shì)实(shí)性(xìng)与(yǔ)安(ān)全性(xìng)评(píng)估(gū)提(tí)供(gōng)工(gōng)具(jù)。

企(qǐ)业(yè)普(pǔ)遍(biàn)存(cún)在(zài)「认(rèn)知(zhī)与(yǔ)行(xíng)动(dòng)脱(tuō)节(jié)」，而(ér)各(gè)国(guó)政(zhèng)府(fǔ)加(jiā)速(sù)协(xié)作(zuò)：2024年(nián)，经(jīng)合(hé)组(zǔ)织(zhī)、欧(ōu)盟(méng)等(děng)国(guó)际(jì)机(jī)构(gòu)相(xiāng)继(jì)发(fā)布(bù)聚(jù)焦(jiāo)透(tòu)明(míng)度(dù)、可(kě)信(xìn)度(dù)的(de)治(zhì)理(lǐ)框(kuāng)架(jià)。

· 问(wèn)题(tí)AI数(shù)量(liàng)跃(yuè)升(shēng)

根(gēn)据(jù)权(quán)威(wēi)AI危(wēi)害(hài)追(zhuī)踪(zōng)数(shù)据(jù)库(kù)「AI事(shì)件(jiàn)库(kù)」（AI Incidents Database）统(tǒng)计(jì)，2024年(nián)全球(qiú)AI相(xiāng)关危(wēi)害(hài)事(shì)件(jiàn)激(jī)增(zēng)至(zhì)233起(qǐ)，创(chuàng)下(xià)历(lì)史(shǐ)新(xīn)高(gāo)，较(jiào)2023年(nián)暴(bào)涨(zhǎng)56.4%。

其(qí)中(zhōng)既(jì)包(bāo)括(kuò)深(shēn)度(dù)伪(wěi)造(zào)私(sī)密(mì)图(tú)像(xiàng)案(àn)件(jiàn)，也(yě)涉(shè)及(jí)聊(liáo)天(tiān)机(jī)器(qì)人(rén)疑(yí)似(shì)导(dǎo)致(zhì)青(qīng)少(shǎo)年(nián)自(zì)杀(shā)等(děng)恶(è)性(xìng)事(shì)件(jiàn)。

尽(jǐn)管(guǎn)该(gāi)统(tǒng)计(jì)未(wèi)能(néng)涵(hán)盖(gài)全部(bù)案(àn)例(lì)，但(dàn)已(yǐ)清(qīng)晰(xī)揭(jiē)示(shì)AI技(jì)术(shù)滥(làn)用(yòng)正(zhèng)在(zài)呈(chéng)现(xiàn)惊人增长态势。

12. 全球监管力度持续加强

2024年美国联邦机构颁布59项AI法规，涉及部门数量翻倍。

75个国家立法机构提及AI频次同比增长21.3%，较2016年增长九倍。

投资方面：加拿大承诺24亿美元，中国设立475亿美元半导体基金，法国投入1090亿欧元，印度拨款12.5亿美元，沙特启动千亿美元级的「超越计划」。

详细亮点解读

下面，我们将摘出报告中的亮点内容，提供更详细的解读。

中美差距仅剩0.3%

翻开502页的报告，最吸睛的部分，莫过于中美AI差异这部分了。

报告中强调，虽然2024年，美国在顶尖AI模型的研发上依然领先，但中美模型之间的性能差距，正在迅速缩小！

为了衡量AI领域过去一年演变的全球格局，HAI特意用AI指数，列出了具有代表性的模型所属国家，美国依然居首。

数据显示，在2024年，美国机构以拥有40个知名模型领先，远远超过中国的15个和欧洲的3个。

总体来说，模型发布总量已经下降，可能是多个因素共同(tóng)导(dǎo)致(zhì)的(de)，比(bǐ)如(rú)训(xun)练(liàn)规(guī)模(mó)日(rì)益(yì)庞(páng)大(dà)、AI技(jì)术(shù)日(rì)益(yì)复(fù)杂(zá)，开(kāi)发(fā)新(xīn)模(mó)型(xíng)方(fāng)法(fǎ)的(de)难(nán)度(dù)也(yě)在(zài)增(zēng)加(jiā)。

AI模(mó)型(xíng)已(yǐ)成(chéng)为(wèi)算(suàn)力(lì)巨(jù)兽(shòu)

· 参数趋势

简单的说，参数就是AI模型通过训练学到的一些数字，这些数字决定了模型如何理解输入和怎样输出。

AI的参数越多需要的训练数据也越多，但同时性能也更厉害。

从2010年代初开始，模型的参数量就蹭蹭往上涨，这背后是因为模型设计得越来越复杂、数据更容易获取、硬件算力也更强了。

更重要的是，大模型确实效果好。

下图用了对数刻度，方便大家看清楚AI模型参数和算力近年来的爆炸式增长。

随着模型参数数量的增加，训练所需的数据量也在暴涨。

2017年发布的Transformer模型，掀(xiān)起(qǐ)了(le)大(dà)型(xíng)语(yǔ)言(yán)模(mó)型(xíng)的(de)热(rè)潮(cháo)，当(dāng)时(shí)它(tā)用(yòng)了(le)大(dà)约(yuē)20亿(yì)个(gè)token来(lái)训(xun)练(liàn)。

到(dào)了(le)2020年(nián)，GPT-3 175B模(mó)型(xíng)的(de)训(xun)练(liàn)数(shù)据(jù)已(yǐ)经(jīng)飙(biāo)到(dào)了(le)约(yuē)3740亿(yì)个(gè)token。

而(ér)Meta在(zài)2024年(nián)夏(xià)天(tiān)发(fā)布(bù)的(de)模(mó)型(xíng)Llama 3.3，更(gèng)是用了大约15万亿个token来训练。

根据Epoch AI的数据，大型语言模型的训练数据集规模大约每八个月翻一倍。