官方网站-首页官方网站-首页

动态

斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩0.3%,DeepSeek领衔

发布时间:2025-04-09 12:30:40       阅读量: 445

【导语】斯坦福大学发布的2025年AI指数报告震撼出炉,全面剖析了全球AI领域的最新趋势。报告显示,中美顶级AI模型的性能差距已缩至0.3%,中国模型正以DeepSeek等为代表快速崛起。同时,AI推理成本大幅下降,小模型性能飙升,AI正变得更加高效且普惠。这份456页的重磅报告,不仅揭示了AI性能的再攀高峰,还展现了AI在科技、教育、日常生活等领域的广泛应用与挑战,为全球AI发展描绘了一幅波澜壮阔的图景。

新智元报道

编辑:编辑部

【新智元导读】2025年斯坦福HAI报告重磅发布,456页深度剖析全球AI领域的最新趋势:中美顶级模型性能差距缩至0.3%,以DeepSeek为代表的模型强势崛起,逼近闭源巨头;推理成本暴降,小模型性能飙升,AI正变得更高效、更普惠。

就在刚刚,每年都备受瞩目的斯坦福AI指数报告,重磅发布了!

这份报告由斯坦福大学以人为本AI研究员发布,代表着每年AI领域最核心和前沿的动向总结。

今年,这份报告长达456页,抛出不少惊人观点。

比如,如今在2025年,中美顶级AI模型的性能差距已经缩小到了0.3%(2023年,这一数字还是20%),中国模型正在快速追赶美国的领先地位!

而DeepSeek领衔的开放权重模型,更是以1.7%之差,逼宫各大闭源巨头。前者和后者的差距,已经由2024年的8%,缩小至2025年的1.7%。

当然,目前从行业主导企业来看,美国仍然领先于中国。在2024年,90%的知名AI模型来自企业,美国以40个模型领先,中国有15个。

更明显的一个趋势,就是如今大模型的性能已经趋同!在2024年,TOP1和TOP10的模型的差距能有12%,但如今,它们的差距已经越来越小,锐减至5%。

十二大亮点

最新的斯坦福HAI两篇博文中,浓缩了2025年AI指数报告的十二大亮点。

1. AI性能再攀高峰,从基准测试到视频生成全面突破

2023年,研究人员推出了MMMU、GPQA和SWE-bench等新基准来测试先进AI系统的极限。

仅一年后,性能便大幅提升:AI在三项基准得分分别飙升18.8%、48.9%和67.3%。

不仅如此,AI在生成高质量视频方面取得重大突破,甚至,在某些场景下AI智能体甚至超越人类表现。

· 更有用智能体崛起

2024年发布的RE-Bench基准测试,为评估AI智能体复杂任务能力设立了严苛标准。

数据显示:在短期任务(2小时内)场景下,顶级AI系统的表现可达人类专家的4倍;但当任务时限延长至32小时,人类则以2:1的优势反超。

值得注意的是,AI已在特定领域,如编写特定类型代码,展现出与人类相当的专业水平,且执行效率更胜一筹。

2. 美国领跑顶尖模型研发,但中国与之差距逐渐缩小

2024年,美国产出40个重要AI模型,远超中国的15个和欧洲的3个。

然而,中国模型在性能上的差距正加速缩小:MMLU等基准测试中,中美AI差异从两位数缩小至近乎持平。

同时,中国在AI学术论文和专利申请量上持续领跑,中东、拉美和东南亚地区也涌现出具有竞争力的模型。

3. AI正变得高效且普惠,推理成本暴降280倍

随着小模型性能提升,达到GPT-3.5水平的推理成本在两年间下降280倍,硬件成本以每年30%的速度递减,能效年提升率达40%。

更令人振奋的是,开源模型性能突飞猛进,部分基准测试中与闭源模型的差距从8%缩至1.7%。

· 大模型使用成本持续走低,年降幅最高900倍

在MMLU基准测试中达到GPT-3.5水平(MMLU准确率64.8%)的AI模型调用成本,已从2022年11月的20美元/每百万token,骤降至2024年10月的0.07美元/每百万token(谷歌DeepMind的Gemini-1.5-Flash-8B模型),18个月内AI成本下降280倍。

视具体任务需求,LLM推理服务价格的年降幅可达9-900倍不等。

· 小模型性能显著提升,参数暴减142倍

2022年,在大规模多任务语言理解(MMLU)基准测试中,得分超60%的最小模型是 PaLM,参数量为5400亿。

到了2024年,微软Phi-3-mini仅用38亿参数,就取得了同样的实力。

这代表,两年多的时间里模型参数减少了142倍。

4. 科技巨头称霸AI前沿,但竞争白热化

2024年,近90%的重要模型源自企业,学术界则保持基础研究优势。

模型规模呈指数增长:训练算力每5个月翻番(fān),数(shù)据(jù)集每(měi)8个(gè)月(yuè)扩(kuò)容(róng)一(yī)倍(bèi)。

值(zhí)得(de)注(zhù)意(yì)的(de)是(shì),头(tóu)部(bù)模(mó)型(xíng)性(xìng)能(néng)差距显著缩小,榜首与第十名得分差已从11.9%降至5.4%。

5. AI逻辑短板,推理能力仍是瓶颈

采用符号推理方法的AI系统,能较好解决IMO问题(虽未达人类顶尖水平),但LLM在MMMU等复杂推理任务中表现欠佳,尤其不擅长算术推导和规划类强逻辑性任务。

这一局限影响了其在医疗诊断等高风险场景的应用可靠性。

6. 大厂ALL in AI,投资与采用率创双纪录

科技大厂们,正全力押注AI。

2024年,美国私营AI投资达1091亿美元,约为中国(93亿)的12倍、英国(45亿)的24倍。

生成式AI势头尤猛,全球私募投资达339亿美元(同比增18.7%)。

与此同时,企业AI采用率从55%升至78%。研究证实,AI不仅能提升(shēng)生(shēng)产(chǎn)力(lì),多(duō)数(shù)情(qíng)况(kuàng)下(xià)还(hái)可(kě)缩(suō)小(xiǎo)劳(láo)动(dòng)力(lì)技(jì)能(néng)差(chà)距(jù)。

更(gèng)引(yǐn)人(rén)注(zhù)目(mù)的(de)是(shì),将(jiāng)生(shēng)成(chéng)式(shì)AI应(yīng)用(yòng)于(yú)至(zhì)少(shǎo)一(yī)项(xiàng)业(yè)务(wu)职(zhí)能(néng)的(de)企(qǐ)业(yè)数(shù)量(liàng)激(jī)增(zēng)——从(cóng)2023年(nián)的(de)33%跃(yuè)升(shēng)至(zhì)去(qù)年(nián)的(de)71%,增(zēng)幅(fú)超(chāo)一(yī)倍(bèi)。

7. AI荣(róng)膺(yīng)科(kē)学(xué)界(jiè)最(zuì)高(gāo)荣(róng)誉(yù),摘(zhāi)诺(nuò)奖(jiǎng)桂(guì)冠(guān)

2024年(nián),两(liǎng)项(xiàng)诺(nuò)贝(bèi)尔(ěr)奖(jiǎng)分(fēn)别(bié)授(shòu)予(yǔ)深(shēn)度(dù)学(xué)习(xí)理(lǐ)论(lùn)基(jī)础(chǔ)(物(wù)理(lǐ)学(xué))和(hé)蛋(dàn)白(bái)质(zhì)折(zhé)叠(dié)预(yù)测(cè)(化(huà)学(xué))研(yán)究(jiū),图(tú)灵(líng)奖(jiǎng)则(zé)花(huā)落(luò)强(qiáng)化(huà)学(xué)习(xí)领(lǐng)域。

8. AI教(jiào)育(yù)普(pǔ)及(jí)加(jiā)速,但资源差距仍存

全球2/3国家已或计划开展K-12计算机科学教育,但非洲地区受限于电力等基础设施,推进缓慢。

美国81%的计算机教师认为AI应纳入基础课程,但仅47%具备相应教学能力。

9. AI正深度融入日常生活

从医疗到交通,AI正快速从实验室走向现实。

1995年,FDA批准了第一款AI赋能的医疗器械。

截至2024年8月,FDA已批准950款AI医疗设备——较2015年的6款和2023年的221款,增长迅猛。

而在自动驾驶领域,汽车已脱离实验阶段:美国头部运营商Waymo每周提供超15万次无人驾驶服务。

10. 全球AI乐观情绪上升,但地区差异显著

中国(83%)、印尼(80%)和泰国(77%)民众对AI持积极态度,而加拿大(40%)、美国(39%)等发达国家则相对保守。

值得关注的是,德国(+10%)、法国(+10%)等原怀疑论国家态度明显转变。

11. 负(fù)责(zé)任(rèn)AI生(shēng)态(tài)发(fā)展(zhǎn)不(bù)均(jūn)

虽(suī)然(rán)AI安(ān)全事(shì)件(jiàn)激(jī)增(zēng),但(dàn)主流(liú)模(mó)型(xíng)开(kāi)发(fā)商(shāng)仍(réng)缺(quē)乏(fá)标(biāo)准(zhǔn)化(huà)评(píng)估(gū)体(tǐ)系(xì)。

HELM Safety、AIR-Bench和(hé)FACTS等(děng)新(xīn)基(jī)准(zhǔn)为(wèi)事(shì)实(shí)性(xìng)与(yǔ)安(ān)全性(xìng)评(píng)估(gū)提(tí)供(gōng)工(gōng)具(jù)。

企(qǐ)业(yè)普(pǔ)遍(biàn)存(cún)在(zài)「认(rèn)知(zhī)与(yǔ)行(xíng)动(dòng)脱(tuō)节(jié)」,而(ér)各(gè)国(guó)政(zhèng)府(fǔ)加(jiā)速(sù)协(xié)作(zuò):2024年(nián),经(jīng)合(hé)组(zǔ)织(zhī)、欧(ōu)盟(méng)等(děng)国(guó)际(jì)机(jī)构(gòu)相(xiāng)继(jì)发(fā)布(bù)聚(jù)焦(jiāo)透(tòu)明(míng)度(dù)、可(kě)信(xìn)度(dù)的(de)治(zhì)理(lǐ)框(kuāng)架(jià)。

· 问(wèn)题(tí)AI数(shù)量(liàng)跃(yuè)升(shēng)

根(gēn)据(jù)权(quán)威(wēi)AI危(wēi)害(hài)追(zhuī)踪(zōng)数(shù)据(jù)库(kù)「AI事(shì)件(jiàn)库(kù)」(AI Incidents Database)统(tǒng)计(jì),2024年(nián)全球(qiú)AI相(xiāng)关危(wēi)害(hài)事(shì)件(jiàn)激(jī)增(zēng)至(zhì)233起(qǐ),创(chuàng)下(xià)历(lì)史(shǐ)新(xīn)高(gāo),较(jiào)2023年(nián)暴(bào)涨(zhǎng)56.4%。

其(qí)中(zhōng)既(jì)包(bāo)括(kuò)深(shēn)度(dù)伪(wěi)造(zào)私(sī)密(mì)图(tú)像(xiàng)案(àn)件(jiàn),也(yě)涉(shè)及(jí)聊(liáo)天(tiān)机(jī)器(qì)人(rén)疑(yí)似(shì)导(dǎo)致(zhì)青(qīng)少(shǎo)年(nián)自(zì)杀(shā)等(děng)恶(è)性(xìng)事(shì)件(jiàn)。

尽(jǐn)管(guǎn)该(gāi)统(tǒng)计(jì)未(wèi)能(néng)涵(hán)盖(gài)全部(bù)案(àn)例(lì),但(dàn)已(yǐ)清(qīng)晰(xī)揭(jiē)示(shì)AI技(jì)术(shù)滥(làn)用(yòng)正(zhèng)在(zài)呈(chéng)现(xiàn)惊人增长态势。

12. 全球监管力度持续加强

2024年美国联邦机构颁布59项AI法规,涉及部门数量翻倍。

75个国家立法机构提及AI频次同比增长21.3%,较2016年增长九倍。

投资方面:加拿大承诺24亿美元,中国设立475亿美元半导体基金,法国投入1090亿欧元,印度拨款12.5亿美元,沙特启动千亿美元级的「超越计划」。

详细亮点解读

下面,我们将摘出报告中的亮点内容,提供更详细的解读。

中美差距仅剩0.3%

翻开502页的报告,最吸睛的部分,莫过于中美AI差异这部分了。

报告中强调,虽然2024年,美国在顶尖AI模型的研发上依然领先,但中美模型之间的性能差距,正在迅速缩小!

为了衡量AI领域过去一年演变的全球格局,HAI特意用AI指数,列出了具有代表性的模型所属国家,美国依然居首。

数据显示,在2024年,美国机构以拥有40个知名模型领先,远远超过中国的15个和欧洲的3个。

总体来说,模型发布总量已经下降,可能是多个因素共同(tóng)导(dǎo)致(zhì)的(de),比(bǐ)如(rú)训(xun)练(liàn)规(guī)模(mó)日(rì)益(yì)庞(páng)大(dà)、AI技(jì)术(shù)日(rì)益(yì)复(fù)杂(zá),开(kāi)发(fā)新(xīn)模(mó)型(xíng)方(fāng)法(fǎ)的(de)难(nán)度(dù)也(yě)在(zài)增(zēng)加(jiā)。

AI模(mó)型(xíng)已(yǐ)成(chéng)为(wèi)算(suàn)力(lì)巨(jù)兽(shòu)

· 参数趋势

简单的说,参数就是AI模型通过训练学到的一些数字,这些数字决定了模型如何理解输入和怎样输出。

AI的参数越多需要的训练数据也越多,但同时性能也更厉害。

从2010年代初开始,模型的参数量就蹭蹭往上涨,这背后是因为模型设计得越来越复杂、数据更容易获取、硬件算力也更强了。

更重要的是,大模型确实效果好。

下图用了对数刻度,方便大家看清楚AI模型参数和算力近年来的爆炸式增长。

随着模型参数数量的增加,训练所需的数据量也在暴涨。

2017年发布的Transformer模型,掀(xiān)起(qǐ)了(le)大(dà)型(xíng)语(yǔ)言(yán)模(mó)型(xíng)的(de)热(rè)潮(cháo),当(dāng)时(shí)它(tā)用(yòng)了(le)大(dà)约(yuē)20亿(yì)个(gè)token来(lái)训(xun)练(liàn)。

到(dào)了(le)2020年(nián),GPT-3 175B模(mó)型(xíng)的(de)训(xun)练(liàn)数(shù)据(jù)已(yǐ)经(jīng)飙(biāo)到(dào)了(le)约(yuē)3740亿(yì)个(gè)token。

而(ér)Meta在(zài)2024年(nián)夏(xià)天(tiān)发(fā)布(bù)的(de)模(mó)型(xíng)Llama 3.3,更(gèng)是用了大约15万亿个token来训练。

根据Epoch AI的数据,大型语言模型的训练数据集规模大约每八个月翻一倍。

训练数据集越来越大,导致的训练时间也变得越来越长。

像Llama 3.1-405B这样的模型,训练大概需要90天,这在如今已经算是「正常」的了。

谷歌在2023年底发布的Gemini 1.0 Ultra,训练时间大约是100天。

相比之下,2012年的AlexNet就显得快多了,训练只花了五六天,而且AlexNet当时用的硬件还远没有现在的先进。

· 算力趋势

「算力」指的是训练和运行AI模型所需的计算资源。

最近,知名AI模型的算力消耗呈指数级增长。据Epoch AI估计,知名AI模型的训练算力大约每五个月翻一番。

这种趋势在过去五年尤为明显。

去年12月,DeepSeek V3一经推出就引发了广泛关注,主要就是因为它在性能上极其出色,但用的计算资源却比许多顶尖大型语言模型少得多。

下图1.3.17比(bǐ)较(jiào)了(le)中(zhōng)国(guó)和美国知名AI模型的训练算力,揭示了一个重要趋势:美国的顶级AI模型通常比中国模型需要多得多的计算资源。

· 推理成本

推理成本,指的是对一(yī)个(gè)已训练模型进行查询所需的费用,通常以「每百万tokens的美元价格」来衡量。

这份报告中AI token的价格数据,来源于Artificial Analysis和Epoch AI的API定价专有数据库,而价格是根据输入与输出token的价格按3:1的权重平均计算得出的。

可以看出,单位性能的AI成本正在显著下降。

而Epoch AI估计,根据不同任务类型,大型语言模型的推理成本每年下降幅度可达9倍至900倍不等。

虽然如此,想要获得来自OpenAI、Meta和Anthropic的模型,仍需支付不小的溢价。

· 训练成本

虽然很少有AI公司披露具体的训练成本,但这个数字普遍已达到数百位美元。

OpenAI CEO奥特曼曾表示,训练GPT-4的训练成本超过了1亿美元。

Anthropic的CEO Dario Amodei指出,目前正在训练的模型,成本约为10亿美元。

DeepSeek-V3的600万美元,则打破了新低。

图1.3.24展示了基于云计算租赁价格的部分AI模型的训练成本估算。

图1.3.25展示了AI指数所估算的(de)所有AI模型的训练成本。

在2024年,Epoch能估算的少数模型之一,就是Llama 3.1-405B,训练成本约为1.7亿美元。

另外,AI模型的训练成本与其计算需求之间存在直接的关联。如图1.3.26所示,计算需求更大的模型训练成本显著更高。

参考资料:YZNH

https://www.nature.com/articles/d41586-025-01033-y

https://hai.stanford.edu/ai-index/2025-ai-index-report

https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts

原标题:《斯坦福2025 AI指数出炉!中美AI终极对决差距仅剩0.3%,DeepSeek领衔》

阅读原文

为了您更好的体验,请竖屏浏览
为了您更好的体验,请竖屏浏览。