官方网站-首页【导语】4月17日凌晨,OpenAI震撼发布其系列中最强大的推理模型——o3与o4-mini,主打Agent功能,标志着AI在自主调用工具和解决复杂问题上的重大突破。此次发布不仅展示了模型在视觉推理和多模态能力上的卓越表现,还预告了一系列编程工具的革(gé)新(xīn),旨(zhǐ)在(zài)重(zhòng)新(xīn)定(dìng)义(yì)AI时(shí)代(dài)的(de)编(biān)程(chéng)。OpenAI的(de)这(zhè)一(yī)布(bù)局(jú),无(wú)疑(yí)再(zài)次(cì)引(yǐn)发(fā)了(le)业(yè)界(jiè)对(duì)AI未(wèi)来(lái)发(fā)展(zhǎn)方(fāng)向(xiàng)的(de)深(shēn)思(sī),同(tóng)时(shí)也(yě)预(yù)示(shì)着(zhe)编(biān)程(chéng)领(lǐng)域或(huò)将(jiāng)迎(yíng)来(lái)颠(diān)覆(fù)性(xìng)的(de)变(biàn)革(gé)。
4月(yuè)17日(rì)凌(líng)晨(chen),OpenAI正(zhèng)式(shì)宣(xuān)布(bù)推(tuī)出(chū)目(mù)前(qián)OpenAI系(xì)列(liè)里(lǐ)能(néng)力(lì)最(zuì)强(qiáng)的(de)推(tuī)理(lǐ)模(mó)型(xíng)——o3模(mó)型(xíng)和(hé)o4-mini模(mó)型(xíng)。
去(qù)年(nián)12月(yuè),OpenAI就(jiù)预(yù)热(rè)过(guò)o3推(tuī)理(lǐ)模(mó)型(xíng),当(dāng)时(shí)强(qiáng)调(diào)的(de)重点是o3模型在解决困难问题上的能力,要显著强于OpenAI第一代推理模型o1。
而此次正式发布中,OpenAI不仅强调了o3模型在能力上的领先性,同时还强调了o3的Agent能力,且强调o3是第一代能够在思维链中使用图像进行推理的模型。
自主调用工具是Agent能力最重要的体现。OpenAI表示,曾看到o3为了解一个特别难的任务,连续调用了大约600次工具。
随着OpenAI的O系列、DeepSeek R1等推理模型日趋成熟,业内普遍认为,只需一条指令即可完成整套任务的AI Agent能力将迎来显著提升。
相比于Google,Anthropic等从去年就开始宣传Agent能力,甚至已经开始推动MCP、A2A等Agent协议普及的公司,OpenAI之前在Agent能力上的布局相对缺失。而今天的发布,证明OpenAI在Agent能力上,仍然有自己的思考和布局。
OpenAI宣布, 从今天开始,Plus、Pro和Team用户就可以使用o3模型和o4-mini模型了,接下来几周还会推出o3-pro模型,替代过去的o1-pro模型。
在彩蛋环节,OpenAI还表示,未来将发布一系列编程工具,重新定义AI时代的编程,首发的是一个叫Codex CLI的开源轻量化编程agent。Codex CLI可以直接使用OpenAI的模型(最终包括o3和o4-mini),接管本地计算机终端命令行界面,直接进行代码编写和文件移动等等。
OpenAI的展示很有意念编程(vibe coding)的味道了:直接在网页上截图了一个别人编程好的效果图,丢给Codex CLI,跟它说做一个html文件复现这个效果,并做一些改动。很快,Codex CLI就自己写了代码,调用了系统工具,复现出了一个类似的效果。
OpenAI今日的发布大致符合预期——o3和 o4-mini已经预热多时,视觉推理与Agent能力也早已在其他公司的模型中有所体现。
不过,从今天的发布中仍能看出OpenAI在Agent等前沿方向上的布局节奏,以及将已有能力产品化的独特能力。
OpenAI的模型迭代,也再一次重新肯定了后训练Scaling Law的存在。目前看来,AI模型在接下来几年,仍然会出现能力的快速进化,还未到达瓶颈。
OpenAI的Agent能力,目前更多的是调用自身的工具
OpenAI此次发布的一大亮点在于Agent的能力。最初的两个展示都与工具调用能力有关。
第一个展示是研究员给了OpenAI一个十年前写过的论文图片,让o3模型(xíng)找(zhǎo)到(dào)一(yī)个(gè)特(tè)定(dìng)的(de)结(jié)果(guǒ),并(bìng)和(hé)最(zuì)新(xīn)的(de)研(yán)究(jiū)成(chéng)果(guǒ)进(jìn)行(xíng)比(bǐ)较(jiào)。
o3模(mó)型(xíng)首(shǒu)先(xiān)利(lì)用(yòng)内(nèi)置(zhì)的(de)视(shì)觉(jué)推(tuī)理(lǐ)能(néng)力(lì),放(fàng)大(dà)图(tú)片(piàn),找(zhǎo)到(dào)了(le)研(yán)究(jiū)员(yuán)想(xiǎng)要(yào)的(de)特(tè)定(dìng)结(jié)果(guǒ),然(rán)后(hòu)根(gēn)据(jù)图(tú)片(piàn)中(zhōng)的(de)内(nèi)容(róng)进(jìn)行(xíng)推(tuī)理(lǐ),算(suàn)出(chū)了(le)论(lùn)文推(tuī)导(dǎo)的(de)数(shù)值(zhí),然(rán)后(hòu)使(shǐ)用(yòng)搜(sōu)索(suǒ)功(gōng)能(néng),查(chá)找(zhǎo)了(le)十(shí)篇(piān)论(lùn)文,比(bǐ)较(jiào)了(le)最(zuì)新(xīn)研(yán)究(jiū)成(chéng)果与作者十年前论文的结果的区别,最后给出了自己的建议。
第二个演示是研究员问OpenAI,根据我的兴趣,读新闻,告诉我一些我可能感兴趣的事情。
这个演示则利用的是OpenAI内置的记忆工具——OpenAI几天前刚刚宣布OpenAI的模型目前有了可以访问用户全量记忆的能力。
o3模型先是访问记忆后,找出用户喜欢水肺潜水和弹奏音乐,然后利用搜索功能,找到了一条交叉两条兴趣的新闻:研究人员会录下健康珊瑚礁的声音,然后用水下扬声器在海里播放这些声音,以保护珊瑚。
最后o3模型使用了OpenAI的canvas工具和数据分析工具,生成了一个漂亮的博客界面,完成了任务。
可以看到,在OpenAI目前的布局当中,Agent能力更多的是调用OpenAI的内部工具。
不过,在基础的工具调用能力水平存在的情况下,如果想要接入其他工具,似乎也并不是很难。OpenAI今(jīn)年(nián)3月刚刚宣布接入MCP协议,为之后使用其他工具打下了基础。
o4-mini 表现出色,RL的Scaling Law仍在起作用
虽然在去年12月OpenAI曾经预热过o3模型的具体能力,这次正式发布,官方表示因为进行了「对推理成本和实用性做了大量优化」,在评测结果上,OpenAI表示可能会有差别。
在发布会直播中,OpenAI展示了几组测试结果,o3模型和o4-mini模型在数学能力、代码能力和多模态能力上都表现出色:



值(zhí)得(de)注(zhù)意(yì)的(de)是(shì),在(zài)多(duō)个(gè)维(wéi)度(dù)上(shàng),o4-mini的(de)表(biǎo)现(xiàn)并(bìng)不(bù)逊(xùn)色(sè)于o3。尤其是在高难度数学竞赛AMI中,o4-mini结合工具的准确率达到了99%,几乎逼近评测上限。这似乎意味着,o4模型在未来一定会有更加惊人的表现。
OpenAI 研究员姚顺雨近期在《The Second Half》一文中引用了研究员Jason Wei的图表,标注了过去几年AI能力的飞跃式增长:

AI 在过去五年里不断刷新各类基准测试的成绩。
姚顺雨表示,在突破了强化学习泛化的问题后,过去曾经对于AI十分困难的问题,正在土崩瓦解,AI能力的爬坡正在变得更加可预测。「下一个O系列模型无需明确针对该任务即可将其提升30%。」
OpenAI的直播也确认了这一点。
OpenAI表示,在o3模型上的训练计算量是o1模型的10 倍以上。随着OpenAI沿着「计算量」这条轴线不断扩展,像AMI这样的评测成绩也持续上升。
Scaling Law看起来没有尽头,而人类之前设计的基准线,已经快被用完了,甚至已经不一定有测评意义了。
OpenAI再一次确认,AI的发展不会停,顶尖模型的探索会让更强的 AI 能力不断下放给用户。在相同推理成本下,o4-mini的表现明显优于o3-mini,且o4-mini是多模态模型。相同的推理成本,o3模型的性能好于o1模型。
模型一代代迭代,AI 的这把科技之火的燃料不会断。
颠覆编程?
顶尖的模型,已经开始干人类顶级科研人员的活了。对于广众而言,更强的模型,能带来的更切实的能力是什么?OpenAI 这次似乎瞄准了编程这个场景。
OpenAI 在彩蛋中宣布,接下来将发布一系列产品,颠覆编程。
根据OpenAI CFO近期的发言,OpenAI似乎想结合目前模型的Agent能力,和极强的编程能力,做出一整套编程Agent,能够直接对软件进行编程甚至测试。
在演示中,OpenAI已经给了一个类似的案例,展示了一个模型在虚拟机里,调用工具进行编程的例子,这个案例的思路与之前爆火的Manus的思路接近。
OpenAI给了模型一个虚拟机的终端命令(lìng)行(xíng)权(quán)限,要求模型定位一个bug。当把这个bug报告输入给模型后,模型可以使用(yòng)终(zhōng)端(duān)命(mìng)令(lìng)行(xíng)访(fǎng)问(wèn)整(zhěng)个(gè)代(dài)码(mǎ)库(kù)。先(xiān)验(yàn)证(zhèng)bug能(néng)否复现,确认问题存在后,模型开始代码里四处浏览,尝试理解整个仓库的结构,最后找到了bug,成功修复了问题。目前,这样的能力,仍然没有被开放出来。
OpenAI最(zuì)新(xīn)发布的编程agent,采取了调用本地终端命令行界面的方式,进行类似的操作。可以使用「建议模式」,也就是它每次想执行指令都会征求你的确认。也可以采用全自动模式,看起来则更有一种贾维斯的感觉。
如果说以往的Copilot更像是「代码自动补全」,那今年各家模型争夺的重点,很可能是「代码自动完成」。编程+ Agent,会不会成为第一个真正释放生产力的通用智能场景?起码现在看来,OpenAI是这么押注的。
(本文首发于《极客公园》微信公众号,作者为Li Yuan,原标题为《OpenAI深夜推出最强模型主打Agent功能,顺便又来尝试革程序员的命了》)
