OpenAI今天正式推出了其最新的模型——大杯o3，以及小杯o3 mini

今天是OpenAI发布会的最后一天，我们熬夜小分队还在坚持熬夜的只剩下了5个人。　

有意思的是在今天的发布会开始之前，国外网友们已经通过各种方式发现，OpenAI可能要发布一个叫o3的模型，包括一些权威信源也有一样的说法。　

至于为什么不叫o2，原因很简单。　

o2被人注册过了。。。　

网友扒的速度比The Information发的快多了　

果不其然，OpenAI今天正式推出了其最新的模型——大杯o3，以及小杯o3 mini。　

看到Early evals就知道是期货了　

很多朋友看完之后觉得只是个期货，也没什么特别的。　

但其实真的很震撼，因为它向我们展示了AI在逻辑推理和解决复杂问题方面，已经前所未有地逼近了人类的极限能力边界。　

o3的意义不再是简单的能够文本生成或对话，而是第一次对我们人类智慧的核心能力发起挑战。　

很久没有听到过熟悉的中式口音　

今天来主持发布会的是一位中国人，Hongyu Ren　

他通过一系列令人印象深刻的基准测试，揭示了o3的强大性能。　

但其实值得关注的只有三个测试：Codeforces、FrontierMath和 ARC-AGI　

首先我们来看Codeforces　

Codeforces位于全宇宙编程最强的俄罗斯的萨拉托夫国立大学，据说最早是由一群大学生维护的。　

Codeforces很大的特点就是题目兼容并蓄，什么难度等级的题目都可以找到。　

并且题目很有意思，往往思维陷阱比较多，更多的时候往往是告诉你用什么算法你也不知道怎么做……　

o3在编程竞赛平台Codeforces上的表现直接爆炸，ELO评分直接来到了2727分，这是一个什么概念？　

这意味着它已经超越了绝大多数人类程序员，达到了专业级选手的水平，甚至超越了OpenAI内部一些资深工程师的水平。　

如果o3参与排名的话，他已经排到了全球第175名　

已经超越99%的人类　

如果说代码能力还只是AI在既定规则和框架下的“熟练工”，那么o3在数学领域的表现则进一步颠覆了我们对AI能力的认知。　

它不仅在传统的数学竞赛测试中表现出色，展现了强大的计算和推理能力　

更重要的是，它在被称为“当今最难数学基准”的前沿数学基准测试（FrontierMath）中取得了历史性突破。　

这个测试由研究机构 Epoch AI 推出，专门用于评估 AI 的高级数学推理能力，地狱级难度的数学评测标准。　

AI的升学考试　

为了防止数据污染，测试内容均为最新的、还未发表的题目。　

关于题目的难度，即使是经验丰富的人类数学专家，也需要花费数小时或数天，才能解答测试题目。　

Epoch AI曾采访过菲尔兹奖得主陶哲轩（2006年）、蒂莫西·高尔斯（1998年）、理查德·博赫兹（1998年）以及国际数学奥赛教练陈谊廷。　

他们一致认为，FrontierMath的研究问题极具挑战性，需要是专家级别的人才能解答。　

陶老师认证过，这题包难的　

陶哲轩更是直言：“这些题非常有挑战性，我认为这项测试能够难住AI好多年。”　

在这个测试中，以往所有AI模型的准确率都低于2%，而o3却突破性地达到了25%以上。　

什么叫高手.jpg　

这意味着什么？　

这意味着AI开始具备解决极度复杂、甚至需要人类数学家耗费数小时乃至数天才能解决的难题的能力。　

然而，真正让我觉得震撼的，是o3在ARC（Abstraction and Reasoning Corpus）基准测试中的表现。　

ARC测试旨在评估AI的抽象推理和创造性解决问题的能力，它要求AI根据几个图像示例推断出隐藏的规则，并将这种规则其应用于新的场景。　

但ARC的题对人类来说很简单　

长期以来，ARC测试一直是AI领域的一大挑战，基本上都没法做到很好。　

你可能会觉得，这题目一般人正常的地球人类都会做吧？　

但对于现在的 AI 来说不亚于让他帮你洗衣、做饭、炒菜，完事下楼去倒个垃圾。　

历代的 ChatGPT 在 100 项半私有评测集评估中的得分来看，真的是菜的一批：　

GPT-3：0%
GPT-4：2%
GPT-4o：5%
o1-preview：21%
o1 满血版：32%
o1 Pro：50% 左右。

此项测试的重点并非考察外在的知识或技能，而是深入挖掘人类认知能力的本质，考察的是我们内在的、普遍拥有的认知机制。　

而o3在高计算资源下的测试中，竟然达到了87.5%的惊人成绩，已经超过了一般的普通人的平均分，70-80分。　

所以我才说，o3已经无限接近了AGI。　

除了功能强大的o3，OpenAI还推出了o3 mini，这是一款更注重成本效益的模型。　

o3 mini在保持了o3大部分核心功能的同时，大幅降低了计算成本和延迟，使得能够更广泛地应用于各种场景。　

并且他以低于o1的成本，实现了超越o1的能力。　

加量不加价了属于是。　

但o3的耀眼光芒背后，并非没有阴影。　

虽然它在特定领域展现出了惊人的能力，但这并不意味着它已经无所不能。　

恰恰相反，它并非真正的人工通用智能（AGI），仍然会在一些对人类来说轻而易举的任务上犯错，这暴露了它与AGI之间存在的巨大鸿沟。　

这是o3做不出来的题　

它更像是一个在特定领域高度优化的专家，而非一个能够像人类一样进行通用思考和推理的智能体。　

更重要的是，就像之前的许多AI模型一样，o3也可能存在对现有基准的“过拟合”问题，对新基准的适应能力仍然有待考验。　

说人话就是刷题刷多了，换个新题就不会做了。　

即将到来的ARC-AGI-2就是一个严峻的考验，如果o3在新基准上表现不佳，那就说明它并没有真正掌握抽象推理的本质，而只是在特定的规则和模式下表现出色。　

新赛季要来了，o3你准备好了吗？　

此外，支撑o3强大性能的是巨大的计算资源消耗，这不仅带来了高昂的经济成本，也对环境造成了不小的压力。　

如何降低计算成本，提高能源效率，是o3走向实用化的关键。　

根据ARC官方的说法，o3在low模式下解决一个问题要花费20美元左右，而如果是high模式的话，则是low模式的172倍，大约3440美元　

不能说数字那就说倍数吧！　

这还是在假设o3的推理成本和o1一样，都是60美元/百万token　

大概率o3会比o1贵　

但很不幸是，这次发布的又是期货。　

o3mini将于1月份上线　

而o3则需要跟Sora那个时候一样，申请红队测试资格才能使用　

在大陆的基本不用填　

总之，o3和o3mini确实是一次非常重大的更新，能力也是遥遥领先。　

但我们要看到它的不足，成本高，通用性还不足以称之为AGI　

本文链接：https://zqlvshi.net/chatgpt/757.html

o3 mini o3 openai o3 mini openai o3 chatgpt o3 mini chatgpt o3 o3 mini官网 openai o3官网

OpenAI今天正式推出了其最新的模型——大杯o3，以及小杯o3 mini

相关文章

2025年3月更新，ChatGPT全称拆解与底层逻辑深度科普

2025年3月实测，ChatGPT中文在线入口避坑指南（附最新链接）

2025年3月最新实测，用ChatGPT修改代码的七个隐藏技巧，资深程序员都在偷学的实战指南

2025年3月数据揭秘，ChatGPT用户破8亿后，普通人正在闷声发财的3个新玩法

2025年3月实测，国内用ChatGPT的隐藏技巧与替代方案

2025年3月最新解密，ChatGPT背后的天才团队与野心计划

2025年3月实测，ChatGPT无法下载？避开三大坑，试试这招更稳

>>>>>标题

网友评论