ChatGPT官网

OpenAI今天正式推出了其最新的模型——大杯o3,以及小杯o3 mini

今天是OpenAI发布会的最后一天,我们熬夜小分队还在坚持熬夜的只剩下了5个人。  

有意思的是在今天的发布会开始之前,国外网友们已经通过各种方式发现,OpenAI可能要发布一个叫o3的模型,包括一些权威信源也有一样的说法。 

至于为什么不叫o2,原因很简单。 

o2被人注册过了。。。 

网友扒的速度比The Information发的快多了 

果不其然,OpenAI今天正式推出了其最新的模型——大杯o3,以及小杯o3 mini。 

看到Early evals就知道是期货了 

很多朋友看完之后觉得只是个期货,也没什么特别的。 

但其实真的很震撼,因为它向我们展示了AI在逻辑推理和解决复杂问题方面,已经前所未有地逼近了人类的极限能力边界。  

o3的意义不再是简单的能够文本生成或对话,而是第一次对我们人类智慧的核心能力发起挑战。 

很久没有听到过熟悉的中式口音 

今天来主持发布会的是一位中国人,Hongyu Ren 

他通过一系列令人印象深刻的基准测试,揭示了o3的强大性能。  

但其实值得关注的只有三个测试:Codeforces、FrontierMath和 ARC-AGI 

首先我们来看Codeforces 

Codeforces位于全宇宙编程最强的俄罗斯的萨拉托夫国立大学,据说最早是由一群大学生维护的。 

Codeforces很大的特点就是题目兼容并蓄,什么难度等级的题目都可以找到。 

并且题目很有意思,往往思维陷阱比较多,更多的时候往往是告诉你用什么算法你也不知道怎么做…… 

o3在编程竞赛平台Codeforces上的表现直接爆炸,ELO评分直接来到了2727分,这是一个什么概念?  

这意味着它已经超越了绝大多数人类程序员,达到了专业级选手的水平,甚至超越了OpenAI内部一些资深工程师的水平。 

如果o3参与排名的话,他已经排到了全球第175名  

已经超越99%的人类 

如果说代码能力还只是AI在既定规则和框架下的“熟练工”,那么o3在数学领域的表现则进一步颠覆了我们对AI能力的认知。 

它不仅在传统的数学竞赛测试中表现出色,展现了强大的计算和推理能力 

更重要的是,它在被称为“当今最难数学基准”的前沿数学基准测试(FrontierMath)中取得了历史性突破。 

这个测试由研究机构 Epoch AI 推出,专门用于评估 AI 的高级数学推理能力,地狱级难度的数学评测标准。 

AI的升学考试 

为了防止数据污染,测试内容均为最新的、还未发表的题目。 

关于题目的难度,即使是经验丰富的人类数学专家,也需要花费数小时或数天,才能解答测试题目。 

Epoch AI曾采访过菲尔兹奖得主陶哲轩(2006年)、蒂莫西·高尔斯(1998年)、理查德·博赫兹(1998年)以及国际数学奥赛教练陈谊廷。 

他们一致认为,FrontierMath的研究问题极具挑战性,需要是专家级别的人才能解答。 

陶老师认证过,这题包难的 

陶哲轩更是直言:“这些题非常有挑战性,我认为这项测试能够难住AI好多年。” 

在这个测试中,以往所有AI模型的准确率都低于2%,而o3却突破性地达到了25%以上。 

什么叫高手.jpg 

这意味着什么? 

这意味着AI开始具备解决极度复杂、甚至需要人类数学家耗费数小时乃至数天才能解决的难题的能力。  

然而,真正让我觉得震撼的,是o3在ARC(Abstraction and Reasoning Corpus)基准测试中的表现。 

ARC测试旨在评估AI的抽象推理和创造性解决问题的能力,它要求AI根据几个图像示例推断出隐藏的规则,并将这种规则其应用于新的场景。  

但ARC的题对人类来说很简单 

长期以来,ARC测试一直是AI领域的一大挑战,基本上都没法做到很好。  

你可能会觉得,这题目一般人正常的地球人类都会做吧? 

但对于现在的 AI 来说不亚于让他帮你洗衣、做饭、炒菜,完事下楼去倒个垃圾。 

历代的 ChatGPT 在 100 项半私有评测集评估中的得分来看,真的是菜的一批: 

  • GPT-3:0%

  • GPT-4:2%

  • GPT-4o:5%

  • o1-preview:21%

  • o1 满血版:32%

  • o1 Pro:50% 左右。

此项测试的重点并非考察外在的知识或技能,而是深入挖掘人类认知能力的本质,考察的是我们内在的、普遍拥有的认知机制。 

而o3在高计算资源下的测试中,竟然达到了87.5%的惊人成绩,已经超过了一般的普通人的平均分,70-80分。  

所以我才说,o3已经无限接近了AGI。 

除了功能强大的o3,OpenAI还推出了o3 mini,这是一款更注重成本效益的模型。 

o3 mini在保持了o3大部分核心功能的同时,大幅降低了计算成本和延迟,使得能够更广泛地应用于各种场景。 

并且他以低于o1的成本,实现了超越o1的能力。 

加量不加价了属于是。 

但o3的耀眼光芒背后,并非没有阴影。 

虽然它在特定领域展现出了惊人的能力,但这并不意味着它已经无所不能。 

恰恰相反,它并非真正的人工通用智能(AGI),仍然会在一些对人类来说轻而易举的任务上犯错,这暴露了它与AGI之间存在的巨大鸿沟。 

这是o3做不出来的题 

它更像是一个在特定领域高度优化的专家,而非一个能够像人类一样进行通用思考和推理的智能体。 

更重要的是,就像之前的许多AI模型一样,o3也可能存在对现有基准的“过拟合”问题,对新基准的适应能力仍然有待考验。 

说人话就是刷题刷多了,换个新题就不会做了。 

即将到来的ARC-AGI-2就是一个严峻的考验,如果o3在新基准上表现不佳,那就说明它并没有真正掌握抽象推理的本质,而只是在特定的规则和模式下表现出色。 

新赛季要来了,o3你准备好了吗? 

此外,支撑o3强大性能的是巨大的计算资源消耗,这不仅带来了高昂的经济成本,也对环境造成了不小的压力。 

如何降低计算成本,提高能源效率,是o3走向实用化的关键。 

根据ARC官方的说法,o3在low模式下解决一个问题要花费20美元左右,而如果是high模式的话,则是low模式的172倍,大约3440美元 

不能说数字那就说倍数吧! 

这还是在假设o3的推理成本和o1一样,都是60美元/百万token 

大概率o3会比o1贵 

但很不幸是,这次发布的又是期货。 

o3mini将于1月份上线 

而o3则需要跟Sora那个时候一样,申请红队测试资格才能使用 

在大陆的基本不用填 

总之,o3和o3mini确实是一次非常重大的更新,能力也是遥遥领先。 

但我们要看到它的不足,成本高,通用性还不足以称之为AGI 

本文链接:https://zqlvshi.net/chatgpt/757.html

o3 minio3openai o3 miniopenai o3chatgpt o3 minichatgpt o3o3 mini官网openai o3官网

相关文章

网友评论