今天是OpenAI发布会的最后一天,我们熬夜小分队还在坚持熬夜的只剩下了5个人。
有意思的是在今天的发布会开始之前,国外网友们已经通过各种方式发现,OpenAI可能要发布一个叫o3的模型,包括一些权威信源也有一样的说法。
至于为什么不叫o2,原因很简单。
o2被人注册过了。。。
网友扒的速度比The Information发的快多了
果不其然,OpenAI今天正式推出了其最新的模型——大杯o3,以及小杯o3 mini。
看到Early evals就知道是期货了
很多朋友看完之后觉得只是个期货,也没什么特别的。
但其实真的很震撼,因为它向我们展示了AI在逻辑推理和解决复杂问题方面,已经前所未有地逼近了人类的极限能力边界。
o3的意义不再是简单的能够文本生成或对话,而是第一次对我们人类智慧的核心能力发起挑战。
很久没有听到过熟悉的中式口音
今天来主持发布会的是一位中国人,Hongyu Ren
他通过一系列令人印象深刻的基准测试,揭示了o3的强大性能。
但其实值得关注的只有三个测试:Codeforces、FrontierMath和 ARC-AGI
首先我们来看Codeforces
Codeforces位于全宇宙编程最强的俄罗斯的萨拉托夫国立大学,据说最早是由一群大学生维护的。
Codeforces很大的特点就是题目兼容并蓄,什么难度等级的题目都可以找到。
并且题目很有意思,往往思维陷阱比较多,更多的时候往往是告诉你用什么算法你也不知道怎么做……
o3在编程竞赛平台Codeforces上的表现直接爆炸,ELO评分直接来到了2727分,这是一个什么概念?
这意味着它已经超越了绝大多数人类程序员,达到了专业级选手的水平,甚至超越了OpenAI内部一些资深工程师的水平。
如果o3参与排名的话,他已经排到了全球第175名
已经超越99%的人类
如果说代码能力还只是AI在既定规则和框架下的“熟练工”,那么o3在数学领域的表现则进一步颠覆了我们对AI能力的认知。
它不仅在传统的数学竞赛测试中表现出色,展现了强大的计算和推理能力
更重要的是,它在被称为“当今最难数学基准”的前沿数学基准测试(FrontierMath)中取得了历史性突破。
这个测试由研究机构 Epoch AI 推出,专门用于评估 AI 的高级数学推理能力,地狱级难度的数学评测标准。
AI的升学考试
为了防止数据污染,测试内容均为最新的、还未发表的题目。
关于题目的难度,即使是经验丰富的人类数学专家,也需要花费数小时或数天,才能解答测试题目。
Epoch AI曾采访过菲尔兹奖得主陶哲轩(2006年)、蒂莫西·高尔斯(1998年)、理查德·博赫兹(1998年)以及国际数学奥赛教练陈谊廷。
他们一致认为,FrontierMath的研究问题极具挑战性,需要是专家级别的人才能解答。
陶老师认证过,这题包难的
陶哲轩更是直言:“这些题非常有挑战性,我认为这项测试能够难住AI好多年。”
在这个测试中,以往所有AI模型的准确率都低于2%,而o3却突破性地达到了25%以上。
什么叫高手.jpg
这意味着什么?
这意味着AI开始具备解决极度复杂、甚至需要人类数学家耗费数小时乃至数天才能解决的难题的能力。
然而,真正让我觉得震撼的,是o3在ARC(Abstraction and Reasoning Corpus)基准测试中的表现。
ARC测试旨在评估AI的抽象推理和创造性解决问题的能力,它要求AI根据几个图像示例推断出隐藏的规则,并将这种规则其应用于新的场景。
但ARC的题对人类来说很简单
长期以来,ARC测试一直是AI领域的一大挑战,基本上都没法做到很好。
你可能会觉得,这题目一般人正常的地球人类都会做吧?
但对于现在的 AI 来说不亚于让他帮你洗衣、做饭、炒菜,完事下楼去倒个垃圾。
历代的 ChatGPT 在 100 项半私有评测集评估中的得分来看,真的是菜的一批:
GPT-3:0%
GPT-4:2%
GPT-4o:5%
o1-preview:21%
o1 满血版:32%
o1 Pro:50% 左右。
此项测试的重点并非考察外在的知识或技能,而是深入挖掘人类认知能力的本质,考察的是我们内在的、普遍拥有的认知机制。
而o3在高计算资源下的测试中,竟然达到了87.5%的惊人成绩,已经超过了一般的普通人的平均分,70-80分。
所以我才说,o3已经无限接近了AGI。
除了功能强大的o3,OpenAI还推出了o3 mini,这是一款更注重成本效益的模型。
o3 mini在保持了o3大部分核心功能的同时,大幅降低了计算成本和延迟,使得能够更广泛地应用于各种场景。
并且他以低于o1的成本,实现了超越o1的能力。
加量不加价了属于是。
但o3的耀眼光芒背后,并非没有阴影。
虽然它在特定领域展现出了惊人的能力,但这并不意味着它已经无所不能。
恰恰相反,它并非真正的人工通用智能(AGI),仍然会在一些对人类来说轻而易举的任务上犯错,这暴露了它与AGI之间存在的巨大鸿沟。
这是o3做不出来的题
它更像是一个在特定领域高度优化的专家,而非一个能够像人类一样进行通用思考和推理的智能体。
更重要的是,就像之前的许多AI模型一样,o3也可能存在对现有基准的“过拟合”问题,对新基准的适应能力仍然有待考验。
说人话就是刷题刷多了,换个新题就不会做了。
即将到来的ARC-AGI-2就是一个严峻的考验,如果o3在新基准上表现不佳,那就说明它并没有真正掌握抽象推理的本质,而只是在特定的规则和模式下表现出色。
新赛季要来了,o3你准备好了吗?
此外,支撑o3强大性能的是巨大的计算资源消耗,这不仅带来了高昂的经济成本,也对环境造成了不小的压力。
如何降低计算成本,提高能源效率,是o3走向实用化的关键。
根据ARC官方的说法,o3在low模式下解决一个问题要花费20美元左右,而如果是high模式的话,则是low模式的172倍,大约3440美元
不能说数字那就说倍数吧!
这还是在假设o3的推理成本和o1一样,都是60美元/百万token
大概率o3会比o1贵
但很不幸是,这次发布的又是期货。
o3mini将于1月份上线
而o3则需要跟Sora那个时候一样,申请红队测试资格才能使用
在大陆的基本不用填
总之,o3和o3mini确实是一次非常重大的更新,能力也是遥遥领先。
但我们要看到它的不足,成本高,通用性还不足以称之为AGI
本文链接:https://zqlvshi.net/chatgpt/757.html
o3 minio3openai o3 miniopenai o3chatgpt o3 minichatgpt o3o3 mini官网openai o3官网
网友评论