根据OpenAI内部消息,新一代AI模型(如o4或o5)将成为未来AI研发的核心,推动人工通用智能(AGI)的发展。这表明AGI技术可能已进入关键转折点,或将带来突破性进展。OpenAI正致力于提升模型的通用性和智能水平,以更接近人类认知能力。这一进展可能对AI行业和人类社会产生深远影响,但也引发了关于技术伦理和安全性的讨论。AGI的发展或将重塑多个领域,但同时也需谨慎应对潜在风险。
OpenAI最近透露,其下一代AI模型(代号o4或o5)可能成为未来AI研发的主导力量,并暗示通用人工智能(AGI)的发展已接近临界点,这一消息在全球范围内引发了广泛关注,因为AGI的实现被认为是人工智能领域的重大突破,可能彻底改变科技、经济和社会结构,OpenAI的进展表明,AI系统正朝着更强大、更通用的方向发展,能够处理复杂任务并表现出类人智能,这也引发了关于AGI安全性、伦理影响和监管的激烈讨论,OpenAI强调,其目标是在确保安全的前提下推动AGI的发展,并呼吁全球合作以应对潜在挑战。
o1的隐藏使命:数据工厂
o1的主要价值并非直接部署,而是为后续模型生成训练数据,每一个o1解决的问题,都将成为o3的训练数据点,当o1最终找到正确答案时,生成的干净对话记录将被用于训练更精准的AI直觉,这也解释了为什么Anthropic没有发布Claude-3.6-opus——它并未失败,而是选择将其保留为内部模型,并从中蒸馏出体积更小但智能惊人的Claude-3.6-sonnet,Gwern对OpenAI发布o1-pro感到些许惊讶,认为这些计算资源本可以用于o3的自举训练。
OpenAI员工的狂喜
OpenAI的员工们最近在社交媒体上表现出异常的乐观,几乎到了欣喜若狂的地步,Gwern认为,这是因为他们亲眼见证了从最初的4o模型到o3(以及更进一步的进展)的惊人提升,就像AlphaGo的等级分曲线:它不断上升……再上升……继续上升……OpenAI似乎已经“突破”了,跨过了最后的临界门槛,从仅仅领先竞争对手几年的尖端AI研究,进入了真正的“起飞期”。
o3的惊人表现
OpenAI最新发布的o3模型展现出了令人瞩目的性能:
- 在Codeforces上获得2727分,成为全球排名第175位的竞赛程序员。
- 在FrontierMath上得分25%,而这些题目通常需要专业数学家花费数小时才能解决。
- 在GPQA上得分88%,其中70%即代表博士级科学知识水平。
- 在ARC-AGI上得分88%,而普通人在这种高难度视觉推理问题上的平均分仅为75%。
更令人惊讶的是,o3-mini在许多编程任务上能以更低的成本超越o1的表现!
AGI已无悬念?
Sam Altman在2024年11月表示:“我能看到一条道路,我们正在做的工作会不断积累,过去三年的进步速度将在未来三年、六年或九年内持续。”一周前,他更是直言:“我们现在确信知道如何构建传统意义上的AGI……我们开始将目标转向超越这一点,瞄准真正意义上的超级智能。”
Gwern认为,这意味着OpenAI已经掌握了递归自我改进的关键,o4或o5将能够自动化AI研发并完成剩余的工作,至于其他公司?“让DeepSeek追逐他们的尾灯吧,”Gwern说,“一旦超级智能研究能够自给自足,他们就再也得不到竞争所需的大型计算资源了。”
这真的可能吗?
从最初的4o模型到现在的o3,进步速度就像AlphaGo的等级分曲线:它不断上升……再上升……继续上升……Gwern指出,如果简单的搜索就能奏效,国际象棋早在上世纪60年代就该被解决了,想要让一群猴子在打字机上敲出“Hello World”或许还能行,但要想在质子衰变前敲出完整的《哈姆雷特》,你最好还是去克隆莎士比亚,而现在,OpenAI已经证实o3-mini在许多编程任务上能以更低的成本超越o1的表现,这一趋势很可能会持续下去,导致外部可能永远看不到中间模型了——就像围棋选手从未见过AlphaZero训练过程中的随机检查点一样。
Metaculus和Manifold Market的AGI预测时间都提前了一年,虽然这些预测平台可能已经将推理计算扩展的影响计入其中,但AGI的脚步,似乎正在加快。
威胁模型的改变
过去我们担心AGI一旦出现就能廉价部署数亿个副本,但现实可能并非如此,运行一次o3的高性能任务就要花费3000美元!这意味着即使是恐怖分子窃取了前沿模型,也很难筹集足够的资金和基础设施来运行它,就算是国家级别的窃取者,在推理计算范式下,拥有最多芯片和算力的国家也能轻松胜出。
思维链监督:福是祸?
如果模型的思考过程更多地体现在人类可理解的思维链中,而不是内部激活,这对AI安全来说是个好消息,通过人类监督和可扩展的监督机制,我们能更好地控制AI系统,Meta最近的Coconut技术让人担忧——它能让模型在不使用语言的情况下进行连续推理,Marius Hobbhahn指出:“为了边际性能提升而牺牲可理解的思维链,这是在搬起石头砸自己的脚。”
强化学习的隐忧
OpenAI公开承认使用强化学习来改进o系列模型的思维链输出,这引发了一些担忧:
- 通过强化学习优化思维链比优化基础模型更便宜。
- 长链思维链的强化学习反馈可能提供更高质量的信号。
- OpenAI可能使用某种“元级控制器”来在不同的“思维树”分支间进行导航。
强化学习过度优化是许多AI安全威胁模型的起源,包括“激励权力寻求”,虽然基于过程的监督看起来比基于结果的监督更安全,但最新研究表明这种组合反而可能降低模型推理的可解释性。
新的安全挑战
如果第一批AGI(例如o5)采用推理计算范式,它们的参数量可能比传统同等性能的模型(如GPT-6)要小得多,这意味着:
1、小模型更容易被窃取。
2、但由于运行成本高昂,被盗模型的威胁大大降低。
3、模型特征可能更密集地嵌入在较小的网络中,增加了解释性的难度。
4、芯片专业化带来新的出口管制挑战。
AI研发的最后一程,或许,已经开始了。
网友评论