OpenAI 在年末发布会上发布了重磅的 o3 系列模型,标志着 AI 领域的一大进展。
此次发布的 o3 模型是 o1 的升级版本,出于对可能与英国电信公司 O2 商标冲突的考虑,OpenAI 决定跳过“o2”这一命名,直接使用“o3”。
这一点,OpenAI 的 CEO Sam Altman 也自嘲道,公司的命名确实有点“混乱”。
发布会由 Sam Altman、研究高级副总裁 Mark Chen 和研究科学家 Hongyu Ren(任泓宇)共同主持。
值得一提的是,任泓宇毕业于北京大学,是 o1 模型的重要贡献者之一,也是 GPT-4o 的核心开发人员,曾在苹果、微软和英伟达等知名企业有过丰富的实习经历。
o3 系列包括两款主打模型:
- OpenAI o3:旗舰版,性能强劲
- OpenAI o3 mini:轻量版,速度更快,成本更低,性价比极高
不过,别急着高兴,o3 系列目前并不会直接向普通用户开放,OpenAI 计划先进行外部安全测试,正式的发布时间预计在明年 1 月。
(现在有兴趣的朋友可以申请测试:https://openai.com/index/early-access-for-safety-testing/)
一、OpenAIo3 性能大飞跃
o3 模型的“纸面参数”迎来全方位升级。
在 SweepBench Verified 基准测试中,o3 的准确率达到了约 71.7%,比 o1 提高了整整 20%。
在编码方面,o1 在编程平台 Codeforces 上的得分为 1891,而 o3 在增强推理能力和延长思考时间后,得分高达 2727。
作为参考,Mark Chen 在测试中也仅得到了 2500 分,这意味着 o3 的表现已经接近甚至超过了许多专业程序员。
在数学领域,o3 的表现同样惊艳。
在 2024 年的美国数学竞赛 AIME 中,o3 的准确率为 90.67%,远超 o1 的 83.3%。
而在衡量博士级解答能力的 GPQA Diamond 测试中,o3 达到了 87.7% 的准确率,o1 则只有 78%。
可以想象,连领域内的博士专家也常常只能在自己的专长领域达到约 70% 的准确率。
面对接近满分的基准测试结果,OpenAI 推出了全新的数学测试——EpochAI Frontier Math。
这是当前最具挑战性的数学测试之一,题目复杂得连专业数学家也得花费数小时甚至数天才能解决。
尽管如此,o3 依旧在高算力下表现出色,得分超过 2457。
要谈 AGI(通用人工智能),就不能不提 ARC-AGI 这个专门测试 AGI 能力的基准。
由 Keras 的创始人 François Chollet 开发,ARC-AGI 通过图形推理测试模型的推理能力。
在测试中,当演示人员提出即兴问题时,o3 能够准确理解任务要求并完成任务,超越了许多人类的表现。
ARC-AGI 的每个任务都要求模型具备不同的技能,避免了简单的“死记硬背”,而是真正考察模型实时学习和应用新技能的能力。
在低算力的情况下,o3 在 ARC-AGI 上得分达到 75.7,经过加长思考时间和提高算力后,得分进一步提升至 87.5%,远超大多数人类水平。
OpenAI 的意思很明确:o3 正一步步将我们带向 AGI。
二、OpenAI o3 mini 速度更快,成本更低
继今年九月发布 o1 mini 之后,OpenAI 又推出了 o3 mini,继承了其强大的数学和编程能力,并且大幅降低了成本。
o3 mini 继续沿用低、中、高三种推理时间模式,用户可以根据任务的复杂度调整推理时间,简单任务快速完成,复杂任务则可以给模型更多的思考时间。
在早期测试中,o3 mini 在 Codeforces 上的得分随着推理时间的延长而逐步提升。在中等推理时间下,o3 mini 的得分已经超过了 o1 mini。
实际应用中,演示人员要求 o3 mini 生成一个 Python 代码生成器,该脚本能启动服务器并创建本地用户界面。模型能够迅速完成任务,并生成有效代码。
此外,o3 mini 还具备自我测试的能力。例如,它在 GPQA 数据集测试中以低推理模式完成复杂数据集的评估,仅用一分钟就完成了自我评估,准确率达到 61.62%。
在数学基准 AIME 测试中,o3 mini 在低推理模式下表现与 o1 mini 相当,而在中等推理模式下则超越了 o1 mini,且延时更低。
为了满足开发者的需求,o3 mini 还支持函数调用、结构化输出以及开发者指令等 API 功能。
o3 mini 和 o3 的申请通道现已开放,预计 o3 mini 将在 1 月向所有用户推出,而完整版 o3 模型将在未来发布。
在这场为期 12 天的年末发布会上,OpenAI 终于推出了压轴之作——o3 模型,给一度平淡的发布会带来了意想不到的高潮。
不到 3 个月的时间,OpenAI 便完成了 o1 模型的升级,从 GPT 系列到 o 系列的转型,显然是 OpenAI 深思熟虑后的战略选择,而这一决定也证明是正确的。
微软 CEO Satya Nadella 最近在一档播客节目中表示,OpenAI 在 AI 领域领先对手约两年之久。
但这种相对宽松的竞争态势或许正在发生变化。根据 Menlo Ventures 的报告,ChatGPT 的市场份额正在被逐步蚕食,从 2023 年的 50% 下降到 2024 年的 34%。
随着其他公司如 Anthropic、Google 等推出与 GPT-4、o1 相媲美的模型,OpenAI 的优势逐渐缩小。
而且,随着 Scaling Law 的瓶颈显现和高管的离场,OpenAI 之前凭借基础模型所获得的优势也正在加速消退。
面对 Grok- 3 和 Claude 等新模型的崛起,OpenAI 可能已经没有太多时间去再度创造长达两年的技术空窗期。
尽管如此,今年最强的 AI 厂商依然是 OpenAI,明年则可能因为技术发展的多样性,迎来许多不同的答案。
幸运的是,作为用户,我们将是这场变局中的最大赢家。