OpenAI o3模型正式发布，AGI 终于来了，附抢先测试方法

浏览：319次阅读

没有评论

OpenAI 在年末发布会上发布了重磅的 o3 系列模型，标志着 AI 领域的一大进展。

此次发布的 o3 模型是 o1 的升级版本，出于对可能与英国电信公司 O2 商标冲突的考虑，OpenAI 决定跳过“o2”这一命名，直接使用“o3”。

这一点，OpenAI 的 CEO Sam Altman 也自嘲道，公司的命名确实有点“混乱”。

发布会由 Sam Altman、研究高级副总裁 Mark Chen 和研究科学家 Hongyu Ren（任泓宇）共同主持。

值得一提的是，任泓宇毕业于北京大学，是 o1 模型的重要贡献者之一，也是 GPT-4o 的核心开发人员，曾在苹果、微软和英伟达等知名企业有过丰富的实习经历。

o3 系列包括两款主打模型：

OpenAI o3：旗舰版，性能强劲
OpenAI o3 mini：轻量版，速度更快，成本更低，性价比极高

不过，别急着高兴，o3 系列目前并不会直接向普通用户开放，OpenAI 计划先进行外部安全测试，正式的发布时间预计在明年 1 月。

（现在有兴趣的朋友可以申请测试：https://openai.com/index/early-access-for-safety-testing/）

一、OpenAIo3 性能大飞跃

o3 模型的“纸面参数”迎来全方位升级。

在 SweepBench Verified 基准测试中，o3 的准确率达到了约 71.7%，比 o1 提高了整整 20%。

在编码方面，o1 在编程平台 Codeforces 上的得分为 1891，而 o3 在增强推理能力和延长思考时间后，得分高达 2727。

作为参考，Mark Chen 在测试中也仅得到了 2500 分，这意味着 o3 的表现已经接近甚至超过了许多专业程序员。

在数学领域，o3 的表现同样惊艳。

在 2024 年的美国数学竞赛 AIME 中，o3 的准确率为 90.67%，远超 o1 的 83.3%。

而在衡量博士级解答能力的 GPQA Diamond 测试中，o3 达到了 87.7% 的准确率，o1 则只有 78%。

可以想象，连领域内的博士专家也常常只能在自己的专长领域达到约 70% 的准确率。

面对接近满分的基准测试结果，OpenAI 推出了全新的数学测试——EpochAI Frontier Math。

这是当前最具挑战性的数学测试之一，题目复杂得连专业数学家也得花费数小时甚至数天才能解决。

尽管如此，o3 依旧在高算力下表现出色，得分超过 2457。

要谈 AGI（通用人工智能），就不能不提 ARC-AGI 这个专门测试 AGI 能力的基准。

由 Keras 的创始人 François Chollet 开发，ARC-AGI 通过图形推理测试模型的推理能力。

在测试中，当演示人员提出即兴问题时，o3 能够准确理解任务要求并完成任务，超越了许多人类的表现。

ARC-AGI 的每个任务都要求模型具备不同的技能，避免了简单的“死记硬背”，而是真正考察模型实时学习和应用新技能的能力。

在低算力的情况下，o3 在 ARC-AGI 上得分达到 75.7，经过加长思考时间和提高算力后，得分进一步提升至 87.5%，远超大多数人类水平。

OpenAI 的意思很明确：o3 正一步步将我们带向 AGI。

二、OpenAI o3 mini 速度更快，成本更低

继今年九月发布 o1 mini 之后，OpenAI 又推出了 o3 mini，继承了其强大的数学和编程能力，并且大幅降低了成本。

o3 mini 继续沿用低、中、高三种推理时间模式，用户可以根据任务的复杂度调整推理时间，简单任务快速完成，复杂任务则可以给模型更多的思考时间。

在早期测试中，o3 mini 在 Codeforces 上的得分随着推理时间的延长而逐步提升。在中等推理时间下，o3 mini 的得分已经超过了 o1 mini。

实际应用中，演示人员要求 o3 mini 生成一个 Python 代码生成器，该脚本能启动服务器并创建本地用户界面。模型能够迅速完成任务，并生成有效代码。

此外，o3 mini 还具备自我测试的能力。例如，它在 GPQA 数据集测试中以低推理模式完成复杂数据集的评估，仅用一分钟就完成了自我评估，准确率达到 61.62%。

在数学基准 AIME 测试中，o3 mini 在低推理模式下表现与 o1 mini 相当，而在中等推理模式下则超越了 o1 mini，且延时更低。

为了满足开发者的需求，o3 mini 还支持函数调用、结构化输出以及开发者指令等 API 功能。

o3 mini 和 o3 的申请通道现已开放，预计 o3 mini 将在 1 月向所有用户推出，而完整版 o3 模型将在未来发布。

在这场为期 12 天的年末发布会上，OpenAI 终于推出了压轴之作——o3 模型，给一度平淡的发布会带来了意想不到的高潮。

不到 3 个月的时间，OpenAI 便完成了 o1 模型的升级，从 GPT 系列到 o 系列的转型，显然是 OpenAI 深思熟虑后的战略选择，而这一决定也证明是正确的。

微软 CEO Satya Nadella 最近在一档播客节目中表示，OpenAI 在 AI 领域领先对手约两年之久。

但这种相对宽松的竞争态势或许正在发生变化。根据 Menlo Ventures 的报告，ChatGPT 的市场份额正在被逐步蚕食，从 2023 年的 50% 下降到 2024 年的 34%。

随着其他公司如 Anthropic、Google 等推出与 GPT-4、o1 相媲美的模型，OpenAI 的优势逐渐缩小。

而且，随着 Scaling Law 的瓶颈显现和高管的离场，OpenAI 之前凭借基础模型所获得的优势也正在加速消退。

面对 Grok- 3 和 Claude 等新模型的崛起，OpenAI 可能已经没有太多时间去再度创造长达两年的技术空窗期。

尽管如此，今年最强的 AI 厂商依然是 OpenAI，明年则可能因为技术发展的多样性，迎来许多不同的答案。

幸运的是，作为用户，我们将是这场变局中的最大赢家。

正文完

发表至：人工智能

2025-01-03

0

完美解锁！DeepSeek R1联网搜索功能，满血版API自带联网，全平台流畅使用

一句话让AI完成自动化办公， Open Interpreter 让大语言模型在本地部署运行

OpenAI o3模型正式发布，AGI 终于来了，附抢先测试方法

CHATGPT是什么意思，人工智能软件chatGPT怎么用

17岁少年改写AI未来：一个Prompt让Claude获得"人类式思考"

OpenAI o3模型正式发布，AGI 终于来了，附抢先测试方法

一、OpenAIo3 性能大飞跃

二、OpenAI o3 mini 速度更快，成本更低

GPT-4o 一键生成小红书爆款封面，根据视频文案主题 AI一键生成，反推绘画提示词

免费无限用！3步将 DeepSeek 接入 Cursor，支持 Composer Agent 代码编程AI工具

最好用的十款第三方 AI 客户端，详解功能、优势与选择指南

国内直连 GPT-4o 绘画P图，DeepSeek 完全免费！一个宝藏级的API站

iPhone 16 必看！Siri 接入 DeepSeek V3-0324 联网版，变身丝滑AI助手，语音图片视觉对话媲美 Apple Intelligence

OpenAI o3模型正式发布，AGI 终于来了，附抢先测试方法

一、OpenAIo3 性能大飞跃

二、OpenAI o3 mini 速度更快，成本更低

GPT-4o 一键生成小红书爆款封面， 根据视频文案主题 AI一键生成，反推绘画提示词

免费无限用！3步将 DeepSeek 接入 Cursor，支持 Composer Agent 代码编程AI工具

最好用的十款第三方 AI 客户端，详解功能、优势与选择指南

国内直连 GPT-4o 绘画P图 ，DeepSeek 完全免费！一个宝藏级的API站

iPhone 16 必看！Siri 接入 DeepSeek V3-0324 联网版，变身丝滑AI助手，语音图片视觉对话媲美 Apple Intelligence

GPT-4o 一键生成小红书爆款封面，根据视频文案主题 AI一键生成，反推绘画提示词

国内直连 GPT-4o 绘画P图，DeepSeek 完全免费！一个宝藏级的API站