o3 压台登场:OpenAI 卷动推理 AI 模型风云,迈向 AGI 新巅峰

发布时间:2024-12-24 19:39:30 来源:互联网

本站 12 月 21 日消息,“12 Days of OpenAI”活动已拉上帷幕,OpenAI 的 o3 系列大模型压台登场,官方称在某些场景下,其推理能力非常接近通用人工智能(AGI)。

名称

最新的 AI 模型为何跳过 o2,叫做 o3 呢?OpenAI 公司首席执行官山姆・阿尔特曼(Sam Altman)在今天早上的直播活动,表示是为了规避和英国电信运营商 O2 的商标冲突。

邀请安全测试

o3 是 o1 推理模型的继任者,包含完整版和精简版(o3-mini),后者主要针对特定任务进行了微调。

OpenAI 公司暂未完全开放 o3 和 o3-mini 两款模型,即日起先邀请安全研究人员,注册测试预览版 o3-mini 模型,后续再推出 o3 预览版。

现在,感兴趣的朋友可以提交申请:https://openai.com/index/early-access-for-safety-testing/。

阿尔特曼并未公布 o3 模型的具体开放日期,仅透露 2025 年 1 月底推出 o3-mini,后续再推出 o3。

o3 模型推理

OpenAI o3 模型和主流 AI 模型的一个最大不同点,在于会展开事实核查,从而可以规避一些常见的模型陷阱,但这个过程会产生响应延迟,根据推理难度,通常是几秒到几分钟。

o3 系列模型的另一个亮点是使用“私人思想链”(private chain of thought)进行“思考”,它可以在响应前暂停,考虑相关提示并解释其推理过程,最终总结出最准确的答案。

o3 的新功能之一是可以调整推理时间,分为低、中、高三种计算级别,计算级别越高,o3 的任务执行性能越好。

性能和 AGI

AGI 的全称是 artificial general intelligence,直译过来就是通用人工智能,泛指 AI 可以像人类一样执行任何任务,OpenAI 公司官方定义为“在最具经济价值的工作中超越人类的高度自治系统”。

OpenAI 公司正积极朝 AGI 目标迈进,除了巩固其在 AI 领域的地位之外,还在投资领域有特别的含义。

根据 OpenAI 与密切合作伙伴和投资者微软的交易条款,一旦 OpenAI 达到 AGI,公司就不再有义务向微软提供其最先进的技术(即符合 OpenAI 的 AGI 定义的技术)。

而 o3 是 OpenAI 是迈向该目标的重要一步,在 ARC-AGI 基准测试中,o3 在高计算设置下获得了 87.5% 的分数,在低计算设置下得分为 75.7%,性能是 o1 的三倍。

ARC-AGI 联合创始人 François Chollet 表示,诚然高计算设置非常昂贵,每个任务要花费数千美元。

本站援引该媒体报道,在其他基准测试中,o3 表现出色:

    在 SWE-Bench Verified 编程任务基准测试中,o3 比 o1 高出 22.8 个百分点;

    在 Codeforces 编程技能测试中,o3 获得了 2727 的评分;

    在 2024 年美国数学邀请赛中,o3 得分 96.7%;

    在 GPQA Diamond 研究生水平生物、物理和化学测试中,o3 得分 87.7%;

    在 EpochAI 的 Frontier Math 基准测试中,o3 解决了 25.2% 的问题(其他模型均不超过 2%),创造了新纪录。

    这些结果来自 OpenAI 的内部评估,需要等待外部客户和机构的基准测试结果来进一步验证。

    安全

    o3 的发布标志着 OpenAI 在通用人工智能领域迈出了重要一步。虽然 o3 的能力令人印象深刻,但其潜在风险也需要引起重视。OpenAI 承诺将致力于模型安全,并与其他机构合作构建更完善的基准测试体系。

本周热门攻略

1
糖心APP免费成人视频:如何选择最适合自己的观看平台?

糖心APP免费成人视频:如何选择最适合自己的观看平台?

2024/12/07

2
陌陌影视在线观看高清完整版:畅享最新影视资源,提升观影体验

陌陌影视在线观看高清完整版:畅享最新影视资源,提升观影体验

2024/12/12

3
狗和人胶配方20分钟:快速缓解狗狗皮肤创伤与关节不适的有效方法

狗和人胶配方20分钟:快速缓解狗狗皮肤创伤与关节不适的有效方法

2024/12/05

4
汗汗漫画免费登录页面如何查看漫画?是否支持下拉式浏览?

汗汗漫画免费登录页面如何查看漫画?是否支持下拉式浏览?

2024/12/23

5
精品无人乱码一区二区三区的独特性与挑战:分析乱码产生原因及解决方法

精品无人乱码一区二区三区的独特性与挑战:分析乱码产生原因及解决方法

2024/12/01

6
成品视频CRM999:助力视频创作者与企业实现精准营销与高效管理

成品视频CRM999:助力视频创作者与企业实现精准营销与高效管理

2024/12/16

7
蜜桃精产国品一二三产区的区别在哪?如何根据不同产区选择最佳蜜桃?

蜜桃精产国品一二三产区的区别在哪?如何根据不同产区选择最佳蜜桃?

2024/12/10

8
日本一线产区和二线产区的区别有哪些?从气候、产量、价格等多方面分析

日本一线产区和二线产区的区别有哪些?从气候、产量、价格等多方面分析

2024/11/28

9
如何在哔哩哔哩免费观看少女视频:详细指南与操作步骤

如何在哔哩哔哩免费观看少女视频:详细指南与操作步骤

2024/12/16

10
乱女1一7第一章乱女小丹:揭示人物内心矛盾与情感冲突的开篇之章

乱女1一7第一章乱女小丹:揭示人物内心矛盾与情感冲突的开篇之章

2024/12/18