OpenAI发布新一代推理模型o3 与简化版本o3-mini

先做个广告:如需代注册ChatGPT或充值 GPT4.0会员(plus),请添加站长微信:gptchongzhi

摘要:人工智能领域的领导者OpenAI在为期12天的新品发布活动最后一天推出了“压轴大作”——全新一代推理模型o3及其简化版本o3-mini。这一举措标志着OpenAI在推理模型研发领域再一次迈出了重要一步。

OpenAI发布新一代推理模型o3 与简化版本o3-mini 推荐使用GPT中文版,国内可直接访问:https://ai.gpt86.top 

o3模型表现全面领先

根据OpenAI的评估,o3在多个测试中展现出强大的推理能力,远超前代模型o1。在软件工程、竞赛数学和博士级生物化学测试中,o3的表现均有显著提升:

  • 软件工程能力: 在SWE-bench Verified代码生成评估基准中,o3的准确率达到71.7%,相比o1的48.9%提升了近47%,相比o1预览版的41.3%提升了近74%。

  • 竞赛数学能力: 在2024年AIME数学竞赛题目测试中,o3的准确率高达96.7%,相比o1的83.8%提升了15%,是o1预览版56.7%准确率的1.7倍。

  • 博士级生物化学能力: 在测试化学、物理和生物学专业知识的GPQA-diamond基准上,o3的准确率达到87.7%,相比o1的78.0%提高了近13%,也高于o1预览版的78.3%。

此外,o3在竞争性编程测评中的表现也十分亮眼。在Codeforces的Elo评分中,o3取得了2727分,远高于o1的1891分和o1预览版的1258分。相比o1,o3的得分提高了44%,而相比o1预览版更是翻倍。

为什么新模型命名为o3?

按照逻辑,o1的下一代模型应命名为o2。但OpenAI为了避免与英国电信服务商“O2”重名,最终将新模型命名为o3。CEO Sam Altman在直播中对此解释称,这是出于对O2品牌的尊重,同时也是一种差异化的命名策略。

OpenAI计划明年初发布o3,但向大众开放仍需等待

尽管o3的性能惊艳,但OpenAI并不急于将其面向大众开放。在本周五的直播中,CEO Sam Altman表示,希望在正式发布前,先建立一个联邦政府层面的测试框架,用于监控和减轻高级模型可能带来的风险。

Altman强调:“就像新药物或飞机在发布前需要经过一系列测试证明安全性一样,在发布新模型之前,也需要类似的测试框架,以确保模型的使用是安全的。”

目前,OpenAI已允许安全研究人员注册访问o3和o3-mini的预览版,正式版本预计将在明年初推出,但可能在一段时间内不会向普通大众开放。

结语

o3的问世为AI推理模型设立了新的行业标杆,其在软件工程、数学推理和科学领域的能力全面超越了前代模型。这一技术突破不仅进一步巩固了OpenAI在人工智能领域的领导地位,也为未来高级AI模型的安全监管提供了新的思路。然而,面向大众开放的时间尚未确定,OpenAI更倾向于在发布前确保模型的安全性和可控性。这一战略或许将引领AI技术迈向更加规范化和负责任的发展方向。

------------------------------------------------------------------------

想要体验chatgpt4o以及o1模型的朋友可以添加以下微信

OpenAI发布新一代推理模型o3 与简化版本o3-mini

本文链接:https://daichong.cc/gpt4_gpt5_583.html

GPT商店GPTs官网chatGPT商店GPT BuilderChatGPT插件ChatGPT插件商店GPT-5官网GPT-5发布OpenAI sora官网OpenAI sora视频

相关文章