2024年9月,科技界迎来了一个令人瞩目的时刻——OpenAI悄无声息地发布了o1模型,这是继GPT-4之后的又一重大飞跃。o1模型的问世,不仅仅是一个版本的升级,它在复杂任务推理方面的表现,尤其是在科学、编码、数学等领域的能力,已经超越了我们的想象。
一、o1模型的卓越性能
o1模型在多个领域展现出了惊人的能力:
编程领域的佼佼者:在Codeforce编程竞赛中,o1超过了89%的程序员,展现出资深软件工程师的水平。
数学竞赛的佼佼者:在美国数学奥林匹克竞赛预选赛AIME中,o1能够跻身前500名学生的水平。
信息学竞赛的金牌得主:在国际信息学奥林匹克竞赛中,o1的微调版本ioi在限定条件下分数超过了51%的人类选手。
物理、生物学考试的博士级准确度:o1在物理、生物学的考试上,准确度超过了人类博士级别。
二、o1模型的实际应用
o1模型的这些能力,不仅仅停留在理论层面,它们在实际应用中也展现出了巨大的潜力。从编程竞赛到数学问题的解决,再到物理和生物学的深入分析,o1模型都能够提供精准的答案和解决方案。
三、o1模型的思维方式
o1模型采用了创新的思维链技术,通过强化学习方法训练出一系列思考步骤,这使得它在处理复杂问题时更加得心应手。这种思维方式不仅提高了问题的解决效率,也使得o1模型在推理和计算方面的能力得到了极大的提升。
四、o1模型的未来展望
随着o1模型的不断优化和升级,我们有理由相信,它将在数学研究、编程、科学等领域发挥越来越重要的作用。正如数学家陶哲轩所评价的,o1的使用体验相当于指导一个能力一般但也能胜任部分工作的研究生,预示着大语言模型在未来的发展潜力。
结语:拥抱变革,迎接未来
o1模型的问世,不仅是技术的一次飞跃,也是我们对人工智能能力的一次重新认识。在这个变革的时代,让我们拥抱新技术,保护身心健康,一起在变革中冲浪,迎接更加精彩的未来。
这篇文章为您详细介绍了OpenAI的o1模型,它的性能、应用前景以及对未来的影响。我们相信,o1模型将成为人工智能领域的一个重要里程碑,为人类带来更多的可能性。
2024年9月14日凌晨,OpenAI悄悄上线了o1模型。这个新版实在让人等了太久!在发布前,曾经一度传为Q*计划,也曾一度被认为是大家期待的GPT-5,还曾被当作阿尔特曼在X发的草莓图里的草莓,但实际上最后的名字是o1。这是自GPT-4发布后,相比前一版提升最大的。
这期《科技参考》,我就来解读o1。
o1是一个更合适进行复杂任务推理的模型,比GPT-4o更擅解决科学、编码、数学方面的难题,在这些方面的表现远远超过GPT-4o。
如果具体到有价值的任务上,能做哪些呢?我列举一些:
1. 在Codeforce编程竞赛中超过了89%的程序员。
这又是一种什么水平呢?Codeforce是一个在程序员中非常受欢迎的竞赛平台,语言包括C++、Java、Python,题目涵盖算法和数据结构,每场比赛包含5-7道题,一共2小时的时间,能解多少解多少。解题速度和正确率是同样重要的。同样的答案,20分钟提交得到的分数就比40分钟才提交要高很多。
这个竞赛平台常年有10万人左右活跃的参赛者,o1在里面排名大约第11000。它对大多数常见算法和数据结构有深入理解和熟练应用。对大厂入职面试给出的那些题目,它是能轻松解决的。它还能够解决大部分中等难度的竞赛题目,部分困难题目也可以,在编程速度和代码质量上都达到了资深软件工程师的水平。如果这是一个20岁的年轻人,差不多是校内或者地区性质的竞赛中前3名的水平。
2. 在数学奥林匹克竞赛美国国内的预选赛AIME中,可以跻身前500名学生的水平。
我们知道,国际上有个奥林匹克数学竞赛,各国学生都很积极地参加,中国是里面常年的冠军队。美国在选拔国家队的时候有两个阶段的考试:第一阶段叫AMC10,能参加这个比赛的学生差不多都是各重点中学数学最拔尖的2-3个同学;在AMC10中表现最好的2.5%的学生可以参加第二阶段考试,也就是o1参加的这个AIME比赛。
每年AIME有大约2000-5000人参赛,每场比赛15道题,3个小时。能排名前500,数学能力差不多就是全美国数学最强的500个年轻人的水平。
3. 在国际信息学奥林匹克竞赛的正赛考试中,OpenAI给o1训练出了一个微调版本ioi——在限时10小时内,每题最多允许提交50次的情况下,分数超过了51%的人类选手;如果把提交次数增加到1万次,分数可以足够夺金牌了。
4. 在物理、生物学的考试上,可以超过人类博士级别的准确度。
OpenAI没有举具体实例,当前开放给用户的也只是预览版。我看大家试用体验的时候,有人向o1问了一大堆知乎味儿的问题,比如,所有人类都用笔算/心算产生的算力能否推翻英伟达的统治?如果我的家用打印机能够打印美元,我能比马斯克有钱吗?用向下射击的机枪组装成一个飞行背包能让人飞天吗?如果一个人体内所有的DNA在一瞬间消失了,会发生什么?
这些可以算模拟物理和生物问题吧?为了让大家有切身体验,咱们看看这个问题“用向下射击的机枪组装成一个飞行背包能让人飞天吗”o1是怎么回答的。
它自己先设置了参数:人的质量包含基础装备80公斤;单颗子弹质量10克;子弹初速度800m/s;机枪射速,它自己选择了M134速射机枪,每分钟6000发子弹。然后列出反冲力公式,算出反冲力是800牛。再算出重力,784牛。初步得出结论,可以让人离地。
但是接下来,o1继续做了深入的可行性分析。把弹药消耗和实际携带的质量考虑进来——如果一分钟消耗6000发子弹,这些子弹总质量就是60公斤,再加上人的80公斤,实际上总质量已经140公斤了,相当于1372牛,已经大于刚刚算出的反冲力800牛。
因为问题是能不能通过反冲力飞上天,所以如果还要继续想办法飞,可以调整的参数就是增加射速。至少需要1372牛的反冲力,射速是多少呢?o1也算了一下,相当于10290发子弹/分钟。但是,这个射速已经超过现有机枪的性能了。这还没算机枪的重量呢,就已经不够用了。接着,o1又去尝试下一种方法,就是改变子弹的规格,并且同时使用4挺机枪。我就不细说了。总之,把该加的质量加上,一算还是不够飞起来的。
能把一个问题考虑到这么细致,并且正确使用公式计算,还真是挺让人惊讶的。而这只是预览版的表现,正式版在做题方面拥有物理和化学博士的水准,我觉得可能性很高。
我在文稿中放了一张性能对比图,就是GPT-4o、o1预览版和o1正式版在数学、编程和博士水平的考试中的表现对比。大家可以看到,GPT-4o在数学和编程上的性能,只有o1预览版的四分之一到五分之一的水平,而正式版又比预览版有30%左右的提升。
很多人之前把以ChatGPT为代表的大语言模型看成一个文科生,其实从o1的性能看,它今后更可能是一个擅长推理和计算的高水准理工科学生,反而不太可能是什么优秀的文科生了。因为o1在文本的理解和生成上,性能其实略微不如上一版4o,而真正优秀的文科生应该有比较优秀的文字上的创造力,o1的改进方向反而离这个标准越来越远了。
除了OpenAI内部的研发人员,其实今天并没有多少外部用户可以用到o1的正式版,但有一个例外,就是数学家陶哲轩。
自从生成式AI在2023年初上线,数学界里第一个把AI当作研究工具的就是他。而且他并不是偶一为之,而是最近两年已经使用AI工具做出了不少有启发的成果。全球用AI研究数学,经验最丰富、成果最多的就是他,于是OpenAI专门给他的账户开了正式版权限。OpenAI显然知道,并不需要投广告,他肯定会用上一番,然后发表自己的看法。陶哲轩确实在几天后谈了使用感受,总结起来一共3条:
1. o1比之前的模型更强,但解决最前沿的数学问题还很困难。
2. o1已经可以找到合适的定理解决普通的数学问题了。
3. o1可以理解形式化证明的任务,并进行初步的分析。
陶哲轩还用更贴切的体验做了一个总结,那就是,o1的使用体验大致相当于指导一个能力一般但也能胜任部分工作的研究生,而之前版本的GPT则是一个完全无法胜任研究工作的学生。可能只需要再经过1到2代的升级,再加上其他数学工具包的集成,o1就能升级为称职的研究生,届时大语言模型将在数学研究中发挥重要作用。
咱们换个角度,如果你被陶哲轩评价为“能力一般的研究生”,你就偷着乐去吧。陶哲轩可是2006年菲尔兹奖、拉马努金奖的双料得主,2012年获得克拉福德奖的天才数学家。这跟杜兰特或者字母哥评价你篮球水平一般,只能帮他分担部分场上进攻是差不多的。
这么好的性能是怎么得到的呢?
o1和之前版本的大语言模型都不太一样,最主要的变化就是思维链技术。o1在尝试任何问题时都会使用一系列思考步骤,思维链的生成是靠强化学习的方法训练出来的。
强化学习作为一种算法,从前在大语言模型的训练中也会用到,那会儿是在需要算力最多的预训练结束之后进行微调时使用的。微调是基于人类反馈的强化学习,主要是为了满足法律、道德伦理上的要求,对某些预训练模型本来可以输出的内容加以筛选和限制。
但这次的强化学习并不是人类反馈,而是专门用来训练模型的推理能力和思维链生成的能力。思维链是什么?就是把一个复杂问题分解成先后步骤,或者主动做出条件假设,或者分类后逐个分析的一种思考技巧。比如刚刚那个问题,机枪向地面射击,人能不能靠反冲力飞起来,这里就涉及大量思维链。
在o1之前,有很多大语言模型都和GPT-4较量。到了2024年9月的时候,很多模型已经追平了GPT-4o的表现。在这之前,每个AI使用技巧的教程里都在强调提示词的重要性,也就是,当你问一个问题时,要给GPT一个角色去扮演。如果问题很复杂的话,你尽量把问题拆分,不要嫌麻烦,按步骤,大段大段写给它,告诉它这个问题要从哪些方面考虑,这样做通常会得到质量更高的回答。而且,后来很多AI创业企业也是在提示词的层面给自己的产品做套壳的,实际底层还是在使用GPT的API接口,只不过在接口外套了一层提示词的数据库。这个创业领域后来被称为提示词工程。
但是OpenAI o1发布后,提示词工程的创业者们都有点懵,因为o1的官方说明文档里专门说了:从前那套提示词技巧,在o1上不但没用,甚至可能适得其反,让输出答案质量下降。应该怎么提问呢?不要手把手的教o1怎么思考,只要保持问题简单直接,把问题中关键部分用分隔符隔开,不要使用过长的上下文就可以了。
o1几乎是一个完全不同的东西,AI创业中提示词工程看来前途不妙。
思维链这个环节不但非常重要,也非常敏感。因为用户在使用中是无法看到o1在调用具体思维链内容的,只能通过小箭头展开一个思维链摘要。尽管我们可以从它输出的内容去猜测思维过程,但o1是绝不展示这些的。OpenAI官方给出的理由是,内部需要监测模型的思维过程,因此不能在这些原始token中加入安全限制,于是这些内容就不方便让用户看到。
而实际上,思维链可能是一个超敏感内容。很多人猜测,o1的思维过程正是其他模型最好的训练数据,所以OpenAI绝不希望被别的公司薅羊毛。以至于当有人向o1询问,刚刚提的问题,对应的思维链的token具体是什么之后,还收到了OpenAI官方的警告邮件,如果继续再问,账号就会被禁,而且还真的有人被禁了一周。
从9月12日起,plus用户和team用户可以使用o1-preview和o1-mini两个版本,前者每周限制30条消息,后者每周限制50条消息。以后o1正式版上线后,o1-mini也会给免费用户使用,估计也是每周50条的限制。
今天o1预览版回答一个问题需要等十几秒到几十秒,而就在o1上线前几天,OpenAI也开放了另外几档会员价格——最便宜的是Plus版,每月20美元;然后是Team版本,其实就是可以多人使用的,每月60美元;最高的是Pro版本,每月200美元。很多人预测,o1正式版上线后,收费就是200美元/月。
今天OpenAI一共有1100万付费订阅用户,我们假设今后o1正式版上线,200美元/月的用户只是今天20美元/月用户规模的1/20,那是一种什么景象?就是美国奥林匹克数学邀请赛排名前500的数学精英人数,从500人猛增到55万人。与此同时,这55万人在物理、化学、编程上也都是博士研究生的水平。
尽管OpenAI做到这一点,从技术到财力上都是极为吃力的,甚至是冒了很大的被揩油的风险,但让我最意想不到的是,从大家普遍把图灵测试看作很神秘的东西到o1的诞生,这样的转变只经历了短短两年时间。这种剧变在人类文明史上都是罕见的,而我们赶上了。
我对大家的建议是,好好锻炼身体,保护好身心健康,让我们继续在变革中冲浪吧。
本文链接:https://daichong.cc/gpt4_gpt5_137.html
chatgpt介绍手机如何使用chatgptchatgptplus开通教程chatgptplus一个月多少钱chatgptplus可以用ios付费么为什么chatgptplus订阅不了国外用chatgptplus多少钱chatgptplus如何使用chatgptplus如何重置chatgptplus充值教程安卓