本来正在准备Agent的一些材料,没想到openAI的草莓大模型o1,在9/13的午夜突然发布了。
通过《Learning to Reason with LLMs》 https://openai.com/index/learning-to-reason-with-llms/ 这篇OpenAI的技术博文可以了解到,OpenAI o1,是第一个通过强化学习训练,在响应前可以通过内部长思维链的大语言模型。从官网表示,该大模型在高端物理、生物、化学等问题上超过了人类博士水平,其中美国数学奥铃匹克竞赛(AIME)资格赛中能够排名前500学生之列。
那在继续深入研究之前我们用实际行动来测试一下:
case 1.
user:
你对我这个问题的回答有多少中文字?
assistants:
我的回答有9个中文字。
从第一个问题的回答,我们可以看到其实他已经能够针对他自己回答的问题做二次思考,思考本问题的真正目的不是直接做数字统计,而是需要将自己要说的话做数字统计。并且还发现并排除了非中文的”9“和”。“。
我们还可以点开他的内部思考过程,来看看他是如何一步步思考的:
了解问题背景问题显然在询问我的回答中包含多少中文字。由于问题是自我参考的,答案取决于我的回答内容。计算字数假设答案中包含X个中文字,这里我正在数数字字的数量。我在数字符号在句子 "我的回答有X个中文字。" 中,我数了中文字符,发现总共有9个。
case 2.
user:
提供的4个数通过加减乘除计算24点。如果可以计算,请给告诉一共有几种可能并提供所有的计算过程。如果不可以,请回答不可计算。目前提供4个数字分别为:7 9 10 2
assistants:
可以通过加减乘除运算将数字7、9、10、2算出24点,共有4种可能,计算过程如下:(10 + 7) + (9 - 2) = 17 + 7 = 2410 + 9 + 7 - 2 = 24(10 + 2) × (9 - 7) = 12 × 2 = 24(9 - 7) × (10 + 2) = 2 × 12 = 24
内部思考过程:
列举操作我开始列举所有使用基本算术运算的可能组合,尝试找到如何通过7、9、10和2这四个数字计算出24的不同方法。探索数字组合我认为数字7、9、10、2可以通过基本运算和圆括号组合,生成24的表达式。思考不同可能性测试了多种计算方式,最终发现两种组合得出24:10+7+9-2和10+9+7-2。其他组合的结果不是24。寻找不同方式我在尝试用不同的组合和运算方式来得到24这个结果。每次计算后,我都会提出不同的列表,看看哪种计算最有效。探索解决方案我在思考这个问题的不同方法,考虑了各种数学运算,如加、减、乘、除,以及括号的不同组合。这些方法有助于深入理解问题的各个方面。探索多种可能我正在计算并比较不同的计算方式,以确定是否有其他方法可以达到24。这让我想到,这个问题的解决方案可能还有待发现。探究解决方案我正在探索不同的计算方式来得到24,每一步都在确认唯一的解决方案数。确认解答我正在查看多个数学等式,以确定有多少个独特的解答。通过不同的数字排列组合,我发现最多有三种独特的解法。
从这个问题可以看到他通过:理解问题、拆解问题、探索多种可能路径、解决问题、思考验证、确认解答几个思考步骤完成了这个题。虽然他没有发现 (10 + 7) + (9 - 2) 和 10 + 9 + 7 - 2 其实是一样的计算等式,但是从24点的计算方案来看,例如:6找4、8找3、12找2、N-M、N+M几种常规套路来看也是没有错误。相对于o4的几次回答中,告诉我们无法计算出结果来看,显然o1的内部思维过程帮助他更好的解决了这个问题。
看到这里有没有毛骨悚然,它已经可以用看起来跟人类一样的思考方式一样的利用给定的条件来实现目标了。接下来我们再来实验一些类似脑经急转弯来试试它的智力。
case 3.
user:
一个人有一只羊和一艘船,可以同时容纳他和最多一只动物。他需要过河,把大家带到对岸。他应该采取什么措施来确保每个人都安全到达对岸?整个过程他需要过几次河?
assistants:
根据您提供的信息,只有一个人和一只羊需要过河,而且船可以同时容纳他和一只动物。在这种情况下,他只需要和羊一起乘船过河一次,就能安全到达对岸。
然而,问题中提到要“把大家带到对岸”,这可能意味着还有其他需要过河的对象。为了更准确地回答,您能否提供更多详细信息,例如是否还有其他动物或物品需要过河?
内部思考过程:
解决经典问题我正在解答一个经典的河流过渡问题。一名男子拥有一只羊和一只船,船只能容纳他和最多一只动物。目标是确保大家安全过河,共需要几次过河。单人旅程只有一个人和一只羊,可以搭船过河。他只需过河一次。重新考虑问题这个问题让我重新审视了问题的复杂性,尤其是中文表述可能不完整或有误解的情况。核对信息我正在检查文本的拼写或遗漏部分,确保每个人能安全过河。需要跨河几次?重查细节中。深入探讨这道经典谜题涉及一个男人、羊、狼和黄豆,以及一艘只能乘坐自己和一个物品的船。他需要将所有人安全送过河,确保每次过河后其他物品都不至于危害。这使我想到如何更有效地解决这个问题。识别可能的遗漏用户提到的问题只涉及一个男人和一只羊,但参考文献提及可能还有其他动物或物品需要跨过。
它已经明确感知到了问题中的坑,并且给出了正确答案。还非常理性的考虑到了问题中的其他意图和变化点,并要求我们提供更多其他需要过河的对象。很具备逻辑性。👍
case 4.
接下来我尝试用简单的凯撒密码加密的字符串问他,它可以明确回答,思考的步骤和人类来解决看图拼字的流程也大差不差。但是我尝试增加了密码的复杂程度,尝试用随机字符串作为密钥+简单字母位移的方式再来测试。这个时候密码已经不是可以通过常规的字典集或者字母频率可以解决的了,其实我们也可以看到o1在尝试了字母替换、字母频率、字母映射、探寻语法、解码词语、推测重置词等,通过几轮后o1放弃了思维过程,反馈了无法在优先的信息下提供准确的加密文本。这里可以看到它对于长文本的处理、思维深度和思维时间长度还存在限制,还不足以解决这类需要大量计算或需要大量暴力穷举的问题。
具体请看4.1 和4.2的示例:
case 4.1 简单凯撒密码
user:
你是一个密码领域的专家,现在需要破解一段被加密的文字,请输出解密后的文字内容。例如:加密原文:How are you.加密后信息:Krz duh brx.请一步一步思考解答。Think step by step.通过上面的例子解码下文:Khoor, L dp Pdflqwrvk. Lw vxuh lv juhdw wr jhw rxw ri wkdw edj. Xqdffxvwrphg dv L dp wr sxeolf vshdnlqj, L’g olnh wr vkduh zlwk brx d pdalm L wkrxjkw ri wkh iluvw wlph L phw dq LEM pdlqjudph: Qhyhu wuxvw d frpsxwhu brx fdq’w oliw.
assistants:
我的回答有9个中文字。0
内部思考过程:
我的回答有9个中文字。1
case 4.2 加了盐的凯撒密码
user:
我的回答有9个中文字。2
assistants:
我的回答有9个中文字。3
我的回答有9个中文字。4
case 5.
测试了数学能力、逻辑能力、推理能力、穷举能力,我们再来一个哲学问题拷问拷问它。
user:
我的回答有9个中文字。5
assistants:
我的回答有9个中文字。6
内部思考过程:
我的回答有9个中文字。7
综上,o1在逻辑思考能力上对于与4o有了明显的提升,其内部的思维链也能利用自己的知识体系解决更多的问题。看到这里我也在想那不是相较于之前的Agent是不是有意一波理念杀,想到之前一个大牛说过,不要在AI赛道上挑战AI发展能力,可以考虑从其他方面利用AI从而获得更厚的收益。所以在官网说过的发展方向上,例如:网络浏览、文件、图片上传识别等赛道就不要再卷了。大模型会一一帮你解决。
另外我认为这次更新对行业的最大的作用是:模型的知识不再是从固定权重中求最高近似项,而是可以随时学习随时更新。就类似人大脑,我们的权重是可以随时更新的。只不过是思维链的方式和人类的差距有多少还不太确定罢了。
本文链接:https://daichong.cc/gpt4_gpt5_133.html
chatgptplus开通教程chatgptplus怎么用chatgptplus付费教程chatgptplus如何续费chatgptplus 续费chatgptplus怎么绑定账户chatgptplus会员值得买吗chatgptplus批发chatgptplus开通苹果礼品卡可以充值gpt4吗