《电子行业OpenAI o1:逻辑能力显著提升推理侧算力消耗大幅增加-240919(23页).pdf》由会员分享,可在线阅读,更多相关《电子行业OpenAI o1:逻辑能力显著提升推理侧算力消耗大幅增加-240919(23页).pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、分析师:于芳博分析师:于芳博SAC编号:编号:S1440522030001发布日期:发布日期:20242024年年9 9月月1919日日本报告由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在否港提供。同时请务必阅读正文之后的免责条款和声明。阅读正文之后的免责条款和声明。OpenAI o1:逻辑能力显著提升,推辑能力显著提升,推理侧算力消耗大幅增加理侧算力消耗大幅增加中信建投证券中信建投证券CHINA SECURITIES证券研究报告证券研究报告 行业动态研究行业动态研究核心观点:核
2、心观点:OpenAIOpenAI 发布新发布新的具有深度思考能力的的具有深度思考能力的0101推理模型,模型在复杂问题上花更多时间进行思考而非直接回应,具有改善和调整策推理模型,模型在复杂问题上花更多时间进行思考而非直接回应,具有改善和调整策 略的能略的能力,在科学、代码和数学等复杂问题上表现出色。力,在科学、代码和数学等复杂问题上表现出色。OpenAIOpenAI o1o1融合思维树和强化学习,实现思维模式的深度探融合思维树和强化学习,实现思维模式的深度探索。索。OpenOpen o1o1在在模型 推理侧同样满足推理侧同样满足scaling law,即模型推理时间越久模型处理复杂问题能力愈强
3、,通过不断的思维树检索和反复自我博弈,即模型推理时间越久模型处理复杂问题能力愈强,通过不断的思维树检索和反复自我博弈,o1 呈现出类人的呈现出类人的 逻辑思维潜力。由于推理过程的反复博弈,新架构下推理侧算力消耗将大幅增加逻辑思维潜力。由于推理过程的反复博弈,新架构下推理侧算力消耗将大幅增加。OpenAIOpenAI o1o1具备深度思考能力,在复杂问题上表现出色。具备深度思考能力,在复杂问题上表现出色。从ChatGPT爆火整个社交网络后,大模型行业进入如火如荼的发展阶段,模型的 基础能力得到显著提升,然而Transformer模型由于其架构限制存在一定的能力边界难以逾越,涉及到复杂数理逻辑推理
4、时表现仍然有待 提升。提示词工程应运而生,在合理的提示词设计下,大模型推理能力得到显著提升。OpenAI发布新的具有深度思考能力的o1推理模型,模型在复杂问题上花更多时间进行思考而非直接回应,具有改善和调整策略的能力,在科学、代码和数学等复杂问题上表现出色。OpenAIOpenAI o1o1 融合思维树和强化学习,实现思维模式的深度探索。融合思维树和强化学习,实现思维模式的深度探索。思维链和思维树通过中间推理步骤帮助大模型实现了复杂的推理能力,大 语言模型能够自己对严谨推理过程的中间思维进行评估。强化学习是人工智能重要的研究领域,智能体在与环境的反复交互过程中持续 学习,不断最大化其奖励。0p
5、enAl o1深度融合思维树和强化学习,实现思维树的自我训练,同时通过广度搜索和深度搜索不断优化其思 维树结构,进而实现思维模式的深度探索。推理侧推理侧scalingscaling lawlaw同样存在,大模型算力需求逐步迁移至推理侧同样存在,大模型算力需求逐步迁移至推理侧。过去在训练侧证实了scaling law的存在,即训练越多模型愈发聪明。Open ol在模型推理侧同时发现了scaling law,即模型推理时间越久模型处理复杂问题能力愈强,推理侧的scaling law同样展现了巨大的潜 力,通过不断的思维树检索和反复自我博弈,o1呈现出类人的逻辑思维潜力。由于在推理过程的反复博弈,模
6、型当前推理算力需求大幅 提升,大模型整体算力消耗从训练侧逐渐迁移至推理侧,对整个算力需求起到长期的重要支撑。风险提示:大模型技术发展不及预期、商业化落地不及预期、政策监管力度不及预期、数据数量与数据质量不及预期风险提示:大模型技术发展不及预期、商业化落地不及预期、政策监管力度不及预期、数据数量与数据质量不及预期。模型中引入注意力机制,在自然语言的理解和生成也取得了巨大的成功,当前已经成为自能力再度提升,基础能力和具备了多模态输入的能图图:大大 语语 言言 模模 型型 发发 展展 历历 程程 图图2020Stable diffusion图像生成图像生成Diffusion model小模型阶段小模
7、型阶段2021Vision transformerCNNGPT GPT-2LSTMRoBERTa 2017年,Google 在Transformer然语言处理领域最常见的基础模型。2022年底,OpenAI发布的具备类人对话体验的ChatGPT爆火整个社交网络,2023年3月,GPT-4 专业知识全面升级,微软亚洲研究院称GPT-4爆发出通用人工智能火花。2023年,随着大语言模型进入到相对成熟的阶段,大模型逐步进入到多模态的发展阶段,GPT-4V 力,结合DALL E等模型,GPT-4 turbo同时具备了多模态的输出能力。大语言模型发展历史大语言模型发展历史资料来源:OpenAI,Goog
8、le,StabilityAI,Midjourney,2023多模态阶段多模态阶段微软,中信建投大模型阶段大模型阶段MidjourneyGPT-4 TurboTransformer文字生成Kosmos-1DeBERTaChatGPTALBERTGPT-4VPaLM-EDALL-EGPT-3GPT-4BERT20222020CLIPRNN3大语言模型存在一定的能大语言模型存在一定的能力边界力边界大语言模型的局限性:大语言模型的局限性:逻逻辑性相对较弱:辑性相对较弱:大语言模型在文本的理解和生成上表现出色,但是涉及到数理逻辑推理时表现仍然有待提升。记记 忆力局限于上下文窗口:忆力局限于上下文窗口:标
9、准版GPT4的上下文窗口长度为8192tokens,GPT4在长度约6000字的文本范围内具备记忆力。信信息准确性和时效性有限:息准确性和时效性有限:大模型存在幻觉问题,可能产生误导性输出,同时信息的及时性取决于最近一次的训练时间。交交 互模式单互模式单 一:一:文本信息是大语言模型的主要交互方式,交互方式相对单一。图图:大大 语语 言言 模模 型型 的的 局局 限限 性性局限性局限性通过深度学习拟合输出,难以具备较强的 逻辑性有限的上下文窗口带来了有限的记忆力存在幻觉问题以文本信息交互为主,交互模式相对单一方面方面逻辑性逻辑性记忆力记忆力准确性准确性交互模式交互模式4架构关联架构关联深度学习
10、上下文窗口大语言模型Transformer 模型资料来源:中信建投中信建投证券中信建投证券CHINA SECURITIES 在大语言模型中,提示工程是指设计和编写提示文本,以引导模型生成符合特定要求的语言输出。提示工程可以包括选择合适的词汇、语法、上下文和主题等元素,以及使用不同的技巧和策略来影响模型的生成行为和结果。提示工程的作用:提示工程的作用:提升大语言模型处理复杂任务场景的能力,如问答和算术推理能力。通过提示工程设计、研发强大的工程技术,实现和大语言模型或其他生态工具的高效接轨。Direct Prompt Manual-CoT Best CoT w/o SC Best CoTw/SC
11、BestCoT*10090807060GSMBK AQUA SVAMPArithmetic Reasoning提示词提示词 1 这是与AI研究助理的对话。助手的口吻是技术和科学的。23 人类:你好,你是谁?4 AI:您好您好!我是一位我是一位AI研究助手。请问今天我能帮您什么忙吗研究助手。请问今天我能帮您什么忙吗?5 人类:您能告诉我黑洞是如何形成的吗?6 AI:78 意图意图或解释聊天机器人的内容9 身份身份指示聊天机器人将用哪种风格或口吻来回复提示词工程:提升回答效果提示词工程:提升回答效果图:提示词工程示例图:提示词工程示例 图图:提提 示示 词词 显显 著著 提提 升升 模模 型型 在
12、在 特特 定定 问问 题题 上上 的的 正正 确确 率率资料来源:CSDN,Igniting Language Intelligence:The Hitchhikers Guide From Chain-of-Thought Reasoning to Language Agents,中信建投CSQACommonsenseStrategy QAReasoningSymbolic ReasoningCoin Flip5思维链(CoT)提示通过中间推理步骤实现了复杂的推理能力。通过将其与少样本提示相结合,以获得更好的结果,以便在回答之前进行推理的更复杂的任务。对于需要探索或预判战略的复杂任务来说,传
13、统或简单的提示技巧是不够的。Yao提出了思维树(Tree of Thoughts,ToT)框架,该框架基于思维链提示进行了总结,引导语言模型探索把思维作为 中间步骤来解决通用问题。思维树中思维由连贯的语言序列表示,这个序列就是解决问题的中间步骤。使用这种方法,大语言模型能够自己对严谨推理过程的中间思维进行评估。大语言模型将生成及评估思维的能力与搜索算法(如广度优 先搜索和深度优先搜索)相结合,在系统性探索思维的时候可以向前验证和回溯。图:思维链增强大语言模型的逻辑思维能力图:思维链增强大语言模型的逻辑思维能力 图图:思思 维维 链链 和和 思思 维维 树树 示示 意意 图图概念一:思维链和思维
14、树概念一:思维链和思维树InputMajority voteOutputInputOutput资料来源:Tree of Thoughts:Deliberate Problem Solving with Large Language Models,中 信 建 投中信建投证券中信建投证券CHINA SECURITIES首先,您从10个苹果开始。您给了邻居和修理工各2个苹果,所以您还剩下6个苹果。然后您买了5个苹果,所以现在您有11个苹果。最后,您吃了1个苹果,所以您还剩下10个苹果。我去市场买了10个苹果。我给了邻居2个苹果和修理工2个苹果。然后我去买了5个苹果并吃了1个。我还剩下多少苹果 我们逐
15、步思考我去市场买了10个草果。我给了邻居2个苹果和修理工2个苹果。然后我去买了5个苹果并吃了1个。我还剩下多少草果?11个苹果(a)Input-Output (c)Chain of Thought (c)Self ConsistencyPrompting(IO)Prompting(CoT)withCoT(CoT-SC)(d)Tree of Thoughts(ToI)零样本 提示InputInputOutputOutput提示:提示:输出:输出:6 强化学习是人工智能重要的研究领域。强化学习中,有两个可以进行交互的对象:智能体和环境,智能体和环境交互以 获得经验,智能体从中学习执行最佳行动,从而
16、最大化其奖励。智能体(Agent)可以感知外界环境的状态(State)和反馈的奖励(Reward),并进行学习和决策。智能体的决策功能是指根 据外界环境的状态来做出不同的动作(Action),而学习功能是指根据外界环境的奖励来调整策略。环 境(Environment)是智能体外部的所有事物,并受智能体动作的影响而改变其状态,并反馈给智能体相应的奖励。强化学习的基本要素包括:状态、动作、策略、状态转移概率、即时奖励。图:强化学习中智能体与环境交互过程图:强化学习中智能体与环境交互过程 图图:强强 化化 学学 习习 的的 特特 点点 和和 核核 心心 问问 题题概念二:强化学习概念二:强化学习智能
17、体奖励rt+1环境两个特点两个特点试错试错 延迟奖延迟奖励励Trial and Error Delayed Reward核心问题核心问题探索与利用探索与利用Exploration and Exploitation7 资料来源:CSDN,中信建投中信建投证券中信建投证券CHINA SECURITIES动作a状 态St Q-learning 是人工智能领域的基本概念,特别是强化学习领域。它是一种无模型强化学习算法,旨在学习特定状态下动 作的价值。Q 学习的最终目标是找到一个最优策略,定义在每个状态下采取的最佳行动,从而随着时间的推移最大化累积 奖励。Q-learning 基于Q函数的概念,也称为状
18、态-动作值函数。该函数需要两个输入:状态和操作,它返回对预期总奖励的估 计,从该状态开始,采取该行动,然后遵循最优策略。图图:Q Q-l l e e a a r r n n i i n n g g 是是 路路 径径 寻寻 找找 中中 的的 常常 用用 方方 法法Q-learningSG中信建投证券中信建投证券CHINA SECURITIES资料来源:中信建投00 AlphaGoAlphaGo采用价值神经网络与策略采用价值神经网络与策略神经网络,神经网络,两种卷积神经网络,其中价值神经网络还可分为有监督学习和强化学习两 种模式。种模式。监督学习策略网络监督学习策略网络(SLPolicySLPol
19、icy NetworkNetwork):):通过输入海量的人类棋谱,学习模仿人类下棋,用于预测走子。快速走子网络快速走子网络(Rollout(Rollout Policy):Policy):训练方式与目标和监督学习策略网络一样,但为了提高速度,其走棋质量较低。强化学习策略网络强化学习策略网络(RLPolicyRLPolicy NetworkNetwork):):通过让训练好的监督学习策略网络进行自我博弈,让机器学习如何去赢棋。价值网络价值网络(Value(Value NetworkNetwork):):通过强化学习的方法,学习预测游戏结果,并估计每个状态的胜率。图:图:AlphaGo原理示意图
20、原理示意图 图图:A A l l p p h h a a G G o o 中中 涉涉 及及 的的 神神 经经 网网 络络SL policy networkPoXXpositionsAlphaGo2900万盘面6-9段人人类于对奔棋分 类快速走对个子新 至 蒙 特 卡 洛 搜 素 树3 0 0 0 万 盘 面 自 我 对 奔 棋 局拟合棋策略网络 价值网络当前盘面开始 对个子直接局 高势判图实战中两种评估方法权重相同资料来源:Deepmind,中信建投中信建投证券中信建投证券CHINA SECURITIESRL policy network Value networkPp Vo自 我 训 练 部
21、 分 在 线 对 战 部 分Self-play positionsNeural networkHuman expertRolloutpolicyData9P AlphaGo Zero的核心思想是:蒙特卡罗树搜索算法生成的自我对弈结果可以作为神经网络的训练数据。指导老师不同:在AlphaGo版本,策略网络通过输入人类棋谱进行训练,指导老师为人类棋谱;在AlphaGo Zero版本,神经网络基于蒙特考罗树搜索算法生成的对弈作为训练数据,指导老师为蒙特卡洛树搜索。图:AlphaGo 和AI phaGo Zero的差异 图:Al phaGo Zero自我对弈过程a.Sell-Play 812#1b.N
22、eural Network Training81并foPn3AlphaGo ZeroAlphaGOAlphaGOAIphaG0AIphaG0 ZeroZero使用时使用时机机在实际对战中使用在实际对战中使用在训练阶段中使用在训练阶段中使用输出内 容第一层行动状态的访问次数第一层行动访问次数,并基于此计 算得出一个概率分布10 资料来源:Deepmind,中信建投中信建投证券CHINA SECURITIES存在快速走棋rollout部分 不存在快速走棋rollout部分本身结 构#P 12fe832318T18283822 选择:选择:从根节点开始,算法根据特定策略浏览有希望的子节点,直到到达叶
23、节点为止。扩展:扩展:在叶子节点处,除非它代表了博弈的终结状态,否则会添加一个或多个可行的新子节点,以说明未来可能采取的 行动。模拟或评估:模拟或评估:从新添加的节点开始,算法进行随机模拟-通常称为“滚动”-通过任意选择棋步直到博弈结束,从而评 估节点的潜力。反向传播:反向传播:模拟后,结果(胜、负或和)会传播回根节点,更新每个遍历节点的统计数据(如胜、负),为未来决策提 供依据。图图 :0 p e n A I o 1思维树思维树+Q-learning=0penAI o1资料来源:Understanding Transformer ReasoningCapabilities via Graph
24、 Algorithms,Deepmind,中信建投十 =OpenAI o1中信建投证券中信建投证券CHINA SECURITIESEvaluation11 奖励模型可用于强化学习流程来区分期望输出和不期望输出,研究如何有效训练可靠的奖励模型非常重要。存在两种不同的奖励模型训练方法:结果监督和过程监督。结果监督奖励模型仅使用模型思路链的最终结果进行训练,而过程监督奖励模型则会接收思路链中每一步的反馈,它提供更精确的反馈,因为指定了发生的错误的确切位置,它更 容易被人类解释,并且它更直接地奖励遵循人类认可的思路链的模型。在逻辑推理领域,使用结果监督训练的模型经常 使用错误的推理来得出正确的最终答案
25、。OpenAI 构建了一个用于过程监督的PRM800K 数据集,其中包括了75000个问题中的800000个解决步奏的标签,同时通过主 动学习策略降低了标签搜集的难度,数据获取效率大约提升了2.6倍。图:过程监督打标签过程图:过程监督打标签过程 图图:不不 同同 监监 督督 下下 的的 模模 型型 表表 现现The denominator of a fraction is 7 less than 3 times thenumerator If the fraction is equivalent to 2/5,what is the numerator of the traction?(Ans
26、wer:14)巴 Lets cal the numerator x.巴 So the denominator is 3x-7.四巴 We know that x/(3x-7)=2/5.巴 So 5x=2(3x-7).巴 5x=6x-14.巴 Sox=7.12资料来源:LetsVerifyN=numberStep byof solutions per problemStep,中 信 建 投过程监督反馈奖励函过程监督反馈奖励函数数ved (Best-of-N)8OpenAI o1是经过强化学习训练来执行复杂推理任务的新型语言模型。o1在回答之前会思考,可以在响应用户之前产生一个很长的内部思维链。该
27、模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过强化学习训练,大模型学 会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。在 0penAI的测试中,该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI还发现它在数学和编码方面表现出色。在国际数学奥林匹克(IMO)资格考试中,GPT-4o仅正确解答了13%的问题,而o1模型正确解答了83%的问题。模型的编码能力也在比赛中得到了评估,在Codeforces 比赛中排名89%。图:图:0penAI o1测试结果测试结果 图图:0 p e n A I o 1测测 试试 结结 果果Infe
28、rence Cost(%)OpenAI o1percentraw score资料来源:OpenAI,中信建投passlaccuracy中信建投证券中信建投证券CHINA SECURITIESo1 improvementPhD-LLevel ScienceQuestionsgpt4oML BenchmarksExams MMLU Categories(GPQA Diamonds1 1accu acy13pass s1 为了突出相对于GPT-4o的推理性能改进,OpenAI 在一系列不同的人类考试和机器学习基准测试中测试了o1模型。实验结 果表明,在绝大多数推理任务中,o1 的表现明显优于GPT-
29、4o。o1在广泛的基准测试上比GPT-4o有所改进,包括54/57MMLU 子 类 别。图:图:0penAI o1测试结果测试结果 图图:0 p e n A I o 1测测 试试 结结 果果Human preferences by domain:o1-preview vs GPT-40PersonaWritingEditingTextComputerProgrammingDataAnalysisMathematicalCalculation0 10 20 30 40 50 60 70 80 90 100win rate vs GPT-40(%)OpenAI o1资料来源:OpenAI,中信建投
30、14思维数推理过程:多问多答,寻找最优答案思维数推理过程:多问多答,寻找最优答案&answer starting from 11 upwards.the digits for a two-digit prime?The sum of the digits of the number is 8.A4 Re-answer the A two-digit number .How many such numbers exist?Check if the sum of their digits equals 8.are:What numbers83.have digits thatsub-questio
31、n Rephrase the questionSuch numbers17,53,67,andEnumerate two-digit primes Which are the possible sums of 1)The number is a two-digit prime.2)For how many two-digit primes is thesum of the digits equal to 8?15 资料来源:rStar:Mutual Reasoning Makes SmallerLLMs Stronger Problem-Solvers,中信建投Which of thecomb
32、inations areprime numbers?Thereare 4 such primes:17,53,and 71,.A2complete remaining thought A3 Propose sub-questionActionsPropose a one-step thoughtWhat are the possiblenumbers.?The possible values for the tens digit.Which digits add up to 8?The pairs of digits thatadd up to 8 are.Lets think step by
33、step.First we findtwo-digit prime numbers.Lets think stepby step.We focuson two-digitnumbers.Lets think step by step.Two-digit numbersrange from 10 to 99.图图:微微 软软 亚亚 洲洲 研研 究究 院院 r r S S t t a a r r 推推 理理 过过 程程count them,getting4 such primes.Theanswer is 4.Find thenumbers such that the digits add up
34、to 8.add up to 8?Thesenumbers are:17,53,67,and 83.Possiblecombinations for this include.中信建投证券中信建投证券CHINA SECURITIESFind two-digitnumbers thatare prime.A5A1rStar(generator with maj)(b)Mistral-7BMethod LLaMA2-7B Mistral-7B aMAaMA3-83-8B B LLaMA3-8B-Instruct Phi3-mini-Zero-shot CoFew-shot CoTSCmaj8Scm
35、aj64Sc maj128RAP1.4412.5115.3120.77230512 9624 34GSMGSM8K8K17.8936.4642.9152 842556 2547.2354.2164 3767 55015768.3874 5378.3983.24846980 594586 350288 6879 6881.88rStar(generatorStar(generator r maj)maj)StaiStai27.2263.9163.9164596459818881887474 383888.7088.7091.91.90.4490.4490.6790.67GSM-HardZero-
36、shot CoT0.836.4414943373.13.5713.8025 634063SCmaj84.3917.3618.2028.514200sCmaj646.5222 5923.7330.3344 80SCmaj1286.8925.0125 4731.1645 56oT2.35470 619.32 68AP7.2822 5218296440 94rStar(generatorStar(generator r maj)maj)8.6418.5729.2629.2637.937.926.7626.763232 979733.3533.3537.5337.5346.556.558320逻辑思维
37、能力增强逻辑思维能力增强LevelZero-Shot CoTOne-turn Self-refine4-rollouts MCTSr8-rollouts MCTSrExample Numslevel-125031436539443757.21%71.85%83.52%90.16%level-236347459469289440.60%53.02%66.44%77.40%level-3309454585719113127.32%40.14%51.72%63.57%level-4202368523656121416.64%30.31%43.08%54.04%level-59417729045113
38、247.10%13.37%21.90%34.06%Overall1218178723572912500024.36%35.74%47.14%58.24%资料来源:Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-38B:A Technical Report,rStar:Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers,中信建投图:复旦大学图:复旦大学LLaMaLLaMa-3-3
39、图图:微微 软软 亚亚 洲洲 研研 究究 院院 r r S S t t a a r r图图:微微 软软 亚亚 洲洲 研研 究究 院院 r r S S t t a a r r中信建投证券中信建投证券CHINA SECURITIESrStar(c)LLaMA3-8B-Instruct#Rollouts#Rollouts-sCma(a)LLaMA2-7BGSM8K Accuracy(%)#Rollouts RAP16推理过程中的Scaling Law:o1的性能随着更多的强化学习(训练时间计算)和更多的思考时间(测试时间计算)投入不断提 高,推理过程中的Scaling Law发现意味着大模型的逻辑推
40、理能力有望大幅提升。基 于o1进行了初始化并进一步训练了其编程技能后,OpenAI 训练得到了一个非常强大的编程模型(o1-ioi)。该模型在 2024年国际信息学奥林匹克竞赛(101)赛题上得到了213分,达到了排名前49%的水平。并且该模型参与竞赛的条件与2024 101的人类参赛者一样:需要在10个小时内解答6个高难度算法问题,并且每个问题仅能提交50次答案。当每个问题允许10000次提交时,即使没有任何测试时间选择策略,该模型也获得了362.14分高于金牌门槛。图:图:OpenAI o1 Scaling law 图:图:0 0 penApenA I I o o1 1 不 同 版 本 在
41、不 同 版 本 在 1 0 11 0 1 竞 赛 中 的 表 现竞 赛 中 的 表 现daurngtanuingytrain-time compute(log scale)test-time compute(log scale)Codeforces Elo/percentile20001807/93rd1673/89th15001258/62nd1000808/11th5000o1 o1 o1-ioipreview推理侧推理侧Scaling law的发现的发现资料来源:OpenAI,中信建投Elo/percentileo1AIME accuracypass1a iccuracygpt4o17O
42、penAIOpenAI o1o1具备多具备多个不同版本。个不同版本。OpenAOpenAI还发布了mini版OpenAI o1-mini,成本比o1-preview低80%。o1-mini在预训练期 间针对STEM推理进行了优化。在使用与o1相同的强化学习(RL)训练后,o1-mini在许多有用的推理任务上实现了相媲美的 性能,同时成本效率显著提高。图图:0 0 p p e e n n A A I I o o 1 1 不不 同同 模模 型型 推推 理理 时时 间间OpenAIOpenAI o1o1的多个版本的多个版本GPT-40 01-mini 01-preview1s 1s 1s资料来源:O
43、penAI,中信建投18Simplify tan 100+4sin 100.I notice that the angle 100 degrees is not a special angle,so I will need to use some trigonometric identities to simplifythis expression.I recall that tan=and sin 20=2sin cos0.I can use these identities to rewrite the expresion as 100+4sin 100%I can combine the
44、 terms by finding a common denominator of cos 100.I get in 100+4ain 100con100I can simplify the numerator by using the double angle identity again,but in reverse.I get n100+200200I notice that 200 degrees is the same as 180 degrees plus 20 degres,so I can use the sum angle identity for sine.I get 10
45、0+2(an 180co20+-o 180m20)I recall that sin 180=0 and cos 180=-1,so I can simplify further.I get in 100-2020I notice that 100 degrees is the same as 90 degrees plus 10 degrees,so I can use the sum angle identity for sind andcosine.I get900+10-09010-00n0I recall that sin 90=1 and cos90=0,so I can simp
46、lify further.I get o 10-20020I can simplify the sign by multiplying the numerator and denominator by-1.I get 2sn20-c0I notice that 20 degrees is the same as 30 degrees minus 10 degrees,so I can use the difference angle identity for sine.Applying this identity with a=a and b=1,I get x+4=(z+2x+2)(z-2x
47、+2).For the second factor,r-1,I can use the difference of squares formula,which says that a-b=(a+b)(a-b).Applying this formula with a=zand b=1,I get x-1=(z+1)(z-1).h()c(-1a)pply the difference of squares formula again with a=z and b=1,to get z-1So the original polynomial is(x+4)(z-1)=(z+2r+2)(z-2r+2
48、)(z+1)(z+1)(z-1).These are all the irreducible factors over the integers,so pi(z)=x+2x+2,p(z)=x-2x+2,ps(7)=z+1,p4(x)=x+1,and ps(x)=r-1.To find the sum of their values at z=1,I just need to plug in z=1 into each factor and add them up.I get pi(1)=I+21+2=5,p(1)=1-21+2=1,p(1)=1+1=2,p(1)=1+1=2,and ps(1)
49、=1-1=0.So the final answer is 5+1+2+2+0=10.Answer:10逻辑清晰准确逻辑清晰准确xan1I推理实例推理实例Letx+3x-4=p(x)p(x)pk(z),where each non-constant polynomial p(r)is monic with integer coefficients,and cannot be factored further over the integers.Compute p(1)+p(1)+pk(1).I notice that the given polynomial has even degree a
50、nd only even powers of z,so I can try to make a substitution to simplify it.Let y=x,then the polynomial becomes y+3y-4,which is a quadratic equation.I can factor this quadratic equation as(y+4)(y-1),so the original polynomial is(r+4)(z-1).Now I need to factor each of these factors further,if possibl
51、e,over the integers.For the first factor,x+4,I recall the Sophie Germain identity,which says that a+4b=19 资料来源:Lets Verify Step by Step,OpenAI,中信建投I recall that sin30=吉 and cos 30=,so I can simplify further.I get c10-v3n10-cos10I can cancel out the sin 10terms in the numerator and denominator.I get-
52、3.中信建投证券中信建投证券CHINA SECURITIESI can cancel out the cos 10terms in the numerator.I get?dn30 co10-o10 10)-colo(a+2b+2ab)(a+2b-2ab).I get =olAnswer:-3OpenAIOpenAI o o1 1 APIAPI收费情况收费情况Modelgpt-4ogpt-4o-2024-08-06gpt-4o-2024-05-13Pricing$5.00/1M input tokens$15.00/1M output tokens$2.50/1M input tokens$1
53、0.00/1M output tokens$5.00/1M input tokens$15.00/1M output tokensPricing with Batch API*$2.50/1M input tokens$7.50/1M output tokens$1.25/1M input tokens$5.00/1M output tokens$2.50/1M input tokens$7.50/1M output tokensgpt-4o-minigpt-4o-mini-2024-07-18$0.150/1M$0.600/1M$0.150/1M$0.600/1Minput tokensou
54、tput tokensinput tokensoutput tokens$0.075/1M$0.300/1M$0.075/1M$0.300/1Minput tokensoutput tokens input tokens output tokensModelo-preview01-preview-2024-09-12Pricing$15.00/1M$60.00/1M$15.00/1M$60.00/1Minput tokens output tokens input tokens output tokenso1-mini01-mini-2024-09-12$3.00/1M input token
55、s$12.00/1M output tokens$3.00/1M input tokens$12.00/1M output tokens20 资料来源:OpenAI,中信建投图图:O O p p e e n n A A I I 不不 同同 模模 型型 A A P P I I 收收 费费 情情 况况Model Pricing Pricing with Batch API*Model Pricing大大模型技术发展不及预模型技术发展不及预期:期:大模型属于先进AI算法,若后续大模型算法更新迭代效果不及预期,则会影响大模型演进及拓展,进而会影响其商业化落地等;商商业化落地不及预期:业化落地不及预期:
56、大模型的商业落地模式在业界中普遍处于探索阶段,用户对于大模型的接受程度和商业化变 现能力可能不及预期;政政 策监管力度不及预期:策监管力度不及预期:大语言模型带来新的网络生态商业,尚属于前期成长阶段,政策监管难度加大,相关法律 法规尚不完善,政策监管力度可能不及预期;数数据数量与数据质量不及预期:据数量与数据质量不及预期:大型语言模型需要大量的高质量数据进行训练,若数据数量和质量存在短板,则会 影响大语言模型效果。风险提示风险提示21分析师介绍分析师介绍于芳博:于芳博:中信建投人工智能组首席分析师,北京大学空间物理学学士、硕士,2019年7月加入中信建投,主要覆盖人工智能等方向,下游 重点包括
57、智能汽车、CPU/GPU/FPGA/ASIC、EDA和工业软件等方向。评级说明评级说明投资评级标准评级说明报告中投资建议涉及的评级标准为报告发布日后6个 月内的相对市场表现,也即报告发布日后的6个月内 公司股价(或行业指数)相对同期相关证券市场代表性指数的涨跌幅作为基准。A股市场以沪深300指 数作为基准;新三板市场以三板成指为基准;香港 市场以恒生指数作为基准;美国市场以标普500指 数为基准。股票评级买入相对涨幅15%以上增持相对涨幅5%15%中性相对涨幅-5%5%之间减持相对跌幅5%15%卖出相对跌幅15%以上行业评级强于大市相对涨幅10%以上中性相对涨幅-10-10%之间弱于大市相对跌
58、幅10%以上22分析师声明分析师声明本报告署名分析师在此声明:(i)以勤勉的职业态度、专业审慎的研究方法,使用合法合规的信息,独立、客观地出具本报告,结论不受任何第三方的授意 或影响。(ii)本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。法律主体说明法律主体说明本报告由中信建投证券股份有限公司及/或其附属机构(以下合称“中信建投”)制作,由中信建投证券股份有限公司在中华人民共和国(仅为本报告目的,不包括香港、澳门、台湾)提供。中信建投证券股份有限公司具有中国证监会许可的投资咨询业务资格,本报告署名分析师所持中国证券业协会授予的证券投资 咨询执业资格证书
59、编号已披露在报告首页。在遵守适用的法律法规情况下,本报告亦可能由中信建投(国际)证券有限公司在香港提供。本报告作者所持香港证监会牌照的中央编号已披露在报告首页。一般性声明一般性声明本报告由中信建投制作。发送本报告不构成任何合同或承诺的基础,不因接收者收到本报告而视其为中信建投客户。本报告的信息均来源于中信建投认为可靠的公开资料,但中信建投对这些信息的准确性及完整性不作任何保证。本报告所载观点、评估和预测仅反映本报告 出具日该分析师的判断,该等观点、评估和预测可能在不发出通知的情况下有所变更,亦有可能因使用不同假设和标准或者采用不同分析方法而与中信建投其他 部门、人员口头或书面表达的意见不同或相
60、反。本报告所引证券或其他金融工具的迂往业绩不代表其未来表现。报告中所含任何具有预测性质的内容皆基子和应 的假设条件,而任何假设条件都可能随时发生变化并影响实际投资收益。中信建投不承诺、不保证本报告所含具有预测性质的内容必然得以实现。本报告内容的全部或部分均不构成投资建议。本报告所包含的观点、建议并未考虑报告接收人在财务状况、投资目的、风险偏好等方面的具体情况,报告接 收者应当独立评估本报告所含信息,基于省身投资自标、需求、市场机会、风险及其他因素省主做出决策并自行承担投资风险。中信建投建议所有投资者应就在 何潜在段资向其税务、会计最法律顾筒咨询。不论报告接收著是否根据本报告做出段资决策,市信建
61、投都不对该等投资决策提供任何形式的担保,余朵以在何形 式分享投资收益或者分担投资损失。中信建投不对使用本报告所产生的任何直接或间接损失承担责任。在法律法规及监管规定允许的范围内,中信建投可能持有并交易本报告中所提公司的股份或其他财产权益,也可能在过去12个月、目前或者将来为本报告中 所提公司提供或者争取为其提供投资银行、做市交易、财务颜问或其他金融服务。本报告内容真矣、准确、完整地反映了署名分析师的观点,分析师的薪酬无论 过去、现在或未来都不会直接或间接与其所撰写报告中的具体观点相联系,分析师亦不会因撰写本报告而获取不当利益。本报告为中信建投所有。未经中信建投事先书面许可,任何机构和/或个人不
62、得以任何形式转发、翻版、复制、发布或引用本报告全部或部分内容,亦不得从 未经中信建投书面授权的任何机构、个人或其运营的媒体平台接收、翻版、复制或引用本报告全部或部分内容。版权所有,违者必究。中信建投证券研究发展部中信建投证券研究发展部北京朝阳区景辉街16号院1号楼18层 电话:(8610)56135088联系人:李祉瑶23深圳福田区福中三路与鹏程一路交汇处 广电金融中心35楼电话:(86755)8252-1369联系人:曹莹邮箱:上海浦东新区浦东南路528号南塔2103室电话:(8621)6882-1600联系人:翁起帆邮箱:中信建投中信建投(国际国际)香港中环交易广场2期18楼电话:(852)3465-5600 联系人:刘泓麟邮箱:邮箱:charleneliucsci.hk