通信行业深度：“合成数据+强化学习”大模型进化的新范式-240919-三个皮匠报告

1、请仔细阅读本报告末页声明请仔细阅读本报告末页声明证券研究报告证券研究报告|行业深度行业深度2 0 2 4 年 0 9月1 9日通信通信“合成数据合成数据+强化学习强化学习”:大模型进化的新范式大模型进化的新范式当地时间9月12日，OpenA I 发布新模型系列o1(代号“草莓”),该模型的特点主要是在给出推理结果前，花更多时间“思考”,产生较长内部思维链，在解决科学、数学、代码等类问题的表现更好。01-preview每每百万 token输入 1 5 美元，每百万输出 token60美元，o1-mini相对便宜，每百万token输入3美元，每百万token输出12美元。目前C

2、hatGPT Plus和TeamTeam 用户可以在模型选取器中手动选择，o1-previewo1-preview每周限制3030 条消息，01-mini01-mini每周限制5050 条消息。o1 亮点一：或为 OpenAI新模型“Orin”生成合成数据。据 TheInformation,Information,o1 或为OpenAIOpenAI 新模型“OrinOrin”生成合成数据。无独有偶，我们注意到，OpenAI创始团队出走创办的AnthropicOpenAI的有力竞争对手，2024 年6 月发布了大模型Claude 3.5 Sonnet,该模型使用了合成数据，在多个测试中的表现优于

3、GPT40GPT40。我们发现，在人类生成的数据或将耗尽之际，合成数据还具备“性价比可能更高”“更完整、全面”“隐私性更好”等优点，尽管存在可能“可能为模型引入噪声”“泛化能力不足”等问题，但能通过“诱导幻觉”“加入数据评估机制”“在训练过程中积累数据”等方式尝试解决。o1 亮点二：亮点二：“合成数据合成数据+强化学习强化学习”,o1 或确认大模型进化新范式。或确认大模型进化新范式。市场认为，ScalingLaw(指大模型随着参数的增大而增强能力)只存在于大模型训练阶段。但我们发现，根据OpenAIOpenAI 工工程师JasonJasonWei,oWei,o1 使用了强化学习(RL(RL)做

4、思维链(Chain(Chain ofof Thought)Thought)来来训练模型；思维链可以使模型在推理阶段实现能力增强，即Scaling Law可以不止出现在训练阶段，也出现在推理阶段。这里我们所说的强化学习(RL),指模型A生成推理结果后，由模型 B给推理结果打分，帮助模型 A 不断调整参数、迭代、进化，分成RLAIF(基于AI 反馈的强化学习)和RLHF(基于人类反馈的强化学习)多种，后者曾因被用于ChatGPTChatGPT 而名声大噪。我们认为，o1 系列的惊艳面世，或许不仅是确认了合成数据的重要性，还意味着大模型对强化学习的倚重，而在强化学习中，我们注意到，RLAIFRLAI

5、F(基于AIAI反馈的强化学习)逐渐成为MetaMeta LLama3LLama3、英伟达 NemoNemotron-4340Btron-4340B、微软Orca-2等热门大模型的选择，相较于于 RLHF(基于人类反馈的强化学习),需要的人类标注较少，适合代码、数学等有客观评价标准的领域。我们推测，RLAIFRLAIF 或许也是0101 在代码、数学等问题上表现更好的原因。投资建议：投资建议：根据OpenAI,o1OpenAI,o1模型训练和测试阶段在美国奥林匹克数学竞赛(AIME)的表现随着训练和测试计算量的增长而变得更好，这表明01“推理时，在响应用户前，思考更多”有助于让 01 表现更好

6、，这正是推理ScalingLaw。我们认为，这有助于打破投资界过往的担忧，即“推理需要的算力比训练少，当大模型的进化转向推理，算力板块承压”;相反，推理ScalingLaw仍将利好算力板块。建议关注：1)光模块产业链：中际旭创、新易盛、天孚通信、太辰光、光迅科技、华工科技、腾景科技等；2)液冷服务商：英维克；3)PCB服务商：沪电股份等；4)AIDC:润泽科技等。风险提示风险提示：大模型算法进展不及预期，大模型应用落地不及预期，全球宏观经济下行风险。行行业业走走势势一通信沪深30010%2%-6%-14%-22%-30%2023-092024-012024-052024-09作作者

通信行业深度：“合成数据+强化学习”大模型进化的新范式-240919（18页）.pdf

相关报告