1、江海证券有限公司及其关联机构在法律许可的情况下可能与本报告所分析的企业存在业务关系,并且继续寻求发展这些关系。因此,投资者应当考虑到本公司可能存在影响本报告客观性的利益冲突,不应视本报告为投资决策的唯一因素。敬请参阅最后一页之免责条款证券研究报告证券研究报告行业点评报告行业点评报告2025 年年 2 月月 13 日日江海证券研究发展部江海证券研究发展部分析师:张婧分析师:张婧执业证书编号:执业证书编号:S1410525010001联系人:吴雁宇联系人:吴雁宇执业证书编号:执业证书编号:S1410124010015行业评级行业评级:增持增持(维持维持)近十二个月行业表现近十二个月行业表现%1 个
2、月3 个月12 个月相对收益18.0710.5820.77绝对收益23.095.4637.26数据来源:聚源注:相对收益与沪深 300 相比注:2025 年 2 月 12 日数据相关研究报告相关研究报告1.江海证券-行业点评报告-传媒行业:AIagent 产业进展不断,提示相关投资机会 2025.02.102.江海证券-行业点评报告-传媒行业:春节档票房新高,哪吒之魔童闹海票房创影史记录 2025.02.073.江海证券-行业点评报告-传媒行业:12月游戏版号下发,继续维持推荐 2025.01.034.江海证券-行业点评报告-传媒行业:微信小店风起,春节有望裂变 2025.01.035.江海证
3、券-行业点评报告-传媒行业:鼓励发展首发经济,持续关注 AI 2024.12.13传媒行业豆包大模型团队提出全新超稀疏架构豆包大模型团队提出全新超稀疏架构,推理成本大幅下降推理成本大幅下降事件:事件:2025 年 2 月 12 日,字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem,该架构有效解决了 MoE 推理时高额的访存问题,推理速度较 MoE架构提升 2-6 倍,推理成本最高可降低 83%。该研究还揭示了新架构的Scaling Law,证明其不仅具备优异的 Scaling 特性,更在性能上超越了 MoE。投资要点:投资要点:豆包大模型团队提出全新超稀疏架构,推理速度提升了豆包
4、大模型团队提出全新超稀疏架构,推理速度提升了 2-6 倍。倍。在 Transformer 架构下,模型的性能与其参数数量和计算复杂度呈对数关系。随着 LLM 规模不断增大,推理成本会急剧增加,速度变慢。尽管 MoE 架构已经成功将计算和参数解耦,但在推理时,较小的 batch size 就会激活全部专家,导致访存急剧上升,进而使推理延迟大幅增加。豆包大模型 Foundation 团队提出 UltraMem,一种同样将计算和参数解耦的稀疏模型架构,在保证模型效果的前提下解决了推理的访存问题。实验结果表明,在参数和激活条件相同的情况下,UltraMem 在模型效果上超越了 MoE,并将推理速度提升
5、了 2-6 倍。此外,在常见 batch size 规模下,UltraMem 的访存成本几乎与同计算量的Dense 模型相当。LLM 的能力增长需要指数级增长的计算资源,先前解决方案的能力增长需要指数级增长的计算资源,先前解决方案 MOE 和和 PKM 都都存在局限性。存在局限性。LLM 的能力增长需要指数级增长的计算资源,这在实时应用等资源有限的环境中颇具挑战。为了解决计算问题,先前的研究者提出了 MoE 和 Product KeyMemory(PKM)方案,但它们都有各自的局限性。MoE 通过稀疏激活 expert解耦了计算和参数,但在推理场景中,速度其实很慢。原因在于,模型在推理时只能一
6、个字一个字的生成,因此 batch size 和 sequence length 都很小,在这个场景下,MoE 的所有专家通常会被全部访问到,极其容易遇到访存瓶颈,导致推理延迟激增。PKM 最早提出 large memory layer,其中包含了数量庞大的稀疏参数 value,这里 value 其实就是一个向量,每个 token 会根据一个 行路由和一个列路由定位到得分最高的几个 value,激活这些 value 后做weighted sum pooling 作为 memory layer 的输出。这种方法因为每个 token在推理时仅仅只激活极少数的 value,所以推理时不会遇到访存瓶颈