当前位置:首页 > 报告详情

百度-美股公司研究报告-大模型研究笔记(三)-230621(29页).pdf

上传人: 面*** 编号:130451 2023-06-25 29页 8.15MB

下载:
word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要内容为对百度大模型研究的分析,包括模型结构、预训练、下游调试、推理以及行业应用等方面。 1. 模型结构方面,Meta研究团队提出Megabyte,通过将Transformer架构中的token改为patch,引入局部模块预测patch内的文本序列,实现计算成本降低、速度提升。 2. 预训练方面,混合精度训练通过将权重、参数和激活值量化,降低训练开销,提升整体效率。 3. 下游调试方面,UCB研究团队提出LIMA,强调Alignment环节的数据质量和多样性比数量更重要。Google DeepMind等团队提出ToT,通过模仿人类思考的思维树范式,提升LLM解决复杂问题的能力。 4. 推理方面,CMU Catalyst Group提出SpecInfer推理引擎,通过引入计算代价更小的SSM替代LLM进行投机式推理,提升推理效率。 5. 行业应用方面,英伟达等研究团队提出VOYAGER,通过自动课程学习、迭代提示机制、技能库、环境反馈等,实现游戏智能的提升。 6. 投资建议方面,维持对百度集团的“买入”评级,认为百度在AIGC领域的布局和先发优势明显。
百度在AIGC领域有哪些布局和优势? 混合精度训练如何降低训练开销和提升效率? 过程监督RM如何提升复杂问题解决能力?
客服
商务合作
小程序
服务号
折叠