王全东-SUBLLM新架构文本下采样机制革新大语言模型效率.pdf

编号:615367 PDF 48页 5.59MB 下载积分:VIP专享
下载报告请您先登录!

王全东-SUBLLM新架构文本下采样机制革新大语言模型效率.pdf

1、SUBLLM新架构:文本下采样机制革新大语言模型效率王全东 小米大模型团队演讲嘉宾王全东小米大模型团队 大模型高级算法工程师中国科学院声学研究所博士、美国佐治亚理工访问学者、中科院认证高级工程师,长期从事大语言模型、多模态、语音识别等领域研究,曾获多项顶会竞赛冠亚军奖项,已发表顶会论文十余篇,拥有专列多项。深度参与了小米自研大模型从0到1的研发过程,荣获2024年度CCF计算机应用创新技术一等奖。近期和Daniel Povey等提出SUBLLM新架构,被量子位等科技媒体报道。目 录CONTENTS1.长文本模型的技术挑战2.SUBLLM架构3.主要实验结果4.分析与讨论5.总结与展望长文本模型

2、的技术挑战PART 01长文本模型的技术挑战长文本需求旺盛多人会议摘要行业报告新闻摘要学术论文分析长文写作长篇翻译长文本模型的技术挑战长文本模型结构:Decoder only Transformer结构:Llama 类似结构,attention的平方复杂度,by Meta,2023长文本模型的技术挑战8k窗长32K窗长200K窗长1M窗长215T tokens510B tokens510B tokens510B tokens训练成本高:attention的平方复杂度主要优化点长文本模型的技术挑战模型窗长扩展方法:数据方向,训练成本不高1.Data Engineering for Scaling

3、 Language Models to 128K Context长文本模型的技术挑战模型窗长扩展方法:位置编码方向,训练成本不高2.YaRN:Efficient Context Window Extension of Large Language ModelsNTK-by-parts+温度控制长文本模型的技术挑战模型窗长扩展方法:位置编码方向,训练成本不高3.PoSE:Efficient Context Window Extension of LLMs via Positional Skip-wise Training长文本模型的技术挑战8k窗长32K窗长200K窗长1M窗长215T toke

4、ns510B tokens510B tokens510B tokens训练成本主要在8k预训练阶段:attention的平方复杂度主要优化点长文本模型的技术挑战Decoder only Transformer长文本模型训练infra开发1.DeepSpeed Ulysses:优势:对Attention 的实现不敏感,适合各种attention方法劣势:序列并行度不能超过头数长文本模型的技术挑战Decoder only Transformer长文本模型训练infra开发2.Ring-attention:“大号”的flash attention优势:并行度的扩展性较好劣势:对Attention 变

5、种不友好,eg.Sparse Attention长文本模型的技术挑战推理成本高:attention的平方复杂度推理速度角度,200k 比 20k 贵28倍,比2k 贵112倍 长文本模型的技术挑战其他长文本模型结构:1.Infini-Transformer:长期压缩记忆和局部因果注意力attentionInfini-Transformer 模型结构 by Google,2024长文本模型的技术挑战其他长文本模型结构:2.MEGALODON:继承MEGA(带有门控注意力的指数移动平均)并改进MEGALODON 模型结构 by Meta,2024长文本模型的技术挑战加速方法很多 备受关注 SUBL

6、LM应运而生SUBLLM架构PART 02SUBLLM架构目标:1.开发一种优化资源使用的架构,同时保持模型能力不变。2.区分重要token和不重要token,重要token占主要算力3.兼容现有attention based模型生态,模型广泛应用的关键SUBLLM架构受语音领域启发:语音信号下采样减少冗余 保留必要信息语音识别中语音分帧后降采样4倍Conformer结构by Google,2020SUBLLM架构受语音领域启发:语音信号下采样减少冗余 保留必要信息语音识别Zipformer,最高降采样16倍Zipformer 模型结构 by Daniel Povey,2024SUBLLM架构

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(王全东-SUBLLM新架构文本下采样机制革新大语言模型效率.pdf)为本站 (鲁大师) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠