当前位置:首页 > 报告详情

TurboTransformers:高效的 Transformer 线上推理系统.pdf

上传人: li 编号:29539 2021-02-07 39页 4.50MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了腾讯微信模式识别中心高级工程师方佳瑞关于TurboTransformers的研究,这是一种高效的Transformers GPU服务系统。TurboTransformers旨在解决Transformer模型在计算资源上的需求,特别是在处理变长序列时,相比传统的RNN和CNN结构具有优势。文章提到了现有的相关研究工作无法满足他们的需求,比如在输入大小变化时,计算低延迟和高吞吐率的需求。因此,他们开发了TurboTransformers,该系统在硬件/平台算子、推理框架、服务优化等方面进行了优化。例如,通过C++/Python调用方式,可以增加几行代码获得端到端加速支持。此外,文章还提到了TurboTransformers在变长输入的内存管理策略、算子优化方案、GPU算子融合优化效果等方面的创新。最后,文章提到了TurboTransformers在服务优化、兼容性和易用性、基准测试等方面的成果,以及未来的研究方向。
"TurboTransformers如何实现GPU高效服务?" "如何通过TurboTransformers进行BERT模型的端到端加速?" "TurboTransformers在腾讯业务中的应用案例有哪些?"
客服
商务合作
小程序
服务号
折叠