基于 GPU 的机器翻译推理性能优化.pdf

编号:29540 PDF 27页 980.58KB 下载积分:VIP专享
下载报告请您先登录!

基于 GPU 的机器翻译推理性能优化.pdf

1、在携程基于GPU的机器翻译推理性能优化冯帅袁秋龙度假研发部#page#飞携程携程机器翻译介绍机器翻译性能分析目录机器翻译GPU优化3CONTENTS机器翻译模型压缩4总结与展望#page#飞携程携程机器翻译介绍机器翻译性能分析2目录3机器翻译GPU优化CONTENTS4机器翻译模型压缩5总结与展望#page#飞携程携程-机器翻译内部交流办公交流企业IM、运营系统等文档系统工具员工人事系统、企业IM、企业邮箱内部WIKI、CONF等企业帮助中心、运营平台等微运营客户信息项目供应商产品文案、报告行业资料介绍、政策、条款机场等解决国际化快速冷启动问题行中可作为多语言沟通的辅助工具#page#在携程携

2、程-机器翻译40种语言互译罗马尼亚语芬兰语繁体菲律宾语法语波据遇中文+10%西班牙语印地语180种语言自动检测香港繁体丹麦语马来语葡萄牙语泰语意大利语韩语英语150+场景入口使用俄语日语波兰语爱尔兰语荷兰语阿拉伯语行业携程印尼语老过语平均翻译德语瑞典语5亿单日字符翻译希腊语士耳其语冰岛语旅游垂直领域翻译质量乌克兰语法语爱沙尼亚语粤语创牙利语捷克语越南语台湾繁体100ms平均响应时延乌尔都语缅甸语孟加拉拉语#page#飞携程携程机器翻译介绍机器翻译性能分析目录3机器翻译GPU优化CONTENTS4机器翻译模型压缩5总结与展望#page#飞携程基础架构LayernormlamMulti-head

3、AttentionTransformerLayer normAdd & Norm训练并行化Multi-head AttentionEncdec AttentionMulti-Head Attentionscaled Dot-productAdd & NormAdd & NormAttentionFeed forwardFeed forwardNlayersAddAdd & NormNlayersinea0.1.0.3oftencodedecode#page#心携程问题一0.2-0.1-0.1-0.20.2-0.20.3-0.1-0.30.3-01-0.3-0.10.2-0.20.3-0.10.

4、2个个个公O+2+22相对位置编码Token1Token2Token3Token4Token5Token6相对于绝对位置编码,提高了模型准确度Attention模块中计算复杂武度增加一倍MatMulSoftMaxMask(opt)ScaleMatMulQK#page#仓携程问题二82S225.136m19.230mOP爆炸18.70817.847年17.431m14.549m各种小op多且杂,来14.075m14.056m回切换耗费时间13.012m12.336m内存处理op占用35%左11.766ms10.375ms右的运行时间6.478m5.362m5.272ms4.510m4.498m3

5、.657m3.590m2.543m2.348m1.228m1.114m0.664m0.642m0.584m0.456msTransformer局部图(Netron)时间占比(tensorflowtimeline)#page#飞携程携程机器翻译介绍2机器翻译性能分析目录3机器翻译GPU优化CONTENTS4机器翻译模型压缩5总结与展望#page#飞携程优化一:算子融合add对于一些线性操作,FuseTensorAddNormSoftmax*pos+softmax*v直接融合为单一layernormSoftmaxrpositionkernelSoftmax*对于部分矩阵乘法,softmax采用cu

6、blas中的addQ*pos+Q*Kbatchgemm接口,FusedBiasAddReluQrPosition通过指针操作完成reluO*KQ gemmattentiontensorK gemmFusedBatchGemmV_gemm#page#心携程优化一:算子融合Op比例比例Opfromtafrimportsperdauerdcode10.4%Gatherv269Encodecutput=super decoddecodag.9.56BatchMarMulV294%utptsedondaDecodeAdd7.3%GPU使用方式MatMul7.166.76StrideSlice比例Kern

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(基于 GPU 的机器翻译推理性能优化.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠