《基于 GPU 的机器翻译推理性能优化.pdf》由会员分享,可在线阅读,更多相关《基于 GPU 的机器翻译推理性能优化.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、在携程基于GPU的机器翻译推理性能优化冯帅袁秋龙度假研发部#page#飞携程携程机器翻译介绍机器翻译性能分析目录机器翻译GPU优化3CONTENTS机器翻译模型压缩4总结与展望#page#飞携程携程机器翻译介绍机器翻译性能分析2目录3机器翻译GPU优化CONTENTS4机器翻译模型压缩5总结与展望#page#飞携程携程-机器翻译内部交流办公交流企业IM、运营系统等文档系统工具员工人事系统、企业IM、企业邮箱内部WIKI、CONF等企业帮助中心、运营平台等微运营客户信息项目供应商产品文案、报告行业资料介绍、政策、条款机场等解决国际化快速冷启动问题行中可作为多语言沟通的辅助工具#page#在携程携
2、程-机器翻译40种语言互译罗马尼亚语芬兰语繁体菲律宾语法语波据遇中文+10%西班牙语印地语180种语言自动检测香港繁体丹麦语马来语葡萄牙语泰语意大利语韩语英语150+场景入口使用俄语日语波兰语爱尔兰语荷兰语阿拉伯语行业携程印尼语老过语平均翻译德语瑞典语5亿单日字符翻译希腊语士耳其语冰岛语旅游垂直领域翻译质量乌克兰语法语爱沙尼亚语粤语创牙利语捷克语越南语台湾繁体100ms平均响应时延乌尔都语缅甸语孟加拉拉语#page#飞携程携程机器翻译介绍机器翻译性能分析目录3机器翻译GPU优化CONTENTS4机器翻译模型压缩5总结与展望#page#飞携程基础架构LayernormlamMulti-head
3、AttentionTransformerLayer normAdd & Norm训练并行化Multi-head AttentionEncdec AttentionMulti-Head Attentionscaled Dot-productAdd & NormAdd & NormAttentionFeed forwardFeed forwardNlayersAddAdd & NormNlayersinea0.1.0.3oftencodedecode#page#心携程问题一0.2-0.1-0.1-0.20.2-0.20.3-0.1-0.30.3-01-0.3-0.10.2-0.20.3-0.10.
4、2个个个公O+2+22相对位置编码Token1Token2Token3Token4Token5Token6相对于绝对位置编码,提高了模型准确度Attention模块中计算复杂武度增加一倍MatMulSoftMaxMask(opt)ScaleMatMulQK#page#仓携程问题二82S225.136m19.230mOP爆炸18.70817.847年17.431m14.549m各种小op多且杂,来14.075m14.056m回切换耗费时间13.012m12.336m内存处理op占用35%左11.766ms10.375ms右的运行时间6.478m5.362m5.272ms4.510m4.498m3
5、.657m3.590m2.543m2.348m1.228m1.114m0.664m0.642m0.584m0.456msTransformer局部图(Netron)时间占比(tensorflowtimeline)#page#飞携程携程机器翻译介绍2机器翻译性能分析目录3机器翻译GPU优化CONTENTS4机器翻译模型压缩5总结与展望#page#飞携程优化一:算子融合add对于一些线性操作,FuseTensorAddNormSoftmax*pos+softmax*v直接融合为单一layernormSoftmaxrpositionkernelSoftmax*对于部分矩阵乘法,softmax采用cu
6、blas中的addQ*pos+Q*Kbatchgemm接口,FusedBiasAddReluQrPosition通过指针操作完成reluO*KQ gemmattentiontensorK gemmFusedBatchGemmV_gemm#page#心携程优化一:算子融合Op比例比例Opfromtafrimportsperdauerdcode10.4%Gatherv269Encodecutput=super decoddecodag.9.56BatchMarMulV294%utptsedondaDecodeAdd7.3%GPU使用方式MatMul7.166.76StrideSlice比例Kern