当前位置:首页 > 报告详情

基于 GPU 的机器翻译推理性能优化.pdf

上传人: li 编号:29540 2021-02-07 27页 980.58KB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
全文主要介绍了携程机器翻译的性能分析、GPU优化、模型压缩和总结与展望。携程机器翻译采用Transformer模型,支持40种语言互译,每天处理5亿字符,响应时延为100ms。性能分析显示,携程翻译在旅游垂直领域的质量优于行业平均水平10%。GPU优化方面,通过算子融合、计算简化、内存管理优化和FP16量化等措施,提高了计算效率,降低了显存占用。模型压缩通过知识蒸馏技术,实现了教师网络与学生网络的简化,同时保持翻译质量。优化后的模型延迟加速比达到5倍,显存占用降低为原来的1/2。未来工作包括结合AutoML进行模型压缩、针对硬件性能调优和量化。
"携程机器翻译如何优化GPU性能?" "机器翻译模型压缩技术有哪些创新点?" "携程机器翻译在实际生产中的应用效果如何?"
客服
商务合作
小程序
服务号
折叠