Lightseq:GPU 高性能序列推理实践.pdf

编号:29526 PDF 28页 2.05MB 下载积分:VIP专享
下载报告请您先登录!

Lightseq:GPU 高性能序列推理实践.pdf

1、010302CUDA压缩量化TVM#page#01CUDA#page#项目介绍基于CUDAToolkit,聚焦NLP序列模型推理支持Bert/GPT/Transformer及VAE支持Beam Search/Diverse Beam Search/sampling2019.7上线FP32,2019.09上线FP16,2019.12开源#page#项目背景模型应用广泛,例如机器翻译、智能写作、自动问答等原生深度学习框架,如TensorFlow、PyTorch,秒级延退模型结构收敛,复用性高,研发成本可控简单易用的CUDA多线程范式、社区成熟ONVIDDIATeamofFour团队的专业支持#pa

2、ge#优化方法算子多运算融合动态显存复用层级式解码计算#page#算子多运算融合TF和LightSeg中的Layer Normalization1mean=tf.reduce_mean(x,axis=-1)b:and rolumean)2variance=tf.reducemean(tf.square(xFFNmean)*tf.rsqrt(varianceepsilon)3norm=(x-Y=Y.Wscale+bias4result=normLNandntemplate ctypenTbias)Y=Y.W+binti=blockIdx.adIdx.xpeubrsu*bLockDfloat va

3、atrixi;odwuso/step8.shared_float s_meanfloat reduce_ref(threadIdxx=0)5sofma_syncthreads(;S=QK/pshared_foat s_var;Custom kernreshap0,KVif(threadIdx.x=)O.KV=X.(WoWxW)+CuBLAS GEMMsvar=rsgrtf(reduce_res/float(blocki.e0sf1onsyncthreads;LNandresldual/step 2.layer norsmatrixi=X=X+XAS*1EA#page#层级式解码计算Tensor

4、Flow1#1.计算以每个token为结尾的序列的Logprobability2 og_token_prob=tf.nn.log_softmax(logit)#batch_size,beam_size,vocab_size3 log_seq_prob += log_token_prob #fbatch_size,beam_size,vocab_size4 Log_seq_prob = tf.reshape(log_seq_prob,-l,beam_size vocab_size)5#2.为每个序列(batchelement)找出排名topk的token0-0S0S152sn6topk_log_

5、probs,topk_indices=tf.nn.top_k(log_seq_prob,k=K)S20-1S0S1sn7#3.根据beamid,刷新decoder中的selfattention模块中的key和value的缓存1-0S1S2SnS08refresh_cache(cache,topk_indices)S1S21-1S0snlogitsBatchsize=2存在元余计算,难以并行化,占一次推理延退的30%+beam=2nisvocab sizeA#page#层级式解码计算LightSeq粗选+精排。粗选过程,遍历logit矩阵两次:1.对每个beam,将其logit值随机分成k组,每

6、组求最大值,然后对k个最大值求最小值,作为一个粗略的topk值,记为Rtopk2.对每个beam,将每个大于Rtopk的logit值,写入精排队列24243512粗选-第一次遍历1586372424351137415865粗选-第二次遍历直接排序1112223344455678441578精排10#page#性能分析1.矩阵乘法占比80%+,已成推理效率主要矛盾(对比TF仅有25%)。2.缓存刷新在FP32和FP16中分别占比10%和6%,可尝试降低decoder层数,降低缓存精度等,继续提升。3.其他运算总计在FP32和FP16中分别占比8%和6%,计算融合收益明显已逼近优化上界11#pag

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(Lightseq:GPU 高性能序列推理实践.pdf)为本站 (X-iao) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠