《王炳宁-Transformer效率优化.pdf》由会员分享,可在线阅读,更多相关《王炳宁-Transformer效率优化.pdf(48页珍藏版)》请在三个皮匠报告上搜索。
1、王炳宁 百川智能预训练负责人博士毕业于中国科学院自动化研究所,主要研究问答系统和大语言模型。历任搜狗、腾讯高级研究员,有着丰富大规模生成式模型经验,主导并发布如ReCO、ComQA、ChiQA、T2Ranking等大规模中文问答数据,以及Baichuan系列预训练模型。在ACL、SIGIR、AAAI等国际顶级人工智能和自然语言处理会议上以第一作者发表论文11篇,并获得2021年CIKM best paper runner up。博士论文机器阅读理解关键技术研究获2019年中国中文信息学会优秀博士论文奖。中国中文信息学会青年工作委员会执行委员。演讲主题:Transformer效率优化Tranfo
2、rmer效率优化百川智能王炳宁2024-11-14语言模型的发展历程n-gram language model N=2:bigram N=3:trigramP(我是中国人)=P(我)*P(是|我)*P(中|是)*P(国|中)*P(人|国)语言模型会将句子的概率拆解成其组成部分的概率语言模型的发展历程n-gram language model传统统计学习的方法大多都是基于极大似然估计(maximum likelihood estimation,MLE)来估计上面的值 其中C(xyz)便是统计语料中xyz出现的次数。极大似然:所见即所得,最常见的就是最可能的,用概率表示语言模型语言模型的发展历程n
3、eural language modelBengio,Yoshua,Rjean Ducharme,and Pascal Vincent.A neural probabilistic language model.Advances in neural information processing systems 13(2000).taining set:14million tokensvocab size:17964n-gram=6model parameters:30,000(w/o word embedding)11,876,848(11m,w/word embedding)通过人工神经网络
4、来进行概率建模。通过梯度反向传播来优化整个模型。语言模型的发展历程neural language modelMikolov,Tomas,et al.Recurrent neural network based language model.Interspeech.Vol.2.No.3.2010.将feed-forward网络替换为和语言表示更为接近的循环神经网络(RNN)语言模型的发展历程-GPT-1neural language modelRadford,Alec,et al.Improving language understanding by generative pre-trainin
5、g.(2018).语言模型的发展历程-GPT2neural language modelRadford A,Wu J,Child R,et al.Language models are unsupervised multitask learnersJ.OpenAI blog,2019,1(8):9.语言模型的发展历程-GPT3Brown,Tom,et al.Language models are few-shot learners.Advances in neural information processing systems 33(2020):1877-1901.语言模型的发展之:scal
6、ingGTC-2024-keynotes当前语言模型发展的最重要的特征:越来越大。不管是语言模型训练数据的增多,还是本身参数规模的扩大,scaling当前语言模型取得突破的最关键因素语言图像视频语音医疗大模型语言图像视频语音医疗模型语言图像视频语音医疗语言模型的发展之:scalingArtificial Intelligence Index Report 2024 OpenAI的GPT-4和Google的Gemini Ultra的训练成本估计分别为7 78 80 00 0万万美美元元和1 1.9 91 1亿亿美美元元。大语言模型的训练成本与计算需求之间存存在在线线性性相相关关性性,具有更高计算