《【万小军 】ChatGPT 的能力和挑战.pdf》由会员分享,可在线阅读,更多相关《【万小军 】ChatGPT 的能力和挑战.pdf(50页珍藏版)》请在三个皮匠报告上搜索。
1、万万小小军军北京大学王选计算机研究所北京大学人工智能研究院C Ch ha at tG GP PT T 的的能能力力与与挑挑战战北京大学王选计算机研究所北京大学人工智能研究院万万小小军军语语言言生生成成回回顾顾C Ch ha at tG GP PT T 的的能能力力C Ch ha at tG GP PT T 的的问问题题展展望望神神经经网网络络发发展展史史https:/ BrainMcCulloch&Pitts1949Neural LearningHebb1956DartmouthConference1958PerceptronRosenblatt1960ADALINEWindrow&Hoff1
2、969XOR ProblemMinsky&Papert1974BackpropagationWerbos1982Hopfield NetworkHopfield1985Boltzmann MachineHinton&Sejnowski1986Multilayer PerceptronRummelhart,Hilton&WilliamsRNN,Rummelhart1997LSTMHochreiter&Schmidthuber1998LeNetLeCun2006Deep BeliefNetwork Hinton2009DeepBoltzmannMachine2012AlexNetKrizhevsk
3、y2014GANGoodfellow2015U-NetRonneberger2015ResNetHe2017CapsulenetHintonTransformerGoogle Brain2018BERTDevlin2020GPT-3OpenAI2022StableDiffusionCompVis2022ChatGPTOpenAI语语言言生生成成词词语语序序列列生生成成基于语言模型进行逐一词语解码输出 不同的解码算法:greedy,beam,top-k,top-p我们要吃()饭:0.8水果:0.1苹果:0.05饼干:0.01油条:0.01C Ca an n y yo ou u p pl le e
4、a as se e c co omme e h he er re e?HistoryWord being predicted贪贪心心解解码码t to op p-k k 解解码码我们要吃饭我们要吃水果语语言言生生成成词词语语序序列列生生成成目前主要基于 seq2seq 模型:RNN/LSTM/T基基于于预预训训练练语语言言模模型型的的文文本本生生成成方方法法预预训训练练语语言言模模型型堆叠多层 transformer 模块,基于大规模生语料进行自监督学习,获得文本的高质量语义编码,并且/或者学习高效的解码器Left-to-Right LM:GPT,GPT-2,GPT-3Encoder-Decod
5、er:T5,BARTMasked LM:BERT,RoBERTaB BE ER RT TG GP PT TB BA AR RT T基基于于预预训训练练语语言言模模型型的的文文本本生生成成方方法法预预训训练练语语言言模模型型堆叠多层 transformer 模块,基于大规模生语料进行自监督学习,获得文本的高质量语义编码,并且/或者学习高效的解码器Left-to-Right LM:GPT,GPT-2,GPT-3Encoder-Decoder:T5,BARTMasked LM:BERT,RoBERTa模模型型名名字字发发布布时时间间最最大大参参数数规规模模训训练练数数据据模模型型架架构构G GP P
6、T T2018年约1.2亿(117 M)BooksCorpus12层Transformer DecoderG GP PT T-2 22019年约15亿(1542 M)WebText(约40 G文本)48层Transformer DecoderG GP PT T-3 32020年约1 750亿Common Crawl(filtered)、WebText2、Books1、Books2、Wikipedia(共约5 000亿词)96层Transformer D基基于于预预训训练练语语言言模模型型的的文文本本生生成成方方法法预预训训练练语语言言模模型型Zhao,Wayne Xin,et al.A Sur