《中邮理财:AI大模型及应用报告(51页).pdf》由会员分享,可在线阅读,更多相关《中邮理财:AI大模型及应用报告(51页).pdf(51页珍藏版)》请在三个皮匠报告上搜索。
1、 徐福昌2023年12月AI大模型及应用大模型及应用目录目录0102030405大模型的技术突破大模型的落地范式大模型的范式变革大模型的未来之路大模型的应用一、大模型的技术突破 基础理论 出现时间Encoder-DecoderEncoder-Decoder模型框架(编码器-解码器模型框架)最早在2014年提出。首先应用在google的Seq2Seq(Sequence-to-Sequence)模型中,原始的Seq2Seq模型将任意长度的序列信息编码到一个固定长度的上下文向量c里,在Decoder解码的过程中向量c都是不变的。后面引入了attention机制以后,Decoder的输入就不是固定的上
2、下文向量c了,而是会根据当前翻译的信息,计算当前的c。大模型的基础理论发展Encoder-Decoder框架 基础理论 出现时间Attention机制googledeepmind团队的论文RecurrentModelsofVisualAttention中,他们在RNN模型上使用了attention机制来进行图像分类。随后,Bahdanau等人在论文NeuralMachineTranslationbyJointlyLearningtoAlignandTranslate中,使用类似attention的机制在机器翻译任务上将翻译和对齐同时进行,他们的工作算是是第一个提出attention机制应用到N
3、LP领域,基本上算是公认的首次提出了经典的attention机制,并形象直观地展示了attention带来源语和目标语的对齐效果,解释了深度模型到底学到了什么。大模型的基础理论发展注意力机制注意力机制其实是源自于人对于外部信息的处理能力。由于人每一时刻接受的信息都是无比的庞大且复杂,远远超过人脑的处理能力,因此人在处理信息的时候,会将注意力放在需要关注的信息上,对于其他无关的外部信息进行过滤,这种处理方式被称为注意力机制。针对于注意力机制的引起方式,可以分为两类,一种是非自主提示,另一种是自主提示。其中非自主提示指的是由于物体本身的特征十分突出引起的注意力倾向,自主提示指的是经过先验知识的介入
4、下,对具有先验权重的物体引起的注意力倾向。换句话说,可以理解为非自主提示源自于物体本身,而自主提示源自于一种主观倾向。举例说明如下:当我们第一眼看到上图时,我们便会首先将注意力集中到兔子身上。这是因为,整张图中兔子的特征十分的突出,让人一眼就关注到兔子身上。这种引起注意力的方式便是非自主提示。在看到兔子之后,我们便想兔子在干嘛,从而我们就会关注兔子的行为。此时兔子在吃草,这时我们便把注意力集中在兔子周边的草上。这种引起注意力机制的方式便是自主提示,其中兔子在干嘛则是我们主观意识。我们面前有五个物体,分别是报纸,论文,咖啡,笔记本和书。首先,我们会关注在咖啡身上,因为只有咖啡是红色,而其他物体是
5、黑白。那么红色的咖啡由于其显眼的特征,就成了注意力机制的非自主提示。喝完咖啡后,十分精神,想看本书。此时,通过想看书这种意识,我们将注意力放到了书上。这种通过主观意识引起注意力的方式称为自主提示。大模型的基础理论发展注意力机制只考虑非自主提示的话,只需要对所有物体的特征信息(非自主提示)进行简单的全连接层,甚至是无参数的平均汇聚层或者最大汇聚层,就可以提取出需要感兴趣的物体。而如果考虑自主提示的话,我们就需要设计一种通过查询(Query),键(Key)和值(Value)来实现注意力机制的方法。其中Query指的是自主提示,即主观意识的特征向量,Key指的是非自主提示,即物体的突出特征信息向量,
6、Value则是代表物体本身的特征向量。注意力机制是通过Query与Key的注意力汇聚,实现对Value的注意力权重分配,生成最终的输出结果。大模型的基础理论发展注意力机制大模型的基础理论发展自注意力机制自注意力机制:自注意力机制和注意力机制的区别就在于,注意力机制的查询和键是不同来源的。而自注意力机制的查询和键则都是同源的,来自于同一组的元素相互之间做注意力汇聚,也称作内部注意力机制。自注意力机制的作用是学习Query对其他所有Key的依赖关系。如果不做自注意力机制,its词向量就是单纯的its词向量,没有任何附加信息。而做了自注意力信息,its就有了law和application这层意思,可