1、郑小林 教授浙江大学人工智能研究所2025年03月24日智能金融:AI 驱动的金融变革新一代人工智能金融智能研究金融智能应用新一代AI展望提 纲Research Project on Artificial Intelligence,August 31,1955,Dartmouth定义:人工智能(Artificial Intelligence,缩写为AI),又称机器智能,指由人制造出来的机器所表现出来的智能。维基百科AI的核心问题:建构能够跟人类似甚至超卓的推理、知识、计划、学习、交流、感知、移动、移物、使用工具和操控机械的能力等。维基百科一、新一代人工智能统计语言模型(SLM)神经语言模型(N
2、LM)预训练语言模型(PLM)大语言模型(LLM)Seq2Seq建模基于循环神经网络RNN描述单词序列的概率 优点:通过词嵌入和隐藏层,上下文捕捉和泛化能力较强;缺点:计算复杂度高,面对长文本序列仍会有“灾难性遗忘”问题基于文本概率分布建模通常基于马尔可夫假设建立词预测模型(N-gram)优点:可解释、计算速度快 缺点:从前向后单向计算;单纯基于统计频次、缺少对上下文的泛化;随着n的增大,参数空间呈指数增长“预训练-微调”学习范式(BERT、GPT)上下文学习、指令微调、扩展规律(GPT3、GPT4)基于Transformer架构的语言模型 优点:长距离依赖处理能力强:自注意力机制能捕捉任意距
3、离的依赖关系。并行计算能力强:Transformer架构支持并行计算,训练速度更快。缺点:资源消耗大自然语言处理模型的演进编码器Encoder处理输入序列解码器Decoder生成输出序列Google(2017):Attention is all you need嵌入层EmbeddingWord Embedding:目的是将这些非结构化的文本信息转化为结构化的信息,具体来说是将文本空间中的某个word,映射或者说嵌入(embedding)到另一个数值向量空间Position Embedding:输入句子的所有word是同时处理的,没有考虑词的排序和位置信息,所以通过positional enco
4、ding来衡量word位置信息注意力Attention自注意力机制:使序列中的每个单词都能“关注”其他单词,包括自己在内,以更好地理解上下文。(通过计算输入序列中每个位置与其他位置之间的注意力权重,得到加权的位置向量作为输出)多头注意力机制:多个独立计算的自注意力机制,将相同的输入映射到不同的空间中进行上下文理解,使得模型获得了对输入序列有更细致透视,丰富了其表示,带有多样化的上下文信息。前馈网络Feed Forward捕捉序列中元素之间复杂关系的多功能组件。通过使用线性变换和非线性激活函数,前馈网络使模型能够处理复杂语义,促进文本的稳健理解和生成。Google Transformer:引入注
5、意力(Attention)学习,2017编码器和解码器里的部分前馈神经网络(FFN)层被混合专家MoE 层替代,并采用 top-2 门控机制;当模型扩展到多个设备时,MoE 层在这些设备间共享,而其他层则在每个设备上独立存在。有利于大规模计算GShard:基于 MoE 探索巨型 Transformer 网络(Google,2020)新一代人工智能发展现状TransformerEncoder-DecoderGPTOnly DecoderBERTOnly EncoderBARTEncoder-DecoderGPTOnly DecoderRoBERTaOnly EncoderChatGPT上下文对话
6、语料学习DeepSeek-V3DeepSeek-R1DeepSeek-V3跨节点专家并行硬件协同优化Grok-320万张卡思维链推理QWQ-32B两阶段强化学习Gemma-3多模态推理融合思维链推理2018年图灵奖、深度机器学习2024年图灵奖、强化学习强化学习奠基人获得2024图灵奖3月5日公布了ACM图灵奖获得者Andrew Barto(MIT教授)和 Richard Sutton(强化学习之父,阿尔伯塔大学教授,DeepMind科学家)强化学习的目标是得到一个策略,用于判断在什么状态下选取什么动作才能得到最终奖赏。折扣因子(Discount Factor)折扣因子(Discount Fa