1、开源模型架构,不定是 Transformer演讲:罗璇元始智能/COO罗璇,多年“AI+机器”产研经验RWKV元始智能 联创&COO前C轮机器公司 联创前阿 AI Lab 产品总监模型的现状很热闹 不赚钱(除了英伟达)CONTENTS录01Transformer 的崛起与挑战02回顾 RNN 发展03RWKV 社区04RWKV 开发者的实践01Transformer 崛起和挑战前神经络-神经络-模型 模型的历史Transformer 迅速占据优势地位Transformer 相 RNN 的优势解决了 RNN 的核问题注意Transformer 不使隐藏状态来捕获数据序列的相互依赖性。相反,它们使
2、注意头来并处理数据序列。这使 Transformer 能够使 RNN 更短的时间训练和处理更的序列。借助注意机制,Transformer 可克服 RNN 临的内存限制和序列相互依赖性。Transformer 可以并处理数据序列,并使位置编码来记住每个输与其他输的关系。并性Transformer 通过在训练期间启并性来解决 RNN 临的梯度问题。通过同时处理所有输序列,Transformer 不受反向传播限制,因为梯度可以由流向所有权重。它们还针对并计算进了优化,图形处理单元(GPU)为成式智能开发提供了这种优化。并性使转换器能够通过构建更的模型来规模扩展和处理复杂的 NLP 任务。Transf
3、ormer 的应场景然语处理物信息学多模态推荐系统动摘要 机器翻译 本分类 多轮对话户为序列模型 户短期兴趣模型标检测 视频追踪 图像语义分割 流式语识别蛋质成 基因语模型Transformer 临的挑战算需求巨,Scaling-law 失效02回顾 RNN 发展RNN 是什么循环神经络(RNN)是种深度学习模型,经过训练后,可以处理顺序数据输,并将其转换为特定的顺序数据输出源头:神经科学1958年 罗森布拉特 的智能动机的设计中的感知机原理图源头:统计学Hopfield NetworkRNN 过去的种变体循环神经络 RNN短期记忆络 LSTM短期记忆络(LSTM)是种 RNN 变体,使模型能
4、够扩展其内存容量,适应更的时间线需要。RNN 只能记住近期输。法使来前个序列的输来改善其预测。控循环单元 GRU控循环单元(GRU)是持选择性内存保留的 RNN。该模型添加了更新,并遗忘了其隐藏层的,隐藏层可以在内存中存储或删除信息。RNN 的局限性梯度爆炸在初始训练中,RNN 可能会错误地预测输出。您需要进多次迭代来调整模型的参数,以降低错误率。您可以将与模型参数对应的误差率的灵敏度描述为梯度。您可以将梯度想象成下时的斜坡。陡峭的梯度使模型能够更快地学习,平缓的梯度则会降低学习速度。当梯度呈指数增直 RNN 变得不稳定时,就会发梯度爆炸。当梯度变得限时,RNN 的为会不稳定,从导致性能问题,
5、例如过拟合。过拟合是种现象,即模型可以使训练数据进准确预测,但法对现实世界数据进同样准确的预测。梯度消失梯度消失问题是训练中模型的梯度接近于零的情况。梯度消失时,RNN 法有效地从训练数据中学习,从导致拟合。拟合模型在现实应中表现不佳,因为其权重没有进适当调整。RNN 在处理数据序列时存在临梯度消失和梯度爆炸问题的险。法并训练RNN 按顺序处理数据,这使其效处理量本的能受到限制。例如,RNN 模型可以从句话中分析买家的情绪。但是,总结章需要耗费量的计算能、内存空间和时间。RWKV 是种新型的 RNN100%没有 Attention训练像 Transformer 效并,训练速度与上下度关推理像
6、RNN 只依赖固定 State 和当前Token,有可解释性微调 State-tuning 相当于极致的 Prompt,可来做 AlignmentRReceptance 过去信息接受程度的向量Weight 位置权重衰减向量Key 类似注意中 K 向量Value 类似注意中 V 向量WKVRWKV 和 Transformer 的本质差异?RWKV=Associative Memory 联想记忆(2024年诺尔物理学奖 Hopfield Network)Transformer=Addressing Memory 寻址记忆更深刻的问题在于 AGI 背后的记忆机制,到底应该是什么样的?架构向收敛到新型