1、RWKV新一代的大模型架构超越Transformer2023年6月成立深圳元始智能有限公司RWKV.cnRWKV计算效率高速度快 内存省 耗电少无限上下文适合长文本处理对芯片友好只做矩阵乘矢量全球开源开放Apache 2.0 协议新一代的大模型架构超越Transformer项目历史全球首个 RNN 大模型一个人的开源项目第4代7B模型开源成立元始智能第4代14B模型开源第4代论文公开被EMNLP收录第一个商业客户高通全球合作种子轮奇绩创坛第5代7B模型开源第5/6代论文公开被COLM收录第6代7B模型开源第6代14B模型开源第7代预览版微软在数亿台电脑中部署RWKV运行库2020年初 2022
2、.112023.032023.052023.072023.062023.082023.102023.122023.102024.012024.042024.052024.072024.092024.08第一个toC端侧应用解决什么问题Transformers 是死胡同RWKV 是未来使用模型的算力巨大Scaling-law 出现瓶颈大厂和高校纷纷换方向降低对算力的依赖带来新的 Scaling-law大厂和高校追随 RWKV 方向RWKV是未来RWKV 正引领大模型的架构迁移RWKV 开始于2020年初,正在研发 RWKV-7RWKV 正引领大模型的架构迁移RWKV-6 是 channel-wi
3、se dynamic decay,是效果最好的设计RWKV 与芯片厂商合作因 RWKV 具备高性能、内存低、耗电少的特点,与多家端侧芯片合作2023.10.25高通 骁龙8 Gen3 发布会2023.11.06MTK 天玑 9300 发布会2023.12.15Intel 酷睿 Ultra 发布会2024.03.21AMD 锐龙8040 发布会RWKV 效率全球最高RWKV推理速度 恒定时间复杂度 O(T)内存占用 恒定空间复杂度 O(1)Transformer推理速度 越来越慢时间复杂度 O(T2)内存占用 越来越大空间复杂度 O(T2)推理成本降低10-100倍RWKV 模型效果超过 LLa
4、MA2英文能力超过 LLaMA2 仅次于 LLaMA3(15T Tokens),Mistral 7B(5T Tokens)多语言能力全球第一支持全球所有100+种语言和代码用 RWKV-6 7B(2.5T Tokens)测试RWKV 模型效果/其他对比测试上下文长度ctx4k 训练的 RWKV-6可良好适应到 ctx20k 以上内存占用低RWKV-6 内存占用比 Flash Attention 少 40%MQAR 优RWKV-6 在 MQAR 测试中有显著优势RWKV 模型效果/大模型压缩榜语言建模能力就是压缩能力,用新数据衡量模型的泛化能力https:/ 能耗全球最低能耗只有 LLaMa 的
5、一半RWKV Scaling-law 非常好每个算力所对应的最佳模型连起来是线性横坐标是训练消耗的算力纵坐标是 loss(越低越好)不同点代表不同模型RWKV 是怎么做到的100%没有Attention训练像 Transformer高效并行,训练速度与上下文长度无关推理像 RNN只依赖固定大小 State 和当前 Token,有可解释性微调 State-tuning相当于机制的 Prompt,可用来做 AlignmentReceptance过去信息接受程度向量Weight位置权重衰减向量Key类似注意力中K向量Value类似注意力中V向量RWVK全球化生态RWKV 全球开源开放12000+RW
6、KV-LM在 Github 的星400+Github 上RWKV 项目数量9200+海外社群开发者人数10000+国内社群开发者和用户人数RWKV ASR 语言识别模型https:/arxiv.org/pdf/2309.14758https:/ 视觉语言模型https:/arxiv.org/pdf/2406.13362https:/ 视觉感知模型https:/arxiv.org/pdf/2403.02308https:/ 扩散模型https:/arxiv.org/abs/2404.04478https:/ 3D点云