1、何恩培 传神语联创始人先后斩获殊荣20余项,获评中国经济新领军人物、国家科技部“创新人才”、中国软件企业十大领军人物、现代服务业领军人物、中国翻译协会特殊贡献奖等,是推动中国语言服务行业发展的领军人物。演讲主题:基于双网络架构数推分离大模型的探索与实践基于双网络架构的数推分离大模型探索与实践传神创始人 何恩培传神大模型任度任度:以极高的性参比,跻身全球第一梯队评 测 数 据 表 明:9 B 参 数 任 度 超 过 数 百 亿 乃 至 千 亿 参 数 大 模 型名次排列维度:以每家公司分数最高的大模型进行排行任度幸运地走通了一条不同的路根原创走在完全独立自主研发的路上Pytorch发展线1999
2、 年zANN用于机器学习神经网络方向研究成为AI少数派2009年完善zANN并应用于小语种舆情系统国内开源尚未流行,神经网络领开源域几乎空白2005年创建传神将神经网络&AI技术应用于语言服务行业2011 年zANN库体系成型应用于语联网平台开发2020 年任度预训练语言模型实现AI主导的人机共译语言服务生产2021 年构建MoH2.1B效果接近GPT3双脑应用于任度2024 年MoH完善数推分离完善ChatGPT3.5推出Transformer架构推出英伟达推出CUDA2017 年zANN升级正式决定坚持自主原创2023年任度2.0上线具备多模态能力2002年Torch上线个人开发,主要用于
3、机器学习、深度学习领域2016年9月Pytorch上线Facebook团队使用Python重写Torch,发布Pytorch0.12018年12月Pytorch1.0上线提升了模型的生产部署能力;加强了分布式训练能力2023年3月Pytorch2.0上线进一步提升了性能优化和编译能力2024年4月Pytorch2.2上线优化了分布式训练和推理性能;改进了模型部署工具根原创成长路线图我们为什么会构建数推分离模式2023年的ChatGPT早期版本只收录到2021年之前的信息。在2021年的任度大模型早期版本:法律AI助手中,我们同样遇到了增量训练数据无法及时更新的问题。基于MoH(混合熵)架构实现
4、数推分离预训练数据集(Pretraining Dataset)MoH(混合熵)神经网络架构反馈强化学习(RM&RLHF&Prompts)预训练(Pretraining)监督微调(SFT)推理网络(Inference Side Neural Network)客户数据共享嵌入&中间表示层&权值嵌入数据网络(Knowledge Side Neural Network)即时学习高维特征提取高维特征提取推理网络链接客户数据学习网络实现“双脑”联合推理主流大模型增训模式客户数据学习网络推理网络任度双脑大模型大智能&大参数&高能耗大智能&小参数&低能耗知识数据 混合 推理网络主辅脑分离,可单独训练,联合推理
5、无需额外算力,无需额外AI人才有效规避模型能力退化难题无需数据离场VS大模型一体化训练和推理算力投入大、人才要求高模型能力可能退化数据一般需要离场训练双网络架构 VS 大模型+RAG相关数据向量库问题相关数据相关数据LLM答案问题分析生成检索语句文档保存 向量 数据库数据网络推理网络问题作为上下文输入 大模型即时 学习压缩到数据网络理解问题思考推理生成答案答案任度实时学习 VS 大模型+RAG 问答效果对比上传8份简历,进行实时学习完整回答全部具有 VUE 开发经验的 6 名人员任度实时学习 VS 大模型+RAG 问答效果对比上传8份简历,导入知识库只回答出了2个具有VUE开发经验的人独有的文
6、档级数据“拔插”技术不影响推理网络性能 数据数据数据网络inout知识“拔插”按需移除无效/违规数据+上下文输入长度不再是一个问题通过实时学习将数据压缩到数据网络摆脱上下文长度限制打破企业之间或企业部门之间的数据孤岛通用数据可互通过程数据难以流动涉密敏安不可出部门导入业务体系直接使用数据通过任度数据智能使用数据价值和知识数据智能数据安全数据质量数据理解基于任度双脑大模型数推脑分离可独立学习联合推理通通过过任任度度数数据据智智能能使使用用数数据据价价值值和和知知识识数推分离使算力成本显著降低用户缺乏足够的数据训练算力消耗大用户缺乏人才需要重新训练才能移除知