《A2--董汉德--代码大模型的训练及发展趋势.pdf》由会员分享,可在线阅读,更多相关《A2--董汉德--代码大模型的训练及发展趋势.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、代码大模型训练CodeBuddy 技术分享董汉德,Hande DongPPT下载:https:/donghande.github.io/slides/QE-Con2025_CodeBuddy.pptx讲者简介与分享目的 讲者简介 腾讯AI产品技术专家 CodeBuddy 代码模型负责人 分享目的 分享我们做 AI 产品的模型研发历程 传达大模型时代 AI 产品和模型研发的方法论2目录 技术和产品背景 大模型时代 大模型的方法论 代码领域的特点 代码大模型产品 代码大模型的训练 专家驱动的模型优化 数据驱动的模型优化 产品和技术的未来3大模型时代 模型的智能化程度极大提升,带来很大的想象空间。4
2、大模型训练的方法论 预训练:得到base模型 爬取互联网数据,进行自监督训练(预测下一个token)目的是让模型获取知识 后训练:得到instruction/chat模型 标注少量有标签数据,进行指令跟随的监督训练(包括SFT、RLHF等)目的是让模型向人类的偏好和需求对齐 强化学习:探索出人类描述的更优方案 对包含过程的问题探索结果的奖励优化,进行强化学习 目的是超出让模型自己探索,超越人工标注的限制5Scaling Law 模型效果会随着模型、数据、计算量的规模增长而提升6NVIDIA CEO Jensen Huang,CES 2025.1数据驱动大模型发展 大模型时代,模型和优化技术相对
3、稳定 模型:以 self-attention 为核心的 Transformer 结构 优化技术:预训练、后训练、强化 数据驱动的特性 优化技术是为了更好的利用数据而设计的 在一个相对稳定的时期,模型的能力发展靠数据 模型和优化技术的上限,由数据决定 一定程度上说,训练模型就是数据工程7代码领域的数据 代码领域是数字化最好的领域之一 数据量大,开源社区几十年的沉淀 数据质量高,代码有严格的语法规则约束 各种平台:GitHub、Stack Overflow 数字化越好的地方,越容易推进智能化 大模型中,代码领域是做的最好的领域 具体体现在幻觉低、可靠性高、泛化性强等各方面8代码大模型产品 产品定位
4、:辅助编程,为程序员提效 简单任务能较好地完成,极大提升效率 模型幻觉依然存在,需要人做二次检查 复杂的任务,仍然无法很好的处理 产品特性:目前代码产品的产品力梳理 代码补全:用户写代码的时候,主动推荐代码片段 智能改写:判断需要修改的代码展示给用户 需求实现:对用户的需求进行实现 单元测试、代码评审、等等9目录 技术和产品背景 代码大模型的训练 数据来源 数据质量过滤 经典代码开源模型 代码大模型评估 专家驱动的模型优化 用户驱动的模型优化 产品和技术的未来10数据来源 预训练:代码托管平台数据:Github 代码论坛:Stack Overflow,Stack Exchange,CSDN 通
5、用数据:互联网上爬下来的通用数据 后训练:开源后训练数据:社区开源的数据 私有数据:各家自己收集标注的数据11数据质量过滤示例 规则过滤:字母过滤:字母比例小于25%平均行长过滤器:去除平均行长100的 最大行长过滤器:去除最大行长1000的 基于模型的过滤:训练分类器,评估样本的质量12开源代码大模型 Starcoder:在1T tokens的 Github 语料上预训练 首次复现 openai 在代码领域的成果 Codellama:在llama的基础上,用500B tokens 的代码数据进行继续预训练 数据配比:85%代码,8%和代码相关的文本,7%纯文本 Deepseek Coder:
6、在2T tokens 上进行预训练 数据配比:87%代码,10%英语代码相关的文本,3%中文文本 引入项目级别的模型训练13代码大模型离线评估 Base 模型测评 测试续写或补全相关的精度 指标例如困惑度、精确匹配、BLEU等 Chat 模型测评 测试下游任务的表现 指标例如单元测试通过率,不同模型胜率,BLEU等 离线评估的优缺点 优点:成本低、效率高、可重复 缺点:数据泄露的风险、与应用场景的不一致、跟不上大模型迭代速度14代码大模型线上AB实验评估 AB实验定义:将用户随机分到不同的组,不同组使用不同的模型,通过不同组用户线上关键指标度量不同模型的差异 线上用户指标距离:代码采纳率、生成