A2--董汉德--代码大模型的训练及发展趋势.pdf-三个皮匠报告

1、代码大模型训练CodeBuddy 技术分享董汉德,Hande DongPPT下载：https:/donghande.github.io/slides/QE-Con2025_CodeBuddy.pptx讲者简介与分享目的讲者简介腾讯AI产品技术专家 CodeBuddy 代码模型负责人分享目的分享我们做 AI 产品的模型研发历程传达大模型时代 AI 产品和模型研发的方法论2目录技术和产品背景大模型时代大模型的方法论代码领域的特点代码大模型产品代码大模型的训练专家驱动的模型优化数据驱动的模型优化产品和技术的未来3大模型时代模型的智能化程度极大提升，带来很大的想象空间。4

2、大模型训练的方法论预训练：得到base模型爬取互联网数据，进行自监督训练（预测下一个token）目的是让模型获取知识后训练：得到instruction/chat模型标注少量有标签数据，进行指令跟随的监督训练（包括SFT、RLHF等）目的是让模型向人类的偏好和需求对齐强化学习：探索出人类描述的更优方案对包含过程的问题探索结果的奖励优化，进行强化学习目的是超出让模型自己探索，超越人工标注的限制5Scaling Law 模型效果会随着模型、数据、计算量的规模增长而提升6NVIDIA CEO Jensen Huang,CES 2025.1数据驱动大模型发展大模型时代，模型和优化技术相对

3、稳定模型：以 self-attention 为核心的 Transformer 结构优化技术：预训练、后训练、强化数据驱动的特性优化技术是为了更好的利用数据而设计的在一个相对稳定的时期，模型的能力发展靠数据模型和优化技术的上限，由数据决定一定程度上说，训练模型就是数据工程7代码领域的数据代码领域是数字化最好的领域之一数据量大，开源社区几十年的沉淀数据质量高，代码有严格的语法规则约束各种平台：GitHub、Stack Overflow 数字化越好的地方，越容易推进智能化大模型中，代码领域是做的最好的领域具体体现在幻觉低、可靠性高、泛化性强等各方面8代码大模型产品产品定位

4、：辅助编程，为程序员提效简单任务能较好地完成，极大提升效率模型幻觉依然存在，需要人做二次检查复杂的任务，仍然无法很好的处理产品特性：目前代码产品的产品力梳理代码补全：用户写代码的时候，主动推荐代码片段智能改写：判断需要修改的代码展示给用户需求实现：对用户的需求进行实现单元测试、代码评审、等等9目录技术和产品背景代码大模型的训练数据来源数据质量过滤经典代码开源模型代码大模型评估专家驱动的模型优化用户驱动的模型优化产品和技术的未来10数据来源预训练：代码托管平台数据：Github 代码论坛：Stack Overflow,Stack Exchange,CSDN 通

5、用数据：互联网上爬下来的通用数据后训练：开源后训练数据：社区开源的数据私有数据：各家自己收集标注的数据11数据质量过滤示例规则过滤：字母过滤：字母比例小于25%平均行长过滤器：去除平均行长100的最大行长过滤器：去除最大行长1000的基于模型的过滤：训练分类器，评估样本的质量12开源代码大模型 Starcoder：在1T tokens的 Github 语料上预训练首次复现 openai 在代码领域的成果 Codellama：在llama的基础上，用500B tokens 的代码数据进行继续预训练数据配比：85%代码，8%和代码相关的文本，7%纯文本 Deepseek Coder：

6、在2T tokens 上进行预训练数据配比：87%代码，10%英语代码相关的文本，3%中文文本引入项目级别的模型训练13代码大模型离线评估 Base 模型测评测试续写或补全相关的精度指标例如困惑度、精确匹配、BLEU等 Chat 模型测评测试下游任务的表现指标例如单元测试通过率，不同模型胜率，BLEU等离线评估的优缺点优点：成本低、效率高、可重复缺点：数据泄露的风险、与应用场景的不一致、跟不上大模型迭代速度14代码大模型线上AB实验评估 AB实验定义：将用户随机分到不同的组，不同组使用不同的模型，通过不同组用户线上关键指标度量不同模型的差异线上用户指标距离：代码采纳率、生成

A2--董汉德--代码大模型的训练及发展趋势.pdf

相关报告