《A1--高超--代码大模型训练数据建设实践.pdf》由会员分享,可在线阅读,更多相关《A1--高超--代码大模型训练数据建设实践.pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、高超华为云大模型数据专家高超华为云代码大模型数据专家华为云计算技术有限公司 高级工程师负责Codemate代码训练数据构建交付及管理构建高质量的代码训练数据及数据工程能力支撑代码大模型训练及代码续写任务在各产业的落地目录CONTENTS代码训练数据构建价值0102代码训练数据构建方案代码大模型落地效果03未来展望04PART 01代码训练数据构建价值代码训练数据构建价值大模型在软件工程落地已从概念验证阶段逐步进入规模化落地阶段企业的软件研发智能化成熟度数据来源:信通院AI4SE 行业现状调查报告(2024年度)软件工程各阶段 AI 技术应用比例年度数据代码训练数据构建价值AI智能开发工具代码生
2、成行采纳率分布AI智能开发工具代码生成占比区间分布AI代码生成行采纳率和代码生产占比有提升,但还有提升空间数据来源:信通院AI4SE 行业现状调查报告(2024年度)PART 02代码训练数据构建方案代码训练数据构建总览Raw CodeCode&Math WebMerge requestHigh quality raw codeSyntheticRepo level raw CodeInstructionCodeLLM Stage1CodeLLM Stage2CodeLLM AnnealCodeLLM SFTWeb纯代码数据构建pipeline数据获取数据清洗数据评估和消融 Github GH
3、 Archive The Stack The Stack V2 按语言类别获取 排除非文本文件:大于8M 人工抽样评估 规则验证 基于模型打分评估 使用小模型如1b在相同条件下进行消融实验,判断优劣 使用小模型进行数据配比实验 长行过滤:行数10w、平均行100、最大行1000 自动生成过滤:基于工具或自动生成字符串匹配 字符过滤:过滤字母字符少于25%的数据 编码数据过滤:过滤base64、十六进制超过1024或50%的数据 过滤包含todo的数据 语言特有:过滤pass、goto超过一定比例的数据 过滤掉语法错误的数据 过滤行间重复率或单词重复率超过70%的数据 PII清洗、Copyrig
4、ht清洗 License过滤数据去重重复数据对于模型效果有负向作用,Github中源代码的由于频繁fork和拷贝操作导致重复率极高,优先对代码进行去重可以提升效率 近似去重:MiniHash+LSH;保留更高star+最新提交 精确去重:文件SHA256Lozhkov,Anton,et al.Starcoder 2 and the stack v2:The next generation.arXiv preprint arXiv:2402.19173(2024).Huang,Siming,et al.Opencoder:The open cookbook for top-tier code l
5、arge language models.2024.URL https:/arxiv.org/pdf/2411.04905.高质量代码数据构建pipeline使用大模型的质量打分模型构建高质量的代码数据Allal,Loubna Ben,et al.SmolLM2:When Smol Goes Big-Data-Centric Training of a Small Language Model.arXiv preprint arXiv:2502.02737(2025).高质量代码数据构建pipelineBelow is an extract from a Python program.Eval
6、uate whether it has a high educational value and could help teach coding.Use the additive 5-point scoring system described below.:-Add 1 point if the program contains valid Python code,even if its not educational,like boilerplate code,configs,and niche concepts.-Add another point if the program addr