当前位置:首页 > 报告详情

A1--高超--代码大模型训练数据建设实践.pdf

上传人: 可*** 编号:710726 2025-05-28 39页 5.10MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了华为云大模型数据专家高超在代码训练数据构建方面的研究和实践。关键点如下: 1. 代码训练数据构建价值:大模型在软件工程领域的应用已逐步进入规模化落地阶段,AI智能开发工具的代码生成采纳率和占比有所提升。 2. 代码训练数据构建方案:通过数据获取、清洗、评估和消融等步骤构建高质量代码数据,涉及多种数据源和去重策略。 3. 核心数据:使用MiniHash+LSH进行近似去重,保留更高star和最新提交的代码;使用文件SHA256进行精确去重。 4. 高质量代码数据构建pipeline:关注代码的可读性、模块性、清晰度、可重用性等,采用5-point评分系统评估代码的教育价值。 5. 未来展望:构建更多预训练阶段合成数据,使用LLM对代码风格进行改写,提高模型代码能力。 6. 智能数据清洗Agent:为解决代码数据构建效率低和成本高的问题,引入智能数据清洗Agent,构建高效的高质量数据治理能力。
"代码训练数据价值何在?" "如何提升代码教育价值?" "智能数据清洗Agent来临?"
客服
商务合作
小程序
服务号
折叠