《单海军-大模型调优数据的高效构建与进化方法.pdf》由会员分享,可在线阅读,更多相关《单海军-大模型调优数据的高效构建与进化方法.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、大模型调优数据的高效构建与进化方法演讲人:单海军 博士020304数据构建的背景与痛点数据构建的背景与痛点数据新生的思路数据新生的思路大模型数据构建方法大模型数据构建方法大模型数据构建发展趋势大模型数据构建发展趋势01背景:数据是智能时代的油矿数据之于大模型,就像石油之于汽车。原油只有经过一系列复杂的过程炼化成汽油后,才能供汽车使用。同样,海量原始数据需要经过炼化形成高质量数据集,才能助力大模型精准学习数据特征与规律。人工智能是以数据为中心的,而不是以模型为中心。有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快。数 据智能引擎千行百业应用数据是千
2、行百业智能升级的源动力中国信息通信研究院斯坦福 吴恩达(Andrew Ng)为代表的学者观点痛点1:“数据肥胖症”-数据量激增与价值稀疏的矛盾数据稀缺 or 有价值的数据稀缺?数据增长相当迅速,总量十分惊人数据不稀缺:数据指杂乱无章的原始电子记录 数据可以无限生产,伴随着人类行为、设备运转、政府职等随时产生。数据具有非竞争性、非排他性,数据尚未被开发,其价值具有不确定性。数据要素具有稀缺性:数据要素指可以交易或投入生产,有价值的数据资源。数据要素是高质量的数据资源,具有使用价值和价值,挖掘数据要素价值,有利于提高资源配置效率,创造新产业新模式,实现对经济发展的倍增效应。数据资源有限稀缺:数据资
3、源指经过处理后,有使用价值的数据。数据成为数据资源的过程,经历数据加工、存储、管理等流程,耗费人力、时间和资金等资源,特别是大规模或复杂的数据集成本更加高昂。数据资源具有使用价值,不同主体可能将数据资源视为未来可变现的资产,不愿与其他主体分享2025.6.4 IDC发布最新预测,2025年全球数据生产量预计达213.56 ZB。其中,中国市场 2025 年将产生 51.78ZB 数据,到2029 年增长至 136.12ZB,复合年增长率达到 26.9%。ZB=1021 B,以1B重1g计算,单年数据生成量已达地球总质量的万分之一数据要素数据资源数据价值痛点2:面向具体场景的高质量数据集供给日趋
4、关键高质量场景数据倒三角原始数据可用数据可用场景数据高质量场景数据集训练场景垂类模型的重要抓手梳理,脱敏,去重可真正发挥价值的场景按场景使用标准标注,为训练做准备通用基座模型行业领域模型场景大模型依赖依赖依赖依赖隐藏在冰面下的反而稀少02高价值数据+场景化数据工程的解决思路原始数据(CO)+数据智能工厂(叶绿体)高质量数据集(O)AI数据原生工厂(自动标注+场景数据萃取+合成数据)不同场景、不同系统产生的数据格式多样,受制于数据采集、加工过程中各类误差、工具手段稳定性等影响,数据集普遍存在分布偏差、颗粒度不一致、采集缺失甚至错误数据等问题。数据加工技术有待优化场景化数据集尺度不一面向行业业务的
5、数据标准,数据质量评价体系数据智能工厂:数据自动构建与质量评估体系文档、报告、手册邮件、对话、代码原始数据100%“语义通顺”的数据90%“可用”的数据70%“非重复”的数据50%“无隐私”的数据40%去掉特殊字符、特殊字段等 书生-万卷文本数据集 SkyPile-150B天工数据集 WuDaoCorpora 文本数据集 CCI中文互联网语料库 CLUECorpus2020语料 公开数据集:公开世界数据:网页、百科、图书、期刊私有数据集:质量过滤 语言过滤 统计特征过滤 关键词过滤 噪声过滤基于规则的方法 线性分类器 支持向量机基于模型的方法冗余去除 人工剔除数据集级别去重 利用哈希算法 利用
6、相似度匹配文档级别去重 利用唯一标识符 利用数据字段 利用机器学习段落、句子级别去重隐私消除 数据脱敏 数据泛z化 数据匿名化 差分隐私隐私数据消除 正则表达式 命名实体识别 关键字匹配 模式匹配与替换隐私数据发现调优数据20%数据标注 SFT筛选 智能指令进化指令提质与进化 大模型标注 智能改写 人工标注 内容审核SFT标注对齐数据5%Rank标注 智能标注 辅助撰写 多人可视 随机抽检RLHF标注沉淀为全链路多模态数据构建与评估平台数据质量评估数据打标签数据权限数据质量评估与安全数据脱敏数据加密传输数据标注问答对数据标注偏好数据标注多轮对话数据标注图片理解数据标注音频理解数据标注视频理解数