《3-易龙v1.pdf》由会员分享,可在线阅读,更多相关《3-易龙v1.pdf(45页珍藏版)》请在三个皮匠报告上搜索。
1、演讲嘉宾:vivo 互联网 大数据专家 易龙从从业务价值视角有效构建业务价值视角有效构建高质量数据的方法和实践高质量数据的方法和实践易龙易龙vivo互联网/大数据专家 数据集成、高质量多模态数据团队负责人在数智化领域深耕11年,21年加入vivo,中南大学硕士,曾先后就职于华为、腾讯。对多种业务场景下高质量高质量数据工程、数据价值挖掘以及数智化等整体价值方案和交付有丰富经验。交局12篇数智化领域技术专利。目录目录1.1.引言:新时代的数据挑战与破局引言:新时代的数据挑战与破局 1.1 背景与痛点 1.2 破局思路2.2.理论框架:价值驱动数据质量提升理论框架:价值驱动数据质量提升 VDDQI(
2、2-4-X)VDDQI(2-4-X)2.1 框架介绍 2.2 落地建议3.3.关键方法与技术关键方法与技术 3.1业务价值流与数据流剖析方法 3.2业务价值与数据质量映射引擎 3.3全链路数据质量提升方法 3.4价值验证方法4.4.业务场景实践案例业务场景实践案例引言:新时代的数据引言:新时代的数据挑战与破局挑战与破局01011.1 背景与痛点:从互联网时代到大模型时代的数据范式迁移指数级增长指数级增长:2030年全球数据量将达20102010年的年的1,4001,400倍倍,从文本时代迈入多模态(视频/音频/AI)时代数据来源:IDC、艾瑞咨询、赛迪顾问、Epoch AI Research;
3、互联网普及初期,文本数据为主0.002183350103.7120175284.31,420020040060080010001200140016002000201020152018202020222023202520272030进入ZB时代,视频数据开始增长移动互联网爆发,非结构化数据占比提升云计算/5G推动数据量跃升疫情加速数字化,远程办公需求激增AI大模型训练驱动高质量数据需求大模型高速发展大模型高速发展,预计复合增长率27%(2018-2025),非结构化占比超80%。CAGR 22.4%(2022-2027)取赛迪模型数据,中国占全球30%(4YB4,000ZB),推算全球13.3-
4、14.2YB ChatGPTChatGPT上线上线大模型时代的数据范式迁移大模型时代的数据范式迁移p 规模与质量并重规模与质量并重:-tokentoken量万亿到百万亿级别,量万亿到百万亿级别,-多模态数据占比高,文本、图像、音频、视频等多模态数据占比高,文本、图像、音频、视频等 -高知识密度,领域专业化高知识密度,领域专业化 -合成数据崛起,自动化标注合成数据崛起,自动化标注p 实时交互取代批量处理实时交互取代批量处理:-长上下文窗口,思维链推理长上下文窗口,思维链推理 -从检索从检索-筛选多步操作筛选多步操作 到到 意图识别意图识别-结果结果 的简化的简化p 开源生态加速数据民主化开源生态
5、加速数据民主化全球数据量增长趋势全球数据量增长趋势 (ZB)(ZB)互联网互联网时代数据特点时代数据特点p 3V3V特征主导特征主导:-Volume -Volume(规模)(规模):PB级存储成常态 -Variety -Variety(多样性)(多样性):半结构非结构占比提升 -VelocityVelocity(速度)(速度):实时流处理需求激增p 价值密度低价值密度低:需复杂挖掘提取有效信息(ZB)(ZB)1.1 背景与痛点:数据质量直接影响业务应用效果数据是新时代的石油,但原油需要精炼才能发挥价值,数据质量直接影响业务应用的效果!垃圾数据流入:污染源头预训练阶段微调与对齐阶段训练阶段:垃圾
6、数据扭曲模型能力架构设计加剧风险记忆替代推理价值观偏差固化RLHF数据污染合成数据局限性MoE模型脆弱性低精度训练瓶颈污染来源多元化语料可行度骤降对抗性投毒版权争议数据质量缺陷表现过时/错误信息低价值重复内容偏见与毒性语料递归污染循环垃圾数据输出:连锁危害AI生成内容二次污染污染顽固性(衍生对话)1.1 背景与痛点:数据质量提升工作的痛点和困局1.1.业务价值脱业务价值脱节节数据治理投入无法体现业务收益2.2.治理碎片化治理碎片化各环节独立治理,缺乏全链路协同3.3.响应滞后响应滞后质量问题发现晚、修复成本高4.4.效果不可见效果不可见治理成果无法量化验证5.5.知识难沉淀知识难沉淀重复性问题