《中国信通院:2025人工智能高质量数据集建设指南(74页).pdf》由会员分享,可在线阅读,更多相关《中国信通院:2025人工智能高质量数据集建设指南(74页).pdf(74页珍藏版)》请在三个皮匠报告上搜索。
1、人工智能高质量数据集人工智能高质量数据集建设指南建设指南中国信息通信研究院人工智能研究所清华大学计算社会科学与国家治理实验室中国人工智能产业发展联盟数据委员会2025年7月版权声明版权声明本报告版权属于中国信息通信研究院、清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明本报告版权属于中国信息通信研究院、清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院、清华大学计算社会科学与国家治理实验室、中国人工智
2、能产业发展联盟来源:中国信息通信研究院、清华大学计算社会科学与国家治理实验室、中国人工智能产业发展联盟”。违反上述声明者,编者将追究其相关法律责任。违反上述声明者,编者将追究其相关法律责任。前言前言党中央和国家高度重视推动数据赋能人工智能高质量发展。2025年 4 月 25 日,中央政治局就加强人工智能发展和监管进行第二十次集体学习,习近平总书记指出,要“深化数据资源开发利用和开放共享”,要“全面推进人工智能科技创新、产业发展和赋能应用”。近年来,国家相关部委和地方政府围绕高质量数据集建设和运营、数据标注产业发展等出台系列政策,并通过投资奖补、标准制定和验证、样板案例建设等举措积极推进高质量数
3、据集政策落地。党中央和国家的政策部署为业界推进高质量数据集建设提供了方向指引和根本遵循。随着大模型技术的迅猛发展,数据集作为人工智能核心三要素之一,在算法趋同、算力普惠的竞争环境中正在构建难以复制的差异化壁垒。人工智能发展正在进入“数据驱动”新阶段,高质量数据集的建设不仅是提升 AI 模型性能的关键,也是推动“人工智能+”行动落地的重要保障。然而现阶段,大量机构在高质量数据集建设中面临目标定位模糊化、实施路径碎片化与技术底座薄弱化三重挑战,不知道需要什么数据集、如何建设数据集、怎样评估数据集质量,制约了人工智能应用落地。人工智能高质量数据集建设指南正是在此背景下启动起草,旨在为业界建设高质量数
4、据集提供有实操价值的指导和参考。指南从政策、技术、产业层面介绍了当前高质量数据集建设的背景,梳理了高质量数据集的定义、特征、分类、建设主体以及“三大建设难点”,提出了人工智能数据工程的“五大核心要素”和企业建设高质量数据集“三步走”战略,分析了高质量数据集建设的核心技术,展示了科学、通信、交通、铁塔、医疗、文化等领域高质量数据集建设实践,最后从工程能力、技术创新、质量评估、版权合规、基础制度创新等层面对未来高质量数据集建设的趋势进行了展望,并提出了对政府部门和企业机构的建议,为业界推进高质量数据集建设提供有力支撑。目录目录一、高质量数据集成为人工智能应用升级的核心要素.1(一)政策层面:“人工
5、智能+数据要素”政策协同布局.1(二)技术层面:人工智能技术演进重构数据工程范式.3(三)产业层面:数据成为人工智能行业应用的护城河.7二、高质量数据集建设的现状和难点.8(一)高质量数据集的“三高”特征.8(二)高质量数据集分类维度.10(三)高质量数据集建设主体.13(四)高质量数据集建设难点.14三、搭建人工智能数据工程能力核心要素.15(一)管理体系.16(二)开发维护.17(三)质量控制.18(四)资源运营.22(五)合规可信.23四、高质量数据集建设路径设计.24(一)体系规划阶段构建高质量数据集认知框架.24(二)工程建设阶段打造高质量数据集生产体系.26(三)质量监测阶段构建高
6、质量数据集全流程管控机制.27五、高质量数据集“炼化”流程和技术.29(一)数据设计和采集.29(二)数据治理.30(三)数据标注.31(四)数据质检.32(五)数据运营.33六、总结展望和建议.34(一)建立 AI 数据工程体系.34(二)推动 AI 数据技术创新.35(三)搭建全流程 AI 数据质量管理体系.35(四)加快 AI 数据开发利用机制突破.36附件 行业高质量数据集建设代表性实践.42(一)教育领域:高等教育学科高质量数据集建设实践.42(二)科学领域:材料科学高质量数据集建设实践.46(三)通信领域:网络运维高质量数据集建设实践.48(四)交通领域:交通运输政策法规和标准规范