阿里研究院：2024大模型训练数据白皮书-三个皮匠报告

1、LARGE LANGUAGEMODELS TRAINING DATAWHITE PAPER训练数据对大模型发展的重要性.02模型训练所需的数据类型.032.1 训练大语言模型的数据.032.2 训练多模态模型的数据.042.3 训练数据的常见疑问和误解.042.3.1 大模型训练并不依赖用户个人信息.042.3.2 中文语料短缺不是制约我国大模型发展的重要因素.05科学理解高质量数据的含义与作用.063.1 高质量数据的重要性.063.2 高质量数据的标准.073.2.1 高质量数据类型的三重不确定性.073.2.2 同类数据的评估标准并不完全一致.08目录CONTENTS010203大模型训

2、练数据白皮书合成数据作为解决训练数据供给不足的新方案.094.1 训练数据供给不足带来的思考.094.2 合成数据的定义.104.3 合成数据的必要性.104.4 合成数据的生成方法及分类.114.5 合成数据在模型训练中的作用.124.5.1 预训练语料的新物种.124.5.2 提升对齐语料获取效率的加速器.134.6 解决训练数据供给不足的新方案.144.7 在发展中治理的合成数据.16对大模型训练数据治理的思考.175.1 大模型对训练数据的使用特点.175.2 大模型训练数据合规的治理之智.18政府与社会力量协同的训练数据生态.196.1 美国的现状.196.2 中国的现状.21 以更

3、开放和务实的方式解决高质量训练数据供给.阿里巴巴集团在大模型训练与应用的探索.23240405060708自中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见发布以来，我国数据要素建设不断深入，在国家数据局等 17 部门联合印发的“数据要素”三年行动计划（2024-2026 年）进一步明确“建设高质量语料库和基础科学数据集，支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展，可以有效解决我国人工智能，特别是大模型研发所面临的数据瓶颈，进一步发挥大模型对于世界知识数据的汇集和处理能力，创造更大的生产力，助力我国从数据经济走向智能经济新发展模式。大模型是数据要素价

4、值释放的最短路径，通过理解其训练所使用的数据类型，可以更好理解大模型发挥价值的内在机制，破解对训练数据常见的迷思和误解。而促进高质量训练数据的建设，需要理解人工智能对数据的实际需求，科学评价数据的规模和质量；需要综合利用政府、企业、社会等各方资源，构建共享、共创、共赢的合作生态，以更务实、多元、开放的方式解决供给不足的问题；还需要为技术发展预留空间，构建更顺应模型发展的数据治理体系，相信随着技术的日益成熟，相应的商业模式和制度设计也都会逐步完善。01业界认为，算法、算力与数据，是支撑大模型发展的三大基石。更高质量、更丰富的数据是以 GPT 为例的生成式人工智能大模型成功的驱动力。GPT 模型架

5、构从第 1 代到第 4 代均较为相似，而用来训练数据的数据规模和质量却有很大的不同。GPT-1 是由 4.8G 未过滤原始数据训练，GPT-2 是由经人类过滤后的 40G 数据训练，GPT-3是由从 45T 原始数据中过滤的 570G 数据训练，而 chatGPT/GPT-4 则是在该基础上又加入了高质量人类标注。以吴恩达（Andrew Ng）为代表的学者观点认为，人工智能是以数据为中心的，而不是以模型为中心。“有标注的高质量数据才能释放人工智能的价值，如果业界将更多精力放在数据质量上，人工智能的发展会更快”。01训练数据对大模型发展的重要性02大模型训练数据白皮书数据作为大模型训练的基础，它

6、提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据，随着技术的演进，大模型所需的数据是对知识性内容有强需求，是一种新的类型。模型训练所需的数据类型2.1训练大语言模型的数据大模型所需要的数据根据训练的阶段有所不同。以 ChatGPT 为代表的大语言模型（LLM）为例，其训练过程分为预训练（Pre-training）、监督微调（SFT）、基于人类反馈的强化学习（RLHF）三个阶段，后两部分又统称为0203大语言模型迅速发展的同时，Transformer 开始迁移到图像、视频和语音等其他模态数据领域，并与大语言模型融合，形成多模态大模型。多模态模型模拟人类

阿里研究院：2024大模型训练数据白皮书（29页）.pdf

相关报告