阿里研究院:2024大模型训练数据白皮书(29页).pdf

编号:163375 PDF  PPTX 29页 11.90MB 下载积分:VIP专享
下载报告请您先登录!

阿里研究院:2024大模型训练数据白皮书(29页).pdf

1、LARGE LANGUAGEMODELS TRAINING DATAWHITE PAPER训练数据对大模型发展的重要性.02模型训练所需的数据类型.032.1 训练大语言模型的数据.032.2 训练多模态模型的数据.042.3 训练数据的常见疑问和误解.042.3.1 大模型训练并不依赖用户个人信息.042.3.2 中文语料短缺不是制约我国大模型发展的重要因素.05科学理解高质量数据的含义与作用.063.1 高质量数据的重要性.063.2 高质量数据的标准.073.2.1 高质量数据类型的三重不确定性.073.2.2 同类数据的评估标准并不完全一致.08目录CONTENTS010203大模型训

2、练数据白皮书合成数据作为解决训练数据供给不足的新方案.094.1 训练数据供给不足带来的思考.094.2 合成数据的定义.104.3 合成数据的必要性.104.4 合成数据的生成方法及分类.114.5 合成数据在模型训练中的作用.124.5.1 预训练语料的新物种.124.5.2 提升对齐语料获取效率的加速器.134.6 解决训练数据供给不足的新方案.144.7 在发展中治理的合成数据.16对大模型训练数据治理的思考.175.1 大模型对训练数据的使用特点.175.2 大模型训练数据合规的治理之智.18政府与社会力量协同的训练数据生态.196.1 美国的现状.196.2 中国的现状.21 以更

3、开放和务实的方式解决高质量训练数据供给.阿里巴巴集团在大模型训练与应用的探索.23240405060708自中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见发布以来,我国数据要素建设不断深入,在国家数据局等 17 部门联合印发的“数据要素”三年行动计划(2024-2026 年)进一步明确“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展,可以有效解决我国人工智能,特别是大模型研发所面临的数据瓶颈,进一步发挥大模型对于世界知识数据的汇集和处理能力,创造更大的生产力,助力我国从数据经济走向智能经济新发展模式。大模型是数据要素价

4、值释放的最短路径,通过理解其训练所使用的数据类型,可以更好理解大模型发挥价值的内在机制,破解对训练数据常见的迷思和误解。而促进高质量训练数据的建设,需要理解人工智能对数据的实际需求,科学评价数据的规模和质量;需要综合利用政府、企业、社会等各方资源,构建共享、共创、共赢的合作生态,以更务实、多元、开放的方式解决供给不足的问题;还需要为技术发展预留空间,构建更顺应模型发展的数据治理体系,相信随着技术的日益成熟,相应的商业模式和制度设计也都会逐步完善。01业界认为,算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以 GPT 为例的生成式人工智能大模型成功的驱动力。GPT 模型架

5、构从第 1 代到第 4 代均较为相似,而用来训练数据的数据规模和质量却有很大的不同。GPT-1 是由 4.8G 未过滤原始数据训练,GPT-2 是由经人类过滤后的 40G 数据训练,GPT-3是由从 45T 原始数据中过滤的 570G 数据训练,而 chatGPT/GPT-4 则是在该基础上又加入了高质量人类标注。以吴恩达(Andrew Ng)为代表的学者观点认为,人工智能是以数据为中心的,而不是以模型为中心。“有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快”。01训练数据对大模型发展的重要性02大模型训练数据白皮书数据作为大模型训练的基础,它

6、提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据,随着技术的演进,大模型所需的数据是对知识性内容有强需求,是一种新的类型。模型训练所需的数据类型2.1训练大语言模型的数据大模型所需要的数据根据训练的阶段有所不同。以 ChatGPT 为代表的大语言模型(LLM)为例,其训练过程分为预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,后两部分又统称为0203大语言模型迅速发展的同时,Transformer 开始迁移到图像、视频和语音等其他模态数据领域,并与大语言模型融合,形成多模态大模型。多模态模型模拟人类

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(阿里研究院:2024大模型训练数据白皮书(29页).pdf)为本站 (NET) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠