当前位置:首页 > 报告详情

刘广-Infinity Instruct 合成指令技术的探索.pdf

上传人: 哆哆 编号:630932 2025-04-19 53页 17.24MB

1、刘广 智源基础数据研究组负责人北京邮电大学智能科学与技术博士,北京智源人工智能研究院基础数据研究组负责人,有悟道天鹰Aquila系列基础模型(7B/34B/8x16B)开发和开源经验,在人工智能领域学术会议和期刊上发表论文,现在关注高质量数据合成技术等研究方向。演讲主题:Infinity Instruct:合成指令技术的探索北京智源人工智能研究院报告人:刘广I In nf fi in ni it ty y I In ns st tr ru uc ct t:合合成成指指令令技技术术的的探探索索C Ch ha at tG GP PT T引引发发大大模模型型浪浪潮潮 2023年2 1990年网络浏览

2、器诞生,但直到1994年网景(Netscape Navigator)浏览器的出现,使大众上网变成了可能,互联网时代才真正到来。1993年智能手机诞生,但直到2007年苹果推出iPhone手机,大量智能手机应用程序出现,移动互联网时代才真正到来。2022年11月30日,OpenAI面向公众开放ChatGPT服务,人工智能从技术圈走向全民讨论,迎来了人工智能的网景/iPhone时刻。2023年1月25日美国财富杂志2024年Zhao W X,Zhou K,Li J,et al.A survey of large language modelsJ.arXiv preprint arXiv:2303.

3、18223,2023.2007年Common Crawl(CC)项目启动2019年WebText和C4等基于CC清洗得到的大规模数据集发布2020年 GPT3 发布2020-2022年,发布了Flan2021等指令和偏好数据集以及BBH,HELM等评价数据集2022年11月 ChatGPT发布 至此,数据集规模和发布频率升级Liu,Yang,et al.Datasets for Large Language Models:A Comprehensive Survey.arXiv preprint arXiv:2402.18041(2024).高高质质量量数数据据集集是是大大模模型型性性能能提提

4、升升的的基基础础高高质质量量指指令令数数据据是是关关键键金融法律医疗教育 QA数学代码创意写作 指指令令数数据据领领域域应应用用MML LL LMM数数据据墙墙问问题题:人人类类存存量量数数据据可可能能在在2 20 02 28 8年年耗耗尽尽Villalobos,P.,Ho,A.,Sevilla,J.,Besiroglu,T.,Heim,L.,&Hobbhahn,M.Position:Will we run out of data?Limits of LLM scaling based on human-generated data.In Forty-first International C

5、onference on Machine Learning.如如何何应应对对指指令令数数据据的的“数数据据墙墙”问问题题?Liu,Yang,et al.Datasets for Large Language Models:A Comprehensive Survey.arXiv preprint arXiv:2402.18041(2024).站在巨人的肩膀上针针对对指指令令数数据据集集现现状状的的分分析析1 Selecting Large Language Model to Fine-tune via Rectified Scaling Law2 Scaling Instruction-Fin

6、etuned Language Models基基础础能能力力数数据据集集:规模大,但质量良莠不齐可可能能需需要要大大量量合合成成可可能能需需要要筛筛选选对对话话数数据据集集:高高质质量量数数据据相相对对少少,覆覆盖盖面面不不足足 与用户的查询可能存在明显差异左半图为模型基础能力相关任务,右半图为对话能力相关任务。高高质质量量指指令令数数据据是是关关键键金融法律医疗教育 QA数学代码创意写作 指指令令数数据据领领域域应应用用MML LL LMMI In nf fi in ni it ty y I In ns st tr ru uc ct t:概概览览两两级级标标签签系系统统,刻刻画画完完成成指指

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了北京智源人工智能研究院基础数据研究组负责人刘广关于合成指令技术的探索。文中首先分析了高质量指令数据的重要性,指出指令数据是多模态模型能力的基石,并提出了Infinity Instruct指令数据集。Infinity Instruct包含两级标签系统,刻画完成指令所需的能力与知识,方便检索任意类别指令,指导数据配比。文中还介绍了Infinity Instruct的整体构建流程,包括种子指令对话能力指令指令数据合成等步骤。此外,文中还探讨了如何应对指令数据的“数据墙”问题,提出了Infinity-Preference偏好指令数据集,通过任务粒度建模偏好权重,提升模型性能。最后,文中介绍了Infinity-MM多模态指令数据集的构建目标、核心方法和实验结果,展示了Infinity-MM在训练SOTA效果的2B级别模型Aquila-VL-2B中的作用。
高质量指令数据如何助力模型性能提升? Infinity-Instruct系列模型性能如何? Infinity-MM数据集如何构建?
客服
商务合作
小程序
服务号
折叠