《刘广-Infinity Instruct 合成指令技术的探索.pdf》由会员分享,可在线阅读,更多相关《刘广-Infinity Instruct 合成指令技术的探索.pdf(53页珍藏版)》请在三个皮匠报告上搜索。
1、刘广 智源基础数据研究组负责人北京邮电大学智能科学与技术博士,北京智源人工智能研究院基础数据研究组负责人,有悟道天鹰Aquila系列基础模型(7B/34B/8x16B)开发和开源经验,在人工智能领域学术会议和期刊上发表论文,现在关注高质量数据合成技术等研究方向。演讲主题:Infinity Instruct:合成指令技术的探索北京智源人工智能研究院报告人:刘广I In nf fi in ni it ty y I In ns st tr ru uc ct t:合合成成指指令令技技术术的的探探索索C Ch ha at tG GP PT T引引发发大大模模型型浪浪潮潮 2023年2 1990年网络浏览
2、器诞生,但直到1994年网景(Netscape Navigator)浏览器的出现,使大众上网变成了可能,互联网时代才真正到来。1993年智能手机诞生,但直到2007年苹果推出iPhone手机,大量智能手机应用程序出现,移动互联网时代才真正到来。2022年11月30日,OpenAI面向公众开放ChatGPT服务,人工智能从技术圈走向全民讨论,迎来了人工智能的网景/iPhone时刻。2023年1月25日美国财富杂志2024年Zhao W X,Zhou K,Li J,et al.A survey of large language modelsJ.arXiv preprint arXiv:2303.
3、18223,2023.2007年Common Crawl(CC)项目启动2019年WebText和C4等基于CC清洗得到的大规模数据集发布2020年 GPT3 发布2020-2022年,发布了Flan2021等指令和偏好数据集以及BBH,HELM等评价数据集2022年11月 ChatGPT发布 至此,数据集规模和发布频率升级Liu,Yang,et al.Datasets for Large Language Models:A Comprehensive Survey.arXiv preprint arXiv:2402.18041(2024).高高质质量量数数据据集集是是大大模模型型性性能能提提
4、升升的的基基础础高高质质量量指指令令数数据据是是关关键键金融法律医疗教育 QA数学代码创意写作 指指令令数数据据领领域域应应用用MML LL LMM数数据据墙墙问问题题:人人类类存存量量数数据据可可能能在在2 20 02 28 8年年耗耗尽尽Villalobos,P.,Ho,A.,Sevilla,J.,Besiroglu,T.,Heim,L.,&Hobbhahn,M.Position:Will we run out of data?Limits of LLM scaling based on human-generated data.In Forty-first International C
5、onference on Machine Learning.如如何何应应对对指指令令数数据据的的“数数据据墙墙”问问题题?Liu,Yang,et al.Datasets for Large Language Models:A Comprehensive Survey.arXiv preprint arXiv:2402.18041(2024).站在巨人的肩膀上针针对对指指令令数数据据集集现现状状的的分分析析1 Selecting Large Language Model to Fine-tune via Rectified Scaling Law2 Scaling Instruction-Fin
6、etuned Language Models基基础础能能力力数数据据集集:规模大,但质量良莠不齐可可能能需需要要大大量量合合成成可可能能需需要要筛筛选选对对话话数数据据集集:高高质质量量数数据据相相对对少少,覆覆盖盖面面不不足足 与用户的查询可能存在明显差异左半图为模型基础能力相关任务,右半图为对话能力相关任务。高高质质量量指指令令数数据据是是关关键键金融法律医疗教育 QA数学代码创意写作 指指令令数数据据领领域域应应用用MML LL LMMI In nf fi in ni it ty y I In ns st tr ru uc ct t:概概览览两两级级标标签签系系统统,刻刻画画完完成成指指