《大模型背后的荆棘之路-林咏华.pdf》由会员分享,可在线阅读,更多相关《大模型背后的荆棘之路-林咏华.pdf(30页珍藏版)》请在三个皮匠报告上搜索。
1、大 模 型 背 后 的 荆 棘 之 路林咏华北京智源人工智能研究院副院长,兼总工程师开源开放,得以让人工智能技术快速迭代大模型更是推动了AI开源社区的进一步蓬勃发展:2023年的AI开源项目比2022年快速增长了59.3%。大模型一年,AI开源社区受到前所未有的关注和使用:2023年AI开源项目在github star的总量是2022年的3倍。选择基座模型构造行业模型训练数据训练行业模型行业应用集成上线部署第一个问题是选择哪个基座模型?截止到2024年4月底,全球开闭源通用大模型:模型数量主要机构通用基座语言大模型30Meta,Mistral AI,DataBricks,MicroSoft,G
2、oogle阿里巴巴,智源研究院,上海人工智能实验室&商汤科技,零一万物,深度求索&幻方量化,智谱华章&清华KEG,零一万物,百川智能等通用对话语言大模型47Google,OpenAI,Meta,Anthropic,Mistral AI,DataBricks,CohereForAI,MiniMax,Meta,百度,智谱华章&清华KEG,月之暗面,阶跃星程,阿里巴巴,智源研究院,深度求索&幻方量化,字节跳动,上海人工智能实验室&商汤科技,百川智能,零一万物,百川智能,科大讯飞,面壁智能等语言模型代码大模型19Meta,BigCode,Stability AI,Salesforce,MicroSof
3、t,深度求索&幻方量化等通用多模态大模型27OpenAI,UW Madison WAIV,Google,HUST,X-PLUG上海人工智能实验室,阿里巴巴,智源研究院,阶跃星辰,深度求索&幻方量化,零一万物,智谱华章,面壁智能,中科大等多模态文生图大模型15OpenAI,Midjourney,Stability AI,kandinsky-community,PromptHerodreamlike.art,Runway,CompVis,智谱,百度,PixArt等多模态文生视频大模型8OpenAI,Runway,PixVerse AI,Pika,TencentAILab-CVC,National
4、University of Singapore,潞晨科技,生数科技等当前评测技术的发展跟不上大模型的发展速度GLUE,SuperGLUE,G R I T,I m a g e N e t,COCO,VOC等传统的AI模型评测集HELM:针对语言大模型的 整 体 系 统 化 评 测 集(以 理 解 能 力 评 测 为主,少量生成和认知能力评测)20212022理解能力生成能力认知能力人类思维能力除了少量生成任务(如summarization),主要依靠人类评分当前多使用各种领域的考试对模型的各种认知能力进行模拟评测挑战:依靠人类评测,效率低,客观性和评测质量的一致性难以保证挑战:认知的边界难以确定
5、,另一方面各类考题容易进入训练数据如心智能力(如理解信念,了解情绪,意图理解,理解复杂现实情景,对话中的解释能力等)、鉴别能力(误解和事实)等1挑战:需要新的复杂的测试集合、定义新的测试方法。哪怕对于像鉴别是否 事 实 这 样 的 例子,由于生成的内容复杂,传统的理解类评测方法已经不能满足。1 Sparks of Artificial General Intelligence:Early experiments with GPT-4,Microsoft2023:MMMU:多学科图文理解和推理能力的评测集2023:HEIM:针对文生图模型的评测体系挑战:对更复杂场景的理解能力、新的跨模态(文图、
6、文视频、3D等)的理解能力评测方法用于比较大模型性能的各种榜单容易激发各种争议LLaMA有不同的评测结果,引发广泛关注和讨论 榜单数量众多,差异性大,缺乏一致性“刷榜”成为主流,难以规避“作弊”的问题 没有统一的评测规范,实现的人不同评测结果不同,指标不同结果不同大模型评测的问题评测集合“以新换旧”,“以难换易”。问题一:评测集被“过拟合”,难以区分真正的模型性能。语言理解:SuperCLUE(2019)-HELM(2021)认知推理:MMLU()-GPQA(2023)代码评测:HumanEval(2021)-SWE-bench(2023)图片推理:VQA(2017)-MMMU(2023)图片