《刘勇-大模型机理分析.pdf》由会员分享,可在线阅读,更多相关《刘勇-大模型机理分析.pdf(50页珍藏版)》请在三个皮匠报告上搜索。
1、刘勇 中国人民大学高瓴人工智能学院副教授、博士生导师博士生导师,从事机器学习研究,特别关注大规模机器学习、统计机器学习理论等。共发表高水平期刊和会议论文40余篇,包括IEEE TPAMI、ICML、NeurIPS、ICLR、AAAI、IJCAI等,其中第一作者/唯一通讯作者在中国计算机学会推荐A类上发表学术论文20余篇。曾获2014年亚太知识发现和数据挖掘会议(PAKDD)博士生论坛最佳论文,并指导学生获2021年环太平洋国际人工智能会议(PRICAI)最佳学生论文。作为项目负责人主持了国家自然科学基金面上项目和青年项目、北京市自然科学基金面上项目、中国科学院基础前沿科学研究计划等。曾获202
2、0年中国人民大学“杰出学者”、2019年中国科学院“青年创新促进会”、2016年中国科学院信息工程研究所“引进优秀青年”、2012年“博士研究生学术新人奖”等称号。演讲主题:大模型机理分析大模型机理分析刘勇中国人民大学高瓴人工智能学院研究背景大模型ICL隐式更新机理分析RAG增强是否能提升大模型推理能力?合成数据机理分析在大模型后训练中是否有用?研究背景介绍 大模型技术飞速发展 ChatGPT、ChatGPT 4、Sora、O1 大模型机理分析相对滞后 大模型内部运行机理研究很少 将来有可能发挥越来越重要的作用研究背景介绍 理论分析的难点 大模型是一个系统工程 理论上很难将其当一个总体研究 现
3、在处于盲人摸象的阶段 本报告 大模型ICL隐式更新机理分析 RAG增强是否能提升大模型推理能力?合成数据机理分析在大模型后训练中是否有用?图片来自pngtree背景介绍 什么是In-context learning(ICL)?7背景介绍监督学习范式 1)给定训练数据 ,=1训练模型;+1=其中,=;,2)预测+1=+1;参参数数是是显显示示更更新新的的!8背景介绍In-context learning 1)给定一个大模型;2)输入序列=1,2,+1 +1,其中=,=1,3)预测+1=;没没有有显显示示参参数数更更新新!9怎怎么么做做到到的的!背景介绍 一种直觉是将其视为隐式梯度更新 线性注意力
4、,=其中=,=,10背景介绍 一种直觉是将其视为隐式梯度更新 考虑一个简单的线性模型;=训练数据=,=1,=1=1 ;,更新参数=+=1 =+=1 在新的测试点:;=+=1 =+,其中 =1,=1,11,=背景介绍 想想解解决决的的问问题题:1)用S So of ft tm ma ax x a at tt te en nt ti io on n 替替换换 l li in ne ea ar r a at tt te en nt ti io on n 2)在在给给定定Q、K、V的的情情况况下下,什什么么样样的的损损失失函函数数(l lo os ss s f fu un nc ct ti io on
5、 n)和和什什么么数数据据下下的的梯梯度度下下降降算算法法对对应应于于I IC CL L过过程程12ICL实实际际上上等等价价于于一一种种对对比比学学习习模模式式!基础知识 输入序列=,+1 +1=1,2,=,+1=+1,+1,+1=Self-attention 输出可表示为:=softmax +=softmax +13Softmax Attention线性化14 =Random featuresRuifeng Ren,Yong Liu.Towards Understanding How Transformers Learn In-context Through a Representatio
6、n Learning Lens.In NeurIPS 2024ICL隐式梯度下降 线性模型:;=更新:=预测=+1 15 =16ICL隐式梯度更新lossICL输输出出基基于于梯梯度度下下降降算算法法的的模模型型输输出出输输入入:=,+1 =Ruifeng Ren,Yong Liu.Towards Understanding How Transformers Learn In-context Through a Representation Learning Lens.In NeurIPS 202417ICL隐式梯度更新inputinputICLFine TuringRuifeng Ren,Y