1、报告人:林衍凯单 位:中国人民大学 高瓴人工智能学院大大模模型型工工具具学学习习YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大大模模型型带带来来智智能能涌涌现现学习大大数数据据需要大大参参数数,训练大参数模型需要大大算算力力,计算量增长使模型涌涌现现智智能能大大模模型型随随计计算算量量增增长长而而不不断断生生出出新新能能力力大大模模型型随随计计算算量量增增长长而而产产生生能能力力阶阶跃跃2YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024大大模模
2、型型智智能能体体:迈迈向向通通的的智智能能美国发现杂志:过去十万年里脑容量不再增长,人类通过使使用用工工具具和分分工工协协作作达成能力延展,实现了人类文明的进一步阶跃式发展YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024使使具具是是类类智智能能的的关关键键特特性性之之一一人类能力工工具具使使用用 v.s.人工智能工工具具智智能能工具改善人类生活条件,提高生产效率,推动科技和文明的进步问题:人工智能是否具备与人类同样创造工具和使用工具的能力?YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024
3、YSSNLP2024YSSNLP2024具具学学习习前前沿沿研研究究向向OpenAI、Google等陆续发布WebGPT、ToolFormer等项目,证明大模型能够模模仿仿人人类类使用搜索引擎、计算器等外部工具,达到了接接近近乃乃至至超超越越人人类类用用户户的工具使用性能YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024具具学学习习实实现现方方法法示范学习:通过记录人类使用工具行为数据,大模型模模仿仿人人类类行行为为习得工具学习能力教程学习:通过让模型阅阅读读工工具具使使用用手手册册(教程),理解工具功能及其调用方式探索学
4、习:模型能够通过自自主主探探索索,基于强化学习,根据环环境境反反馈馈纠正错误1.示范学习2.教程学习3.探索学习人类监督逐渐减少,模型自主化程度逐渐提高(用户点击序列:下翻页面、点击、键入等)(API手册、工具文档等)(API调用成功率,用户反馈等)YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024示示范范学学习习WWe eb bGGP PT T模拟人类使用搜索引擎的行:点击、滚动、有监督微调+强化学习YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024
5、示示范范学学习习WWe eb bGGP PT T只需需要要 6,000 个个标标注注数数据据即可达到接接近近人人类类的搜索引擎使用水平YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024示示范范学学习习WWe eb bC CP PMM通过用户行为克隆,WebCPM在30%+情情况况下下与用户使用搜索引擎水平持平或超越模型从人类行为数据中学习到了类人的搜索策略行为数据收集平台WebCPM搜索流程YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024示示范范学学习习WWe eb bS Sh ho op p通过人类使用购购物物网网站站行行为为序序列列学习使用购物网站YSSNLP2024YSSNLP2024YSSNLP2024 YSSNLP2024YSSNLP2024YSSNLP2024