1、内部资料,仅供上课使用报告人:林衍凯单 位:高瓴人工智能学院大模型工具学习大模型工具学习创造和使创造和使具是具是类智能的关键特性类智能的关键特性工具改善人类生活条件,提高生产效率,推动科技和文明的进步纵观历史,人类一直是发明和使用工具的主体问题:人工智能是否具备与人类同样创造工具和使用工具的能力?工具与智能工具与智能在大模型的支持下,大模型工具学习成为可能 极强的理解能力;模拟人类行为;自由广泛的输出空间大模型工具学习成为前沿研究方向大模型工具学习成为前沿研究方向OpenAI、Google等陆续发布WebGPT、ToolFormer等项目,证明大模型能够模仿人类使用搜索引擎、计算器等外部工具,
2、达到了接近乃至超越人类用户的工具使用性能大模型工具学习大模型工具学习工具学习智能体能够理解任务,对给定任务目标进行分解,并调用各种工具来完成任务大模型工具学习大模型工具学习工具增强学习与工具导向学习工具工具 for AI使用工具的执行结果增强基础模型AI for 工具工具利用模型来管理工具并代替人类做出决策基础框架基础框架统一的工具学习框架A collection of tools with different functionalitiesWe mainly consider APIsThe environment where tools to operateThe controller p
3、rovides feasible plan to fulfill requestsThe perceiver processes users feedback to the controller开源工具包开源工具包BMToolsBMToolsBMTools 大模型学习引擎,是让语言模型使用扩展工具的开源仓库,同时也是开源社区构建和共享工具平台https:/ 的开源学术版本大模型工具学习一体化框架 支持定制化工具添加通过编写 Python 函数轻松构建插件使用外部的 ChatGPT-Plugins 支持AutoGPT、BabyAGI链接 https:/ 6,000 个注释数据即可达到接近人类的搜
4、索引擎使用水平WebCPMWebCPM通过用户行为克隆,WebCPM在30%+情况下与用户使用搜索引擎水平持平或超越模型从人类行为数据中学习到了类人的搜索策略行为数据收集平台WebCPM搜索流程WebShopWebShop通过人类使用购物网站行为序列学习使用购物网站WebShop:Towards Scalable Real-World Web Interaction with Grounded Language AgentsToolBenchToolBench亮点:16000+真实API(收集于RapidAPI)支持单工具调用与多工具调用 复杂多步推理任务https:/ API收集:从Rapi
5、dAPI Hub的49类50000+API精选16000个API 指令生成:单工具指令、多工具指令 结果标注:提出DFSDT解决采用ReACT调用ChatGPT失败率过高的问题ToolEvalToolEval基于ChatGPT的自动工具学习评价框架两种指标 通过率:在有限的 OpenAI API 调用次数内成功完成指令的比例 偏好:两个答案之间的质量/有用性比较,即哪个更好?与人类专家高度一致(80%)ToolLLaMAToolLLaMA基于ToolBench对LLaMa进行微调在未知指令和API极高的泛化性,显著好于ChatGPT+ReACTDFSDT ReACTToolLLaMAToolL
6、LaMA效果效果推理增强推理增强工具学习规划推理工具学习规划推理思维链推理能力将复杂任务拆解为多个简单任务来源于人类的思维过程工具学习规划推理工具学习规划推理ReAct:将大模型推理规划与动作预测相结合 要求大模型在每步同时预测下一步的思考过程(Thought)和执行动作(Action)工具学习规划推理工具学习规划推理COT(or ReACT)的问题:大模型直接输出的Top-1任务分解序列可能不是最优Tree of Thought:通过树搜索寻找最优序列 对于24点游戏,将GPT-4的效果从 7%提升到74%工具学