
专注于对特定网页进行深入分析,推理环节负责评估当前状态,决定是否将原始问题拆解为更小的子问题或尝试其他搜索策略寻找答案。ü Operator:Agent能力的实现通常需要规划能力、记忆系统、工具使用、行动执行四大能力;Operator则是模型在工具使用能力上的再一次跃升,例如GUI Agent基于多模态视觉模型驱动,能够自动推理并执行UI交互,模拟人类用户的操作,如点击、输入、拖拽、读取界面信息等,以完成人类要求的工作任务。而API类Agent通过系统或者应用程序的API实现工具调用,适用于提供了编程接口的应用程序;一个计划旅行的Agent场景可以会调用航班搜索API、酒店预定API以及天气预报API等等,实现对完整旅行规划的制定和输出。