《杞坚玮_杞有此理_20240403_c2024-_1.pdf》由会员分享,可在线阅读,更多相关《杞坚玮_杞有此理_20240403_c2024-_1.pdf(28页珍藏版)》请在三个皮匠报告上搜索。
1、D Da at ta aF Fu un nC Co on n#2 20 02 24 4Agent技术在语音助手场景中的应用杞坚玮-小米-高级算法工程师D a t a F u n 上海站嘉宾专享C Co on nt te en nt ts s目目录录Agent 简介技术框架未来方向D a t a F u n 上海站嘉宾专享0 01 1 A Ag ge en nt t 简简介介D a t a F u n 上海站嘉宾专享LLM-based Agent 以大模型为基础的Agent框架,通常包含三个要素D a t a F u n 上海站嘉宾专享Agent for AI Assistant 在语音助手落地
2、Agent时,我们希望探索一种更面向未来的通用架构 让LLM与系统、环境结合得更紧密 复用语音助手已有的NLP能力 整合现有垂类概念,实现更端到端的体验D a t a F u n 上海站嘉宾专享0 02 2 技技术术框框架架D a t a F u n 上海站嘉宾专享Framework 为此,我们设计了如下的技术框架:D a t a F u n 上海站嘉宾专享NLU Parser Agent项目在冷启动时缺乏场景信息,大多难以完成规划为此,大多Agent项目会在用户需求的基础上进行扩展例如,AutoGPT会将用户一句话的需求扩展为角色、任务与目标D a t a F u n 上海站嘉宾专享NLU
3、Parser 语音助手本身的NLU能力可以作为Prompt构建提供依据传统语音助手的日常工作,就是理解用户请求中蕴含的意图、槽位等信息基于这些信息,可匹配运营准备的模板从而获取可控的启动状态D a t a F u n 上海站嘉宾专享NLU Parser 基于更丰富的Prompt模版,模型规划更符合产品需要D a t a F u n 上海站嘉宾专享Prompt Manager 综合语义理解、知识注入、记忆召回,构建PromptD a t a F u n 上海站嘉宾专享Prompt Manager Prompt模板包含 各阶段的System Prompt 各场景的预设运营模版D a t a F u
4、 n 上海站嘉宾专享Prompt Manager 接口定义,采用JSON Schema来注入PluginD a t a F u n 上海站嘉宾专享Prompt Manager 历史会话需留意尽可能避免将上轮输出结果直接注入到本轮Prompt中,否则十分考验模型的Context能力容易重复生成生成更加稳定D a t a F u n 上海站嘉宾专享Prompt Manager 输出格式采用ReACT思想,需要LLM给出思考与行动采用JSON Schema格式输出,方便下游解析D a t a F u n 上海站嘉宾专享Prompt Manager 记忆管理Agent每一步交互可能产生许多信息,若全部
5、注入在Prompt中会浪费大量Token,因此有必要尝试将这些信息维护在agent外部。D a t a F u n 上海站嘉宾专享Prompt Manager 完整的Prompt构成包含:-System Prompt-Scenario Prompt-User Request-Memory-Available Tools-History-Output FormatD a t a F u n 上海站嘉宾专享Executor&API Platform Executor主要负责解析大模型输出,并处理异常情况D a t a F u n 上海站嘉宾专享Executor&API Platform API P
6、latform需要隔离大模型与具体业务目标,是支持Plugin热更新仅需在平台上注册新工具,即可在Agent中生效D a t a F u n 上海站嘉宾专享Agent Workflow 完整的工作流程包含任务规划、执行、总结、反思过程D a t a F u n 上海站嘉宾专享Optimization 生成效果优化在Agent流程中包含多种任务状态,例如任务规划、工具选择、信息总结在对性能有较高要求、模型尺寸有限的条件下,要在一个LLM中同时保证上述能力有一定难度因此,一个可行的方案是在基座模型上分别训练不同的Ada