《杨晨-从原型到生产-AgentOps 加速字节 AI 应用落地实践(0410).pdf》由会员分享,可在线阅读,更多相关《杨晨-从原型到生产-AgentOps 加速字节 AI 应用落地实践(0410).pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、杨晨目录大模型API价格以逐年1/10的趋势下降开源与闭源模型的能力差距在逐步缩小越来越多能处理复杂任务的Agent出现由容器、微服务及声明式API所构建的微服务应用架构由模型、AI Agent及Tool共同构筑的AI Native应用架构解决系统复杂性问题解决智能决策问题LLM 嵌入预定义代码路径LLM 主导控制流 基于大模型的应用开发迭代方式有何不同?如何高效开发?如何进行模型选型?怎样写出更有效的Prompt引导模型输出?面对大模型的不确定性,如何高效评测AI应用以达到上生产要求?上线后如何监测效果是否符合预期?怎样做到持续评测?自主驱动的Agent在生产环境中如何进行观测、运维?怎样快
2、速发现线上BadCase?怎样监测线上模型token消耗、成本计费?效果不及预期,如何进行模型推理结果的优化提升?Prompt调优?RAG?还是Fine-Tuning?Prompt 调试Prompt 对比调试核心思路:-APE:Prompt 逆向工程,根据输入和输出让模型生成/改写Prompt并迭代式演进寻找更优解-APO:在文本空间实现梯度下降(gradient descent)的过程,用错误反馈来反向优化 Prompt核心思路:将用户调试优化迭代Prompt的过程转变为 初始Prompt+标注数据集+评估器的设计,最终通过自主迭代优化给出满足对应评估器指标较好的优化后Prompt。基于用户
3、反馈的Prompt自动优化基于BadCase集的Prompt自动优化评测贯穿AI应用的全生命周期指标分析:会话聚合:1.AI应用的需要做一定权衡2.LLM/Agent不是万能的3.评测是关键,评测的效率&准确度决定了AI应用的迭代速度&质量LLM/Agent能力越来越强协议标准走向统一MCP(Model Context Protocol)Agent Protocol/Multi-Agent Protocol?AgentOps的机会:AI Agent爆发,对AgentOps类平台工具诉求明显增加Agent落地生产应用依赖便捷的效果评估复杂任务/纯自主的Agent对模型Token消耗、执行链路黑盒性有更强的可观测诉求协议标准趋向统一更便捷做平台能力集成AgentOps的挑战:行业千变万化,尚未形成标准范式,需要时常做好认知迭代升级竞争格局激烈更好的参与到行业标准的制定大模型正在重新定义软件Large Language Model Is Redefining The Software