《2-大模型应用平台质量保障体系-郭维.pdf》由会员分享,可在线阅读,更多相关《2-大模型应用平台质量保障体系-郭维.pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、大模型应用平台质量保障体系讲 师 郭维 百度 ACG产品质量部自我介绍郭维郭维百度资深测试工程师硕士毕业于西安工业大学计算机应用方向,多年百度工作经验,在AI算法、公有云平台、私有化交付等多个领域经验丰富,现任百度千帆AppBuilder测试负责人,带领20人+团队。AI等级表现形式能力典型应用L1Tool人类完成所有工作,没有任何显性的AI 辅助。目前绝大多数软件产品L2ChatGPT人类完成绝大部分工作。人类向 AI询问意见,了解信息,AI 提供信息和建议但不直接处理工作。初代 ChatGPT 等L3Copilot人类和AI进行协作,工作量相当。AI根据人类 prompt 完成工作初稿,人
2、类进行目标设定、修改调整,最后确认。GitHub Copilot、Midjourney、Jasper 等L4AI AgentAI完成绝大部分工作,人类负责设定目标、提供资源和监督结果。AI完成任务拆分,工具选择,进度控制,实现目标后自主结束工作。AutoGPT 等L5通用人工智能 AGI完全无需人类监督,AI 自主拆解目标、寻找资源、选择并使用工具、完成全部工作,人类只需给出目标。暂未出现,类似流浪地球里的moss?AI Agent的发展历程Agent发展范式场景1-训练-数据场景2-训练-数据场景3-训练-数据场景4-训练-数据应用开发范式基础大模型组件1组件2组件3组件4创意1创意2创意3
3、创意4创意5编排框架海量数据开发者要做的工作创意驱动Agent发展AI原生应用开发模式演变 提示词工程 Prompt Engineering 检索增强 RAG 大模型融合业务执行 Copilot 自主规划与执行 Agent 大语言模型V1大语言模型V2知识库手动编排工作流知识库大语言模型V3自主任务规划手动编排工作流知识库大语言模型V3随着基座模型能力的逐渐迭代,AI原生应用的系统复杂度也逐渐增加。一套功能完备的AI原生应用开发平台,可以把底座模型的能力发挥到极致,显著提升开发效率。百度智能云千帆平台 打造大模型服务超级工厂 百度智能云千帆平台千帆AppBuilder可编程的完整开发套件工具组
4、件、应用框架全开放自然语言交互三步即可完成应用创建与分发拖拉拽式工作流,编排组件实现复杂且可控的任务流程 发布渠道更多元 开发部署更灵活 开放模型更多源 工具组件更丰富 交互体验更智能产业级AI原生应用开发平台大模型应用平台质量体系建设中遇到的难点常规的测试能力是否能全面保障?大模型特有的测试能力?大模型平台特有的测试能力?大模型应用特有的测试能力?生产平台的稳定性是怎样的?用户关注大模型应用什么?从0到1从何开始?从1到10怎么做好?大模型应用和手机应用的区别?什么样的应用是好的应用?坚固的通用测试能力助力业务基建稳固需求背景及目标可行性分析功能/性能/效果等预期指标依赖项确认优先级对齐需求
5、分级详细设计&评审任务拆解&排期安全&高可用设计自测报告测试方案&评审测试工具赋能准入卡点测试过程:功能、UI、接口、安全、兼容、性能、稳定性、高可用、效果线上监控:接口、UI、效果、性能测试过程:接口、安全、性能、稳定性、高可用、线上监控:接口测试过程:接口、安全、性能、稳定性、高可用、效果线上监控:接口、效果测试过程:功能、接口、安全、性能、稳定性、高可用、效果线上监控:接口、效果、性能大模型层策略&算法层测试过程:功能、接口、安全、性能、稳定性、高可用、效果线上监控:接口、组件功能、镜像功能资源层网关层Console前台准出/上线list上线方案上线申请上下游同步线上验证线上验收问题回流
6、智能监控故障演练稳定性SLAQARD 需求阶段 开发/提测阶段 测试阶段 上线阶段 线上运维全维度质量评估推动产品质量提升健康线、生命线占比风险发版率北极星指标 OKR指标需求开发测试发布交付反馈结果指标过程指标需求风险有效拦截率开发风险有效拦截率提测后P0 Bug占比提测后P0 Bug数量千行代码BUG率千行代码高危BUG率风险发版数风险发版拦截数质量闭环率A级客诉数量单元测试增量行覆盖率单元测试全量行覆盖率生命周期故障数(S1+/C1+)S级别程序问题率(公有云)流程机制闭环率需求阶段风险闭环率需求风险卡片数量提测打回风险卡片数量历史Bug消解率线上产品问题率(公有云)产品实施问题率(私有