《蒋学鑫-评测驱动开发(EDD)-AI原生飞轮驱动研发效能跃迁.pdf》由会员分享,可在线阅读,更多相关《蒋学鑫-评测驱动开发(EDD)-AI原生飞轮驱动研发效能跃迁.pdf(37页珍藏版)》请在三个皮匠报告上搜索。
1、评测驱动开发(EDD):AI原生飞轮驱动研发效能跃迁蒋学鑫|中兴通讯蒋学鑫中兴通讯中心研究院 AI研发提效总体组专家中兴通讯青年领军人才,软件研发领域资深专家。带领团队研发的操作系统产品曾获第四届中国工业大奖,第21届中国国际软件博览会金奖。曾担任中兴通讯操作系统产品部研发经理、项目经理、副部长等。目 录CONTENTSI.AI+时代研发范式的挑战II.基于EDD的整体解决方案III.企业EDD的具体落地实践IV.总结与展望AI+时代研发范式的挑战PART 01引言-Keywords研发范式与效能评测的本质AI原生飞轮软件工程的演进1968年NATO会议软件工程学科诞生2001年敏捷宣言发布2
2、023年chatGPT/GPT-4发布软件工程1.0软件工程2.0软件工程3.0 结构化、规范化、工程化 瀑布模型、V模型 敏捷开发 CI/CD、DevOps软件工程3.0宣言-同济大学 朱少民人机交互智能胜于研发人员个体能力业务和研发过程数据胜于流程和工具可生产代码的模型胜于程序代码提出好的问题胜于解决问题测试模式:先开发后测试TDD?研发效能的根本瓶颈决定研发效能瓶颈的根本要素是什么?软件工程1.0(瀑布模型时代):流程刚性导致的变更高成本,瀑布模型的线性开发流程严格限制需求变更,且缺陷修复周期长达数周。软件工程2.0(敏捷与DevOps时代):快速迭代很好的解决了1.0时代的需求变更效能
3、瓶颈。但快速迭代发布的质量风险,以及质量问题发生后的应对,成为研发效能的隐形瓶颈。软件工程3.0(智能化软件工程时代):AI行为不确定性导致产品发布和修复的风险和问题放大。让反馈链路更短,让反馈链路更通畅 反馈链路的长短 反馈链路的畅通性测试&评测的本质和目标 测试&评测的本质是反馈,反馈效果的三要素:准确、全面、高效 软件测试的目标是建立对软件可靠性的可控信任,将软件的不可靠风险控制在可接受范围测试 用例传统 应用Result结果确定可预知传统测试:信任是基于确定性验证。软件行为是确定性的;软件逻辑是显式的通过“穷尽显式逻辑”实现控制评测数据集AI应用AI评测:行为是概率性的,逻辑是隐式的?
4、结果不确定不可预测通过“理解隐式概率分布”实现控制我们要做的就是抓住本质,达成目标AI原生飞轮 AI原生(AI-Native):指从系统设计之初即以人工智能为第一性原理,重构产品架构、业务流程与组织形态,而非在既有系统上叠加AI功能 云原生(Cloud-Native):基于云计算特性设计的应用架构方法论,通过容器、微服务等技术实现“为云而生”云原生是效率革命,AI原生是认知革命AI原生飞轮(AI-Native Flywheel)是指以人工智能为核心驱动力的自我增强闭环系统,其本质是通过AI生产者、AI应用/模型、传统业务等的数据反馈循环,实现系统的自主进化与价值放大。传统业务飞轮AI应用/模型
5、飞轮AI生产者飞轮通过数据牵引,让不同层面上的飞轮都飞起来AI软件研发根本性差异-从确定性到概率性传统软件开发的确定性-输入输出关系明确可预测-逻辑流程线性可控-边界条件清晰定义-测试用例覆盖完整AI智能体的概率性本质-输出具有不确定性分布-决策过程黑盒化-边界模糊且动态变化-测试覆盖难以穷尽 可预测性 可解释性 确定性验证 概率性评估 静态测试 动态评测 产物检验 能力认证方法论变化我们要构建AI时代的软件评测体系当前评测的痛点和挑战 覆盖不全:评测维度不够完备,难以精准定位系统的短板 现有的评测方法通常仅提供单一维度的得分或排名,缺乏对智能体在不同场景下的能力评测 评测方式无法为开发者提供
6、具体的优化方向,导致提升智能体能力的过程缺乏针对性 评价差异:端对端能力存在评价差异 评测数据孤岛化,不同团队、不同工具的评测结果无法有效整合和对比 评测数据和试用主观感受有时出现偏差 反馈缓慢:评测和生产脱节,无法快速应用评测结果缺乏持续改进的闭环机制,导致AI产品能力提升缓慢,用户体验改善不明显缺乏自动化和高效的评测工具使得新版本的效果验证耗时较长,影响了智能体在生产环境中的快速部署和应用,延缓了产品迭代的速度需要解决当前评测面临的完备性、客观性、时效性三大挑战,让反馈更加全面、准确、高效评测集要全评价器要准评测反馈要快基于EDD的整体解决方案PART 02EDD的概念 EDD(Eval-