1、2025/9/81全球软件测试技术峰会9月北京1大模型时代测试更具价值和挑战2025.09.0922025/9/82Conference Speaker朱少民软件工程3.0作者/CCF杰出会员同济大学特聘教授、CCF杰出会员、软件绿色联盟标准评测组组长,三十多年来一直从事软件研发和软件工程的教学与科研等工作,先后获得多项省、部级科技进步奖,已出版了二十多部著作和4本译作,代表作主要有软件工程3.0、全程软件测试、软件测试方法和技术等,并经常在国内外学术会议或技术大会上发表演讲,曾任思科(中国)软件有限公司QA资深总监、IEEEICST2019工业论坛主席、多个IEEE国际学术会议的程序委员、软
2、件学报审稿人等。30102030442025/9/83一系列开源LLM将我们带入人人使用LLM时代5开源(MIT协议)算力大幅降低推理能力强、性能好国内一线 LLM(如 DS R1、Qwen 3等)全面开源,质量接近甚至追平国外闭源大模型强灵活的Coding Agent能,上下度持1M逻辑能、通能、知识增强等幅提升5将加速进入软件工程3.0时代 大模型突破:LLM具备更好的理解和推理能力 数据积累:海量测试数据为模型训练提供基础 算力提升:云计算降低AI应用门槛 生态成熟:AI测试工具链和平台快速发展62025/9/84软件研发范式发生巨大的变化模型驱动开发、模型驱动运维MLDevOps模型部
3、署、运维大模型模型训练模型验证7SE3.0时代:人类角色减少、AI角色增加超级个体需求功能/UI设计架构/数据库设计编程与单测系统测试交付QA专家架构专家产品专家业务分析Agent功能/UI设计Agent部署Agent测试AgentCodingAgent架构设计Agent82025/9/85SE3.0 软件测试新范式:人机结对测试API测试生成系统UI测试生成在线日志分析客户反馈分析大模型单元测试生成测试用例生成测试设计测试需求分析客户洞察业务E2E测试生成测试人员,人人都有一个或多个AI助手9经过两年发展:LLM驱动测试进入深水区来源:中兴通讯公司陈超分享的脚本生成2.0基于智能体的脚本生成
4、与修复之道102025/9/86LLM+智能体:应用于性能测试来源:字节跳动:姚凡、李文博分享的抖音性能LLM分析体系建设从智能诊断到决策推荐11应用效果(收益)越来越显著122025/9/87但是LLM生成的内容更需要评测13公正性、伦理与道德等也需要评估142025/9/88SE3.0时代:测试的价值更体现在TDD上过去 TDD名存实亡今天 TDD 焕发青春TDD:测试驱动开发(Test Driven Development)15悖论:基于代码生成单测162025/9/89再给一个示例:计算年龄大模型基于程序生成的测试代码大模型生成了Bugly程序17现在让LLM先思考验证点、再生成单测1
5、82025/9/810LLM生成的单测-续19再基于单测再生成程序202025/9/811上升到ATDD:先让LLM生成用户故事及其验收标准21基于GWT验收标准生产测试代码222025/9/812然后基于BDD测试代码生成前后端代码23SE3.0时代:软件研发正确的打开方式需求及其验收标准由LLM生成由LLM生成程序/产品代码测试脚本相互验证和博弈242025/9/813面临的挑战之一:Test Oracle问题大模型、AI应用软件没有对和错,如何评测?AI模型,特别是大模型,其输出受训练数据、模型结构、提示词等的影响,表现出高度的动态性和不可预测性25应对策略自动评估指标、人工对话测试、数
6、据集构造(如SuperCLUE-Open、CMMLU等)、对抗性评估、上下文一致性评估等262025/9/814应对策略:构建多样化、高质量的评测数据集测试是样本实验:建立科学、合理、有效的评测指标27面临的挑战之二:AI应用软件的复杂性、不确定性等282025/9/815应对策略:分层解耦与行为评估从过去“验证输出是否完全精确匹配”转向“评估输出是否在可接受的质量范围内,并且其行为是否符合预期”。针对其复杂性和不确定性,有效的测试策略是分层的、多维度的,其次是自动化评估、持续监控与反馈例如:第1层 传统单元/集成测试(依然重要)LLM应用不只有一个模型