《李庆泉-质量大模型及其在接口测试场景下的实践.pdf》由会员分享,可在线阅读,更多相关《李庆泉-质量大模型及其在接口测试场景下的实践.pdf(27页珍藏版)》请在三个皮匠报告上搜索。
1、质量大模型及其在接口测试场景下的实践李庆泉 蚂蚁集团目 录CONTENTS1.大模型如何解决质量域问题2.质量大模型的构建路径3.质量大模型在接口测试中的实践4.未来展望大模型如何解决质量域问题PART 01大模型具有赋能软件研发全流程的能力需求文档(PRD)软件设计原型图UML图流程图环境搭建依赖树版本冲突软件开发类与函数数据结构复杂度质量测试验收测试单元测试Bug处理软件Li B,Wu W,Tang Z,et al.Devbench:A comprehensive benchmark for software developmentJ.arXiv preprint arXiv:2403.0
2、8604,2024.大模型在质量域下的应用场景测试用例生成测试断言生成测试输入生成质量知识查询问答故障定位/修复线上问题总结分析Wang J,Huang Y,Chen C,et al.Software testing with large language models:Survey,landscape,and visionJ.IEEE Transactions on Software Engineering,2024.大模型能够解决质量测试领域的哪些问题?质量测试覆盖率要求高自动化难度大人工成本高全面、准确地发现各种特殊情况与边界问题经验密度大、业务特异性高,难以自动化或手段难复用测试用例撰
3、写、质量问题分析等工作需要大量人工知识、经验严谨、全面1 12 2阶段能力继续预训练微调/对齐对话/服务领域知识注入多任务能力获取拓宽应用边界质量测试领域呼唤质量大模型LLMs as Brains知识中心质量知识质量知识业务经验业务经验语言理解语言理解执行中心服务中心基础质量概念问答基础质量概念问答端到端任务执行端到端任务执行质量工具调度质量工具调度外部知识增强问答外部知识增强问答质量大模型的构建路径PART 02质量大模型的构建路径数据构建数据构建模型训练模型训练部署应用部署应用非结构化数据结构化数据质量知识业务文档线上系统回流历史数据沉淀清洗与增强清洗与增强Continue Pre-tra
4、iningInstruction Tuning专业知识注入语言模型多任务能力Prompt设计端到端对话检索增强问答工具调用与执行更新迭代更新迭代评测指标问题归因数据飞轮继续预训练知识注入训练材料:知识构建知识来源质量域质量域业务域业务域其他背景其他背景知识处理切片切片聚类聚类数据增强数据增强知识质量筛选筛选清洗清洗数据分析数据分析训练对象:开源模型底座*不完全列举训练任务:语言模型训练任务:语言模型指令微调技能培训流程任务选取任务选取数据获取数据获取指令构建指令构建微调微调关键问题:质量域中的许多任务都是以结构化数据为基础,如何用基于非结构化对话形式的大模型完成结构化数据任务?解法在于如何针对
5、特定任务设计指令并进行微调两大类任务选取:质量/业务知识问答向模型提供基础的质量问答能力特定质量任务执行以端到端形式执行的质量任务,如测试用例生成等两大类数据来源:基础知识任务数据包括外部基础知识与内部的文档积累来源于真实场景的特定任务数据指令构建技巧:明确任务需求清晰描述任务的推理逻辑、执行步骤格式规约对格式进行严格规约,降低工程难度指令泛化增强鲁棒性微调注意事项:数据分布平衡各任务的数据分布,避免过拟合训练成本多卡训练、LoRA微调等,节省时间与显存成本应用方式作为端到端Bot上下文学习上下文学习逻辑构建逻辑构建1 Kang S,Yoon J,Yoo S.Large language mo
6、dels are few-shot testers:Exploring llm-based general bug reproductionC/2023 IEEE/ACM 45th International Conference on Software Engineering(ICSE).IEEE,2023:2312-2323.2 Fakhoury S,Chakraborty S,Musuvathi M,et al.Towards generating functionally correct code edits from natural language issue descriptio
7、nsJ.arXiv preprint arXiv:2304.03816,2023.以端到端对话形式执行质量任务应用方式作为工作流组件大模型作为质量工作流当中的组件,为质量工具提供了丰富的泛化性和强大的生成能力,提升了质量工具的能力上限。以一个测试账号查询工作流为例:帮我找一个余额宝持仓为0的测试账号基于LLM实现NL2SQL数据源SQL自动执行取数数据表信息大模型润色回答/执行失败安抚与建议好的,id为xxxx的测试账号余额宝持仓为0大模型通过接受用户输入与数据表(表名、字段名称、字段描述、取值范围等)信息既可实现NL2SQL,节省了小模型训练的成本质量大模型在接口测试中的实践PART 03接
8、口测试的特点与难题专业性场景化复杂性对专家知识和经验要求高需要结合特定业务逻辑人工成本和时间成本较高质量大模型应用校验点生成输入输出质量大模型质量大模型应用校验点生成Prompt组装输入信息推理步骤规范要求任务所需的必要信息接口名称入参出参根据专家经验总结的执行该任务所需的推理过程强调针对任务输出格式、形式等规范的要求识别出参中的关键字段根据业务要求确定字段的取值范围和校验方式撰写校验点列表每个校验点必须包含的特定字段输出必须遵循json格式质量大模型应用业务知识问答接口测试知识增强问答知识文档知识分片爬取+切片嵌入模型工具向量库用户queryQuery向量向量检索大模型回复帮我找一个风测修改
9、接口好的,风测修改的接口名称是,调用方式质量大模型应用工具执行对话形式调用工具工作流开发工具集合工具1工具1工具2工具2工具3工具3Function Call大模型用户query工作流执行参数解析、工具调度回复大模型执行结果帮我执行一个post请求,接口是,入参是好的,执行结果是未来展望PART 04总结1 12 23 3质量+大模型质量+大模型垂类解决方案垂类解决方案大模型行业赋能框架大模型行业赋能框架产品内容上围绕质量+大模型的提效工作产品设计上是一套较通用的垂直领域的大模型解决方案算法设计上是一套通用的垂类领域大模型提效框架质量大模型技术趋势 浩如烟海的质量知识与业务经验 多样的质量任务 前置的问题发现 代码能力与问答能力的兼顾THANKS