《黄修添-基于大模型的文本测试用例生成探索与实践.pdf》由会员分享,可在线阅读,更多相关《黄修添-基于大模型的文本测试用例生成探索与实践.pdf(38页珍藏版)》请在三个皮匠报告上搜索。
1、基于大模型的文本测试用例生成探索与实践黄修添|字节跳动黄修添字节跳动-质量工程智能团队 算法专家清华大学硕士毕业,曾就职于蚂蚁集团支付宝技术部及研发效能部。现任字节跳动算法专家,多年来深耕人工智能领域,专注于NLP与多模态等技术在质量与效率领域的融合创新。主导多个0到1的质量效能类项目的研发和落地,擅长利用 AI 驱动业务质量和效率的提升。目 录CONTENTSI.背景与目标II.技术方案III.落地效果IV.未来展望背景与目标PART 01项目背景需求文档需求文档评审提取需求点和功能点分析并制定测试策略编写测试用例测试用例评审测试用例维护与更新需求驱动测试用例设计QA Engineer项目背
2、景业务需求日益繁杂业务规模与复杂度快速提升用例同步更新与维护压力大软件质量保障难度大用例依赖大量人工编写,耗时耗力难以穷举边界条件,遗漏风险高用例质量参差不齐,主观影响大业务提质效诉求迫切测试用例编写与维护成本高测试用例覆盖率/质量不足需求变更和上线响应不足技术变革契机大模型基础理解能力持续提升多源多输入数据理解能力增强目标AI降低用例编写成本减少测试人员手动编写测试用例的时间和资源投入提升用例生成质量自动生成高质量、高覆盖率的测试用例,更贴合复杂业务实际加速测试流程、提升研发效率测试用例自动生成,实现测试提速,支撑敏捷持续交付支撑多场景业务诉求满足中、英文等多语言和多业务场景的测试用例需求需
3、求文档测试用例QA Engineer挑战需求文档理解难度大-需求文档中包含图片和表格等多模态数据-需求上下文信息依赖跨度可能很大-需求文档质量参差不齐,业务差异大训练数据采集困难,评测难度大-不同业务线存在风格、粒度差异,简单拼接数据效果有限-高质量、标准化的训练用例/需求对齐数据极其稀缺,采集难-评测标准不统一,人工评测难度大业务复杂诉求多-用例生成需兼顾多语言(中/英/其他)-多文档输入,如产品需求、技术需求、其他文档-支持业务指定用例模板生成测试用例-多种生成模式,覆盖端到端、续写模式等用例准确率和覆盖度不足-需求文档有效信息覆盖有限,缺失业务经验知识-边界场景考虑不足,容易遗漏组合测试
4、场景-业务用例风格差异大,生成用例难以满足技术方案PART 02效果评估数据层整体建设思路底层依赖数据类型质量基础知识业务说明文档数据处理表格图片代码评论模型层历史需求文档历史需求用例业务用例模板豆包大模型模型层单提示优化动态few shotPrompt调优CoT多提示优化投票提示链ToTRAG知识构造向量模型粗排/精排用例贡献度用例采纳率WAU用户满意度人效提升能力层用例模式严格模式非严格模式多模式支持端到端生成模式二阶段生成模式任意节点续写应用层用例平台BotOpenAPI模型训练SFTRLHF关键技术需求文档解析提示词工程SFT&DPO多文档&模板RAGWorkflow需求文档解析常见问
5、题表头解析表格内容层级解析表格单元合并图片链接/布局解析无效内容流程图解析需求文档解析#需求背景#现状-复制文件:将文件从A复制到B-下载文件:将文件从A下载到B-更新文件:将文件从A直接更新目前,XX软件的用户账号登录流程存在如下问题:-登录步骤多,操作繁琐,首次登录需输入账号、密码和验证码,部分场景下还需二次验证;-支持手机号、邮箱登录,但没有统一入口,用户易于混淆;-登录失败后的错误提示不够清晰,缺乏针对性操作建议;-登录成功后未做多端登录提醒,部分用户存在信息安全隐患;#产品方案#功能可用版本|版本|*该版本是否可用此功能*|*该版本是否要按需另购此功能*|-|-|-|基础版|x|专业
6、版|x|企业版|x|#功能上线地区|上线地区|-|-|中国大陆地区|港澳台及海外|提示词工程(PE)PromptLLMAnswerxxx-shotZero-shotOne-shotFew-shotDynamic Few-shotChain-of-ThoughtFew-shot CoTZero-shot CoTProgram-Aided LM理解问题并生成程序作为推理步骤单提示技术多提示技术AnswerTaskPrompt-1Prompt-2Prompt-NLLM-1LLM-2LLM-N投票promptLLMresponse-1response-2response-3votingAnswer提示