《5-基于AIGC的测试提效实践和优化-寻迹-脱敏版.pdf》由会员分享,可在线阅读,更多相关《5-基于AIGC的测试提效实践和优化-寻迹-脱敏版.pdf(31页珍藏版)》请在三个皮匠报告上搜索。
1、不断探索学习更高效的测试建设及新领域的测试融合。郭小勇,花名寻迹,毕业于浙江大学,酷家乐测试开发专家,BIM业务测试组负责人。在酷家乐、阿里巴巴、海康威视等公司具有多年的测试开发经验,多年CAD及BIM、AIGC、图形图像、音视频等软硬件及前沿领域的测试经验。寻迹目录CONTENTSu背景u通用大语言模型的测试应用及改善u基于AI智能生成的测试平台提效u未来展望测试测试挑战挑战前端类手工用例数量大UI类脚本多,难度大设计工具使用“答疑”多用 例 生 成 质 量 不一,评审参与度低部分交互/优化逻辑简单,投入效益不高各种小需求多且分散,测试资源紧张基于JS&TS,新人入手难度大,非语义化设计工具
2、大量使用图片比对,专业度要求高测试脚本数量巨大,相似度高,耗时大背景-测试面临的挑战业务脚本量大UI自动化基于JS/TS背景-测试面临的挑战大量问题群需要测试响应答复,精力消耗巨大有大量文档沉淀,人肉回答成本高,质量低对人员熟悉要求高,新人很难应对背景-AI的发展及带来的问题解决思考可以看到22年至今,以ChatGPT为代表的大语言模型迅速发展!背景-AI的发展及带来的问题解决思考用例智能生成&评审代码自动生成&CR基于知识智能检索问答大语言模型能力测试用例需求量巨大,简单内容多,编写质量不一大量测试/产品问题答疑,耗时高,响应低测试脚本数量巨大,相似度高,耗时大解决方向通用大语言模型的测试应
3、用及改善基于ChatGPT及文心一言等多种模型,整体架构如下嵌入公司用例生成及评审工具通用大语言模型的测试应用及改善通用大语言模型的测试应用及改善以CodeReview为例,基于公司默认的AI CR-prompt:默认Bellow is the gitlab code patch,please help me do a brief code review,Answer me in Chinese,if any bug risk and improvement suggestion are welcome。-temperature:自定义 ChatGPT 的 temperature。通用大语言模
4、型的测试应用及改善ureview质量一般,实际发现问题有限。u与业务关联性不足,思维局限u偏通用型CR,基于测试脚本维度的分析不够问题CRISPE Prompt Framework改善-https:/ engineering,但基于通用大模型仍面临这些困局01prompt困难,容易答非所问02专业深入度不足03上上下文及背景匮乏基于AI向量检索生成的测试应用及改善RAG(中文为检索增强生成)=检索技术+LLM 提示。例如,我们向 LLM 提问一个问题(answer),RAG 从各种数据源检索相关的信息,并将检索到的信息和问题(answer)注入到 LLM 提示中,LLM 最后给出答案。基于AI
5、向量检索生成的测试应用及改善 数据准备阶段:数据提取文本分割向量化(embedding)数据入库将文本转成一组浮点数:每个下标 i,对应一个维度。整个数组对应一个$维空间的一个点,即文本向量,又叫 Embeddings。向量之间可以计算距离,距离远近对应语义相似度大小。应用阶段:用户提问数据检索(召回)注入PromptLLM生成答案基于AI向量检索生成的测试应用及改善向量检索的过程是计算向量之间的相似度,最后返回相似度较高的TopK向量返回,而向量相似度计算有多种方式,不同的计算方式也适用于不同的检索场景。基于AI向量检索生成的测试应用及改善评估业界相关平台(langchaindifyfast
6、gpt)后参考fastgpt打造支持向量知识录入更新、向量检索模型应用配置、外部对接企信等能力;额外针对公司场景开发cf导入、代码评审、模型快速配置等能力,以及GPT4基于AI向量检索生成的测试应用及改善首要决定我们的知识录入和回复质量的就是基础模型质量。选择高得分embedding模型选型(MTEB及C_MTEB)MTEB 涵盖 8 个嵌入任务,包括双语挖掘、分类、聚类、成对分类、重新排序、检索、语义文本相似度(STS)和摘要。为迄今为止最全面的文本嵌入基准之一。基于AI向量检索生成的测试应用及改善从基于向量检索