A2--朱嘉丽--基于多模态大模型的UI自动化测试.pdf-三个皮匠报告

1、朱嘉丽蚂蚁集团算法工程师目录CONTENTS问题背景0102AI自动化测试方案业务场景落地03未来展望04PART 01支付宝-质量测试场景场景介绍40+质量检测能力集成覆盖 17 个BU沉淀用例数 76w+自动化用例 30w+覆盖应用 2k+TestFun 为蚂蚁集团开发和测试人员提供的一站式模拟器测试平台一站式测试平台一站式测试平台：覆盖H5、小程序、客户端等泛前端UI自动化测试/兼容性、性能专项测试。涵盖：H5/小程序/PC-Web/PC-APP/Native端场景介绍终端智控平台MobileFlow是蚂蚁建设超过10年的产品功能完整、体系齐全，基于真机的自动化测试平台20+App/

2、App/业务接入业务接入5K+在线终端设备300k+自动化脚本130M+年自动化任务问题背景亟需亟需LowCode方案；提升脚本方案；提升脚本可读性可读性；增强脚本；增强脚本泛化能力泛化能力PART 02AI自动化测试方案AI自动化测试适应线上频繁迭代发布的测试场景、适应不同的终端设备稳定性&强大的泛化性能同时处理图片、文本、视频等多种模态信息全模态接入能力自然语言形式描述测试场景、功能等脚本可读性脚本：依赖脚本是最常见的；利用规则和约束进入关键路径；维护成本很高；对于快速发展的业务应接不暇。遍历：消耗能力在非关键业务路径；难以发现“操作无响应”类异常智能：核心链路测试；UI页面理解；动线行为

3、推理；结合热点的多模态大模型智能测试方案选型 OCR提取页面元素+纯文本大模型？GUI图像的三大特点：1、富文本 2、可交互区域存在限制3、区域间有层次/逻辑关系我想选人气套餐下的牛排类目选择我想买高铁票日期选择多模态大模型MLLM技术From:A Survey on Multimodal Large Language Models,p3,Figure 2Relative Strategy：1、预训练（Pre-training）2、指令微调（Instruction-tuning）3、对齐调优（Alignment Tuning）4、上下文学习（ICL）5、多模态思维链（COT）6、mult

4、i-Agent 7、Other Tools更强的视觉感知、逻辑推理能力任务定义回归问题本质，通过大模型和人类意图良好对齐的特性，实现多样UI场景的兼容场景概括为两大类1、感知：可以基于意图理解，识别和提取页面元素。业务应用场景：识别物流运单号、提取某个的商品价格、获取详情页内会员优惠价、读取购物车总价等用户：页面是否有服务透出模型：有用户：页面是否存在异常模型：无任务定义用户：帮我在自助点单里买一杯草莓奶冻，选择交大校内店。模型：一系列动作决策.最终拉起收银台场景概括为两大类2、推理：基于单页面甚至多页面（动线）进行决策。业务应用场景：判断详情页是否满足特定特征（是否有会员优惠）、自主操纵小

5、程序、自主与智能体多轮交互等算法方案数据驱动依托平台积累的丰富 UI 数据资源，我们构建了一套多模态大模型的数据处理与自动化训练迭代方案。Agent模式利用multi-agent技术和一系列小模型分析来拆分复杂任务、辅助决策，增强任务成功率RAG增强检索根据已知路径自动构建知识库，Agent决策前检索知识库获取相关路径指导和域内知识提示010302算法方案数据驱动：一套多模态大模型的数据处理与自动化训练迭代方案数据收集人工审核模型训练算法方案Agent构建Planning AgentAction AgentReflection AgentOther Tools算法方案ToolsUI Eleme

6、nts Detection（UI元素识别）Page Location Search（图片位置搜索）Anomaly Detection（图片异常检测）Similarity Detection（相似度检测）Other Tools18类UI元素、94类通用类图标、N类应用类图标算法方案ToolsUI Elements Detection（UI元素识别）Page Location Search（图片位置搜索）Anomaly Detection（图片异常检测）Similarity Detection（相似度检测）Other

A2--朱嘉丽--基于多模态大模型的UI自动化测试.pdf

相关报告