1、全球软件测试技术峰会9月北京从开源视角看UI自动化的发展2025.09.09讲演人 茅晓锋负责字节跳动 Web Infra 团队 AI 方向Midscene.js 核心贡献者Conference SpeakerSpeech ContentMidscene.js-10000 stars on Github-开源 UI 自动化框架,Web/Android/iOS 及更多客户端(coming soon)-AI x UI 自动化的基础施设-项目地址-https:/ Content目录01 UI 自动化的主线任务02 做好一个“AI 辅助”SDK03 落地路径04 展望未来Speech ContentU
2、I 自动化的主线任务Speech ContentUI 自动化的主线任务UI 自动化脚本AI 智能化Speech Content想象中的路径一句话指令业务知识库AI智能化+=Speech Content现实路径典型用户故事-花了 2-3 天做 Demo,通了-花了 2-3 周调平台,通了-花了 2-3 个月调效果,被一线用户疯狂反馈,心态崩了业务知识库+一句话指令路径规划错误UI 定位错误效果不稳定运行速度慢难复现,难排查?“模型选型指南”?“Prompt 技巧大全”不稳定的AISpeech Content暂时放下“AI 原教旨主义”,请 AI 做辅助AI辅助下的提效UI自动化脚本AI智能化 我
3、们在这里 Speech Content做好一个“AI 辅助”SDKSpeech Content支持人类做任务拆解合理选型:Agent Style 和 Agentic Workflow Agent StyleaiAction(如果界面上的用户已经关注了我们(关注按钮是红色的,写着“关注”,注意不是“已关注”),点击关注,进入他的主页,并点赞第一条)Agentic Workflow aiTap(关注)aiInput(用户名,张三)Speech Content模型演进-GPT-4o,多模态 LLM截图+标注式 DOM 代表性框架:https:/ Content模型演进Doubao-1.5-think
4、ing-vision-pro Qwen-2.5-VL 使用原生图像识别(Visual Grounding)能力定位界面元素目前最推荐的方案Speech Content模型演进-OminiParser,UI-TARSOminiParserOmniParser V2:Turning Any LLM into a Computer Use AgentOmniParser V2:Turning Any LLM into a Computer Use Agent-Microsoft ResearchUI-TARSUI 自动化专用模型,支持自我反思、规划https:/ Content模型演进-选型模型选择
5、的不可能三角我们的选择重度依赖 VL 模型+传统工程能力优化效果速度金钱Speech Content可调试,可观测重视一线的实战体验,提供足够的评估和调试工具Speech Content提供充分的扩展性原图:https:/ Content落地路径Speech Content方法论抛弃“AI 原教旨主义”解决业务问题就是竞争力编写快,执行快,落地稳在 编写时推理,而不是运行时做 人类可理解 的技术产品Speech Content探索适用于自身团队的产品形态模型选择-VL 视觉模型+多模态模型断言(可选)用例来源-手工编写代码-手动编写 Yaml 流程-平台化编写 Yaml 流程-视频识别、导出、总结-Excel/飞书多维表格导入-构建“业务说明书”,做 RAG扩展业务/设备能力-登录流程,个性化拖动,前置业务流程准备等Speech Content展望未来展望未来Speech Content展望未来模型方向业务落地产品层-支持 Visual Grounding(视觉定位)的 VL 模型-足够有思考力的 VQA 模型-小模型+混合模型架构-结构化/清晰的“操作说明书”-多模态驱动,减少“文字编写”流程-扎实稳定的设备服务:浏览器、真机、.-我们还需要“一站式平台”吗?