【Gtest主论坛】7、茅晓锋字节跳动 Web Infra 团队 AI 方向负责人《Midscene.js - 从开源视角看 UI 自动化的发展》.pdf-三个皮匠报告

1、全球软件测试技术峰会9月北京从开源视角看UI自动化的发展2025.09.09讲演人茅晓锋负责字节跳动 Web Infra 团队 AI 方向Midscene.js 核心贡献者Conference SpeakerSpeech ContentMidscene.js-10000 stars on Github-开源 UI 自动化框架，Web/Android/iOS 及更多客户端（coming soon）-AI x UI 自动化的基础施设-项目地址-https:/ Content目录01 UI 自动化的主线任务02 做好一个“AI 辅助”SDK03 落地路径04 展望未来Speech ContentU

2、I 自动化的主线任务Speech ContentUI 自动化的主线任务UI 自动化脚本AI 智能化Speech Content想象中的路径一句话指令业务知识库AI智能化+=Speech Content现实路径典型用户故事-花了 2-3 天做 Demo，通了-花了 2-3 周调平台，通了-花了 2-3 个月调效果，被一线用户疯狂反馈，心态崩了业务知识库+一句话指令路径规划错误UI 定位错误效果不稳定运行速度慢难复现，难排查?“模型选型指南”?“Prompt 技巧大全”不稳定的AISpeech Content暂时放下“AI 原教旨主义”，请 AI 做辅助AI辅助下的提效UI自动化脚本AI智能化我

3、们在这里 Speech Content做好一个“AI 辅助”SDKSpeech Content支持人类做任务拆解合理选型：Agent Style 和 Agentic Workflow Agent StyleaiAction(如果界面上的用户已经关注了我们（关注按钮是红色的,写着“关注”，注意不是“已关注”），点击关注，进入他的主页，并点赞第一条)Agentic Workflow aiTap(关注)aiInput(用户名,张三)Speech Content模型演进-GPT-4o,多模态 LLM截图+标注式 DOM 代表性框架：https:/ Content模型演进Doubao-1.5-think

4、ing-vision-pro Qwen-2.5-VL 使用原生图像识别（Visual Grounding）能力定位界面元素目前最推荐的方案Speech Content模型演进-OminiParser,UI-TARSOminiParserOmniParser V2:Turning Any LLM into a Computer Use AgentOmniParser V2:Turning Any LLM into a Computer Use Agent-Microsoft ResearchUI-TARSUI 自动化专用模型，支持自我反思、规划https:/ Content模型演进-选型模型选择

5、的不可能三角我们的选择重度依赖 VL 模型+传统工程能力优化效果速度金钱Speech Content可调试，可观测重视一线的实战体验，提供足够的评估和调试工具Speech Content提供充分的扩展性原图：https:/ Content落地路径Speech Content方法论抛弃“AI 原教旨主义”解决业务问题就是竞争力编写快，执行快，落地稳在编写时推理，而不是运行时做人类可理解的技术产品Speech Content探索适用于自身团队的产品形态模型选择-VL 视觉模型+多模态模型断言（可选）用例来源-手工编写代码-手动编写 Yaml 流程-平台化编写 Yaml 流程-视频识别、导出、总结-Excel/飞书多维表格导入-构建“业务说明书”，做 RAG扩展业务/设备能力-登录流程，个性化拖动，前置业务流程准备等Speech Content展望未来展望未来Speech Content展望未来模型方向业务落地产品层-支持 Visual Grounding（视觉定位）的 VL 模型-足够有思考力的 VQA 模型-小模型+混合模型架构-结构化/清晰的“操作说明书”-多模态驱动，减少“文字编写”流程-扎实稳定的设备服务：浏览器、真机、.-我们还需要“一站式平台”吗？

【Gtest主论坛】7、 茅晓锋字节跳动 Web Infra 团队 AI 方向负责人《Midscene.js - 从开源视角看 UI 自动化的发展》.pdf

相关报告

【Gtest主论坛】7、茅晓锋字节跳动 Web Infra 团队 AI 方向负责人《Midscene.js - 从开源视角看 UI 自动化的发展》.pdf