当前位置:首页 > 报告详情

【Gtest主论坛】7、 茅晓锋字节跳动 Web Infra 团队 AI 方向负责人《Midscene.js - 从开源视角看 UI 自动化的发展》.pdf

上传人: Di****s 编号:920107 2025-09-13 24页 1.69MB

1、全球软件测试技术峰会9月北京从开源视角看UI自动化的发展2025.09.09讲演人 茅晓锋负责字节跳动 Web Infra 团队 AI 方向Midscene.js 核心贡献者Conference SpeakerSpeech ContentMidscene.js-10000 stars on Github-开源 UI 自动化框架,Web/Android/iOS 及更多客户端(coming soon)-AI x UI 自动化的基础施设-项目地址-https:/ Content目录01 UI 自动化的主线任务02 做好一个“AI 辅助”SDK03 落地路径04 展望未来Speech ContentU

2、I 自动化的主线任务Speech ContentUI 自动化的主线任务UI 自动化脚本AI 智能化Speech Content想象中的路径一句话指令业务知识库AI智能化+=Speech Content现实路径典型用户故事-花了 2-3 天做 Demo,通了-花了 2-3 周调平台,通了-花了 2-3 个月调效果,被一线用户疯狂反馈,心态崩了业务知识库+一句话指令路径规划错误UI 定位错误效果不稳定运行速度慢难复现,难排查?“模型选型指南”?“Prompt 技巧大全”不稳定的AISpeech Content暂时放下“AI 原教旨主义”,请 AI 做辅助AI辅助下的提效UI自动化脚本AI智能化 我

3、们在这里 Speech Content做好一个“AI 辅助”SDKSpeech Content支持人类做任务拆解合理选型:Agent Style 和 Agentic Workflow Agent StyleaiAction(如果界面上的用户已经关注了我们(关注按钮是红色的,写着“关注”,注意不是“已关注”),点击关注,进入他的主页,并点赞第一条)Agentic Workflow aiTap(关注)aiInput(用户名,张三)Speech Content模型演进-GPT-4o,多模态 LLM截图+标注式 DOM 代表性框架:https:/ Content模型演进Doubao-1.5-think

4、ing-vision-pro Qwen-2.5-VL 使用原生图像识别(Visual Grounding)能力定位界面元素目前最推荐的方案Speech Content模型演进-OminiParser,UI-TARSOminiParserOmniParser V2:Turning Any LLM into a Computer Use AgentOmniParser V2:Turning Any LLM into a Computer Use Agent-Microsoft ResearchUI-TARSUI 自动化专用模型,支持自我反思、规划https:/ Content模型演进-选型模型选择

5、的不可能三角我们的选择重度依赖 VL 模型+传统工程能力优化效果速度金钱Speech Content可调试,可观测重视一线的实战体验,提供足够的评估和调试工具Speech Content提供充分的扩展性原图:https:/ Content落地路径Speech Content方法论抛弃“AI 原教旨主义”解决业务问题就是竞争力编写快,执行快,落地稳在 编写时推理,而不是运行时做 人类可理解 的技术产品Speech Content探索适用于自身团队的产品形态模型选择-VL 视觉模型+多模态模型断言(可选)用例来源-手工编写代码-手动编写 Yaml 流程-平台化编写 Yaml 流程-视频识别、导出、总结-Excel/飞书多维表格导入-构建“业务说明书”,做 RAG扩展业务/设备能力-登录流程,个性化拖动,前置业务流程准备等Speech Content展望未来展望未来Speech Content展望未来模型方向业务落地产品层-支持 Visual Grounding(视觉定位)的 VL 模型-足够有思考力的 VQA 模型-小模型+混合模型架构-结构化/清晰的“操作说明书”-多模态驱动,减少“文字编写”流程-扎实稳定的设备服务:浏览器、真机、.-我们还需要“一站式平台”吗?

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
根据《全球软件测试技术峰会9月·北京从开源视角看UI自动化的发展》的内容,以下是全文关键点的概括: 1. **讲演人及主题**:茅晓锋,字节跳动Web Infra团队AI方向负责人,分享Midscene.js在UI自动化中的应用。 2. **Midscene.js特点**:开源UI自动化框架,支持Web、Android、iOS等客户端,AI辅助UI自动化。 3. **UI自动化主线任务**:AI辅助下的UI自动化脚本智能化。 4. **AI辅助SDK**:支持任务拆解、合理选型、模型演进等。 5. **模型演进**:从GPT-4o到OminiParser,UI-TARS等,强调视觉定位和多模态模型。 6. **落地路径**:抛弃“AI原教旨主义”,解决业务问题,编写快、执行快、落地稳。 7. **展望未来**:支持Visual Grounding的VL模型,有思考力的VQA模型,小模型+混合模型架构。
AI辅助新篇章?" 开源UI自动化新突破?" "AI赋能UI自动化,未来已来?"
客服
商务合作
小程序
服务号
折叠