【Gtest主论坛】7、 茅晓锋字节跳动 Web Infra 团队 AI 方向负责人《Midscene.js - 从开源视角看 UI 自动化的发展》.pdf

编号:920107 PDF 24页 1.69MB 下载积分:VIP专享
下载报告请您先登录!

【Gtest主论坛】7、 茅晓锋字节跳动 Web Infra 团队 AI 方向负责人《Midscene.js - 从开源视角看 UI 自动化的发展》.pdf

1、全球软件测试技术峰会9月北京从开源视角看UI自动化的发展2025.09.09讲演人 茅晓锋负责字节跳动 Web Infra 团队 AI 方向Midscene.js 核心贡献者Conference SpeakerSpeech ContentMidscene.js-10000 stars on Github-开源 UI 自动化框架,Web/Android/iOS 及更多客户端(coming soon)-AI x UI 自动化的基础施设-项目地址-https:/ Content目录01 UI 自动化的主线任务02 做好一个“AI 辅助”SDK03 落地路径04 展望未来Speech ContentU

2、I 自动化的主线任务Speech ContentUI 自动化的主线任务UI 自动化脚本AI 智能化Speech Content想象中的路径一句话指令业务知识库AI智能化+=Speech Content现实路径典型用户故事-花了 2-3 天做 Demo,通了-花了 2-3 周调平台,通了-花了 2-3 个月调效果,被一线用户疯狂反馈,心态崩了业务知识库+一句话指令路径规划错误UI 定位错误效果不稳定运行速度慢难复现,难排查?“模型选型指南”?“Prompt 技巧大全”不稳定的AISpeech Content暂时放下“AI 原教旨主义”,请 AI 做辅助AI辅助下的提效UI自动化脚本AI智能化 我

3、们在这里 Speech Content做好一个“AI 辅助”SDKSpeech Content支持人类做任务拆解合理选型:Agent Style 和 Agentic Workflow Agent StyleaiAction(如果界面上的用户已经关注了我们(关注按钮是红色的,写着“关注”,注意不是“已关注”),点击关注,进入他的主页,并点赞第一条)Agentic Workflow aiTap(关注)aiInput(用户名,张三)Speech Content模型演进-GPT-4o,多模态 LLM截图+标注式 DOM 代表性框架:https:/ Content模型演进Doubao-1.5-think

4、ing-vision-pro Qwen-2.5-VL 使用原生图像识别(Visual Grounding)能力定位界面元素目前最推荐的方案Speech Content模型演进-OminiParser,UI-TARSOminiParserOmniParser V2:Turning Any LLM into a Computer Use AgentOmniParser V2:Turning Any LLM into a Computer Use Agent-Microsoft ResearchUI-TARSUI 自动化专用模型,支持自我反思、规划https:/ Content模型演进-选型模型选择

5、的不可能三角我们的选择重度依赖 VL 模型+传统工程能力优化效果速度金钱Speech Content可调试,可观测重视一线的实战体验,提供足够的评估和调试工具Speech Content提供充分的扩展性原图:https:/ Content落地路径Speech Content方法论抛弃“AI 原教旨主义”解决业务问题就是竞争力编写快,执行快,落地稳在 编写时推理,而不是运行时做 人类可理解 的技术产品Speech Content探索适用于自身团队的产品形态模型选择-VL 视觉模型+多模态模型断言(可选)用例来源-手工编写代码-手动编写 Yaml 流程-平台化编写 Yaml 流程-视频识别、导出、总结-Excel/飞书多维表格导入-构建“业务说明书”,做 RAG扩展业务/设备能力-登录流程,个性化拖动,前置业务流程准备等Speech Content展望未来展望未来Speech Content展望未来模型方向业务落地产品层-支持 Visual Grounding(视觉定位)的 VL 模型-足够有思考力的 VQA 模型-小模型+混合模型架构-结构化/清晰的“操作说明书”-多模态驱动,减少“文字编写”流程-扎实稳定的设备服务:浏览器、真机、.-我们还需要“一站式平台”吗?

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(【Gtest主论坛】7、 茅晓锋字节跳动 Web Infra 团队 AI 方向负责人《Midscene.js - 从开源视角看 UI 自动化的发展》.pdf)为本站 (Dimples) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠