《姚凡-李博文-抖音性能LLM分析体系建设-从智能诊断到决策推荐.pdf》由会员分享,可在线阅读,更多相关《姚凡-李博文-抖音性能LLM分析体系建设-从智能诊断到决策推荐.pdf(42页珍藏版)》请在三个皮匠报告上搜索。
1、抖音性能LLM分析体系建设从智能诊断到决策推荐姚凡、李文博|字节跳动姚 凡抖音测试开发专家毕业于悉尼大学计算机专业,现就职于抖音专项测试团队,负责抖音体验平台的性能诊断、大模型应用等方向的开发工作。李文博抖音测试开发专家毕业于悉尼大学计算机专业,毕业后即加入抖音,现就职于抖音基础体验团队,专注于客户端性能体验分析、测试效率优化等专项技术。目目 录CONTENTS1.背景2.整体解决方案3.核心模块-智能诊断4.核心模块-策略推荐5.总结与展望背景PART 01性能优化的重要性降低用户流失加载速度直接影响用户留存率提高品牌信任性能问题会导致用户评分下降驱动营收增长加载速度与用户留存率直接相关性能
2、性能优化挑战:从表从表现层问题到优化落地1.性能性能问题归因复杂 分析数据繁多:性能问题涉及客户端、网络、服务端等多个维度,数据源多,数据量大。分析门槛高:需熟练使用不同端/数据源的多个分析工具,如 Android Profiler、Instruments;需熟悉编程语言、技术实现原理等。2.优化方案选型复杂 决策困难:优化路径多,效果不明确,导致试错成本高,难以快速确定适合业务的最优方案。专家依赖:优化策略依赖少数资深专家,存在经验主观性、知识孤岛与人才瓶颈问题。整体解决方案整体解决方案PART 02性能分析整体架构性能分析整体架构分析数据繁多?多数据同时采集与联合分析用户层问题的自动分析能
3、力分析门槛高?经验知识沉淀专家依赖?数据整合与理解能力 多模态模型:图片/视频理解 代码理解模型:代码/函数理解 RAG:相似场景的历史经验复用。SFT:专家知识应用于LLM中。AI赋能覆盖率覆盖率诊断分析策略推荐AI赋能提升准召率准召率采采纳率下面将分两个章下面将分两个章节重点介绍AI在在诊断分析与策略推荐中的难点与方案。核心模核心模块-智能智能诊断PART 03Trace分析平台分析平台现状 可可视化分析 异常堆栈 规则分析录屏+Trace同时采集,协同分析Trace分析平台分析平台现状 可视化分析 异常堆异常堆栈 规则分析自上而下对慢函数/高频函数的异常堆栈定位未与场景结合,无法确定问题
4、影响的具体阶段Trace分析平台分析平台现状 可视化分析 异常堆栈 规则分析支持组件耗时长、无效UI更新等L1/L2的部分规则但不支持L2+的规则AI应用的诉求如何判断多个堆栈在做同一件事情,需要聚合分析?如何判断资源的创建/渲染时机是否合理?如何判断诊断出的问题具体影响的是哪个阶段?很多很多规则无法靠硬编码实现,需要借助需要借助AI的的语义理解、推理能力推理能力、图像理解等能力。如何判断主线程与子线程之间的调度关系?AI智能智能诊断整体流程Trace裁剪裁剪-为什么要裁剪?单个堆栈的数据量就已超出LLM上下文token限制Trace数据量数据量过大,一个完整Trace文件在几百M左右。对大量
5、数据进行分析可能造成准确率降低、处理耗时过久Trace裁剪裁剪-裁剪方式裁剪方式 线程裁剪:主线程/子线程 堆栈裁剪:丢弃 root 节点耗时小于阈值的堆栈 单堆栈slice裁剪 高频聚合 最小耗时阈值 黑白名单 相似函数/相似子树单堆栈slice裁剪可根据不同的可根据不同的场景,选择不同的裁剪方式。阶段划分Agent-为什么要划分阶段?存在多个小堆栈在处理同一任务且整体耗时较长的情况,需聚合在一起分析单纯的问题罗列,不绑定阶段场景的话,用户难以理解与消费合理的阶段划分可以提高提高问题发现的准召率与采准召率与采纳率。阶段划分Agent-录屏场景识别录屏理解+Trace裁剪=阶段划分Doubao
6、-1.5-visionprompt录屏appRunDescription:用户在用户主页,点击Story后,页面跳转到Story详情页。,pagesDetail:name:用户主页,detail:页面顶部有用户头像和名称Matt Navarra,右上方有Done按钮。下方有Dark mode、Activite Status、xxx,name:Story详情页,detail:页面顶部显示xxx录屏信息阶段划分Agent-Trace裁剪裁剪录屏理解+Trace裁剪裁剪=阶段划分堆栈信息activityStart(dur=81ms,freq=1,ts=3999,tsEnd=4081)XXXActiv