《A1--马先先--基于大模型的埋点风险诊断和测试提效.pdf》由会员分享,可在线阅读,更多相关《A1--马先先--基于大模型的埋点风险诊断和测试提效.pdf(41页珍藏版)》请在三个皮匠报告上搜索。
1、马先先今日头条 信息流C端测试负责人马先先字节跳动 测试专家字节跳动资深测试工程师,目前主要带领团队负责信息流类C端业务质量保障,擅长测试提效和效能度量,在大模型领域,所负责的AI应用业务中有模型评测体系,覆盖人评和机评等多种评测手段,大模型在质量域的应用也有实践,团队输出多篇相关专利。目录CONTENTS现状与思路0102知识图谱生成和模型策略效果收益03展望04PART 01现状与思路大模型时代下的质量质量VS模型模型应用模型质量模型质量模型应用模型评测 LLM VS 多模态 VS Agent 模型应用评测 VS 基座模型评测 业务自用 VS benchmark输出产品测试研发需求代码测试
2、上线需求分级用例生成代码生成智能CR产品先知智能单测各类Agent监控归因精准推荐舆情反馈行业内常用埋点保障方案 埋点diff监控业务分析多维监控埋点质保:手工测试|自动化测试|前端埋点提效|可视化埋点等埋点技术埋点生命周期 埋点管理行业内通用的埋点质量保障方案以“标准化埋点生成规则+SDK链路优化+归因/监控/分析”为核心,通过统一事件规范、分层埋点治理和建立归因策略等手段实现埋点全链路质量保障行业内常用埋点保障方案1.【SDK维护成本高】多端(iOS/Android/Web)需单独适配SDK,版本升级易引发兼容性问题、无法形成行业内复用2.【数据冗余占存储】全量上报策略导致日志量激增(日均
3、TB级),存储成本增加30%+3.【数据治理困难】全量埋点易产生无效事件,存在冗余开发、测试等工作,清洗耗时增多核心保障特色【全埋点+实时流量优化】SDK自动采集页面曝光/点击行为,无需手动编码;基于用户兴趣标签实时调整埋点优先级核心保障特色【标准化声明式埋点+自动化校验】统一事件/参数命名规则,通过代码埋点解耦与自动化校验实现质量保障,区别于其他app依赖内容生态驱动的实时埋点优化策略头部视频app具体调研头部生活类app现有方案缺点分析分阶段业务埋点治理痛点质量痛点效率痛点设计阶段:核心埋点变更无健全周知机制测试阶段:埋点测试场景覆盖不全回归阶段:核心埋点无法及时更新开发阶段:埋点改动无法
4、充分评估影响面线上阶段:问题发现/排查链路长设计阶段:获取历史埋点或血缘信息耗时多;易出现冗余设计开发阶段:信息差导致冗余开发测试阶段:信息差导致冗余测试回归阶段:埋点多,回归耗时长;各业务间存在重复测试智能埋点整体方案介绍DA设计阶段QA回归阶段QA测试阶段RD开发阶段灰度/线上阶段埋点风险雷达组织支撑流程规范应用提质/提效辅助模型迭代数据源整体方案:构建业务埋点知识图谱,生成埋点血缘关系-通过大模型做增量/全量埋点风险诊断-全局埋点知识检索-存量埋点提效/增量埋点提质-智能化监控报警-最终提高埋点全生命周期效能的目的质量兜底智能埋点整体流程设计智能埋点交互流程将需求埋点推荐、埋点血缘检索等
5、能力集成在字节的需求管理流程中,形成与项目的丝滑交互,可降低数据回收成本,持续优化模型效果。智能埋点核心指标设计收益维度指标详解能力建设作用域质量业务指标埋点事故数通过模型识别出核心埋点及其保障现状,确保业务质保手段充分,不出现埋点事故核心埋点判断全流程埋点bug逃逸率在业务使用了需求埋点推荐能力后,能有效召回埋点问题,从而降低埋点逃逸、或埋点逃逸不劣化需求风险埋点推荐开发/需求阶段技术指标推荐埋点采召率利用大模型进行需求的风险埋点推荐,结合人工判断的测试范围,评估推荐的采纳率与召回率需求风险埋点推荐需求阶段效率业务指标埋点回归人天通过识别非核心埋点(不回归)、重复测试埋点(回归多测了)、低p
6、v埋点(不测或降频测)进行埋点回归精简,降低QA回归埋点测试人天回归埋点提效回归阶段技术指标重复测试埋点采召率利用大模型进行重复测试埋点判断,然后对比人工打标结论,采召率需要达到一定标准回归埋点提效回归阶段低pv埋点准召率利用大模型进行低pv埋点判断,然后对比人工打标结论,准召率需要达到一定标准回归埋点提效回归阶段通用能力过程指标埋点检索bot满意度形成头条埋点知识库,从而形成问答bot埋点检索能力全流程AI工程总体架构数据层模型层存储层应用层文档资料库人工标注数据埋点设计文档缺陷/事故埋点回归用例监控看板需求文档核心场景核心体裁核心功能功能埋点-释义参数-参数值设计逻辑埋点缺陷埋点事故链路梳