《2-广告算法测试探索与实践-陈佩文-0719.pdf》由会员分享,可在线阅读,更多相关《2-广告算法测试探索与实践-陈佩文-0719.pdf(47页珍藏版)》请在三个皮匠报告上搜索。
1、广告算法测试探索与实践陈佩文美团-高级测试开发工程师讲师简介 讲师:陈佩文 公司:美团-核心本地商业 高级测试开发工程师 个人简介:2019年 浙大 研究生毕业 校招加入美团负责到店广告的业务和算法测试从0-1探索搭建美团广告算法质效体系I.深度学习背景II.0-1算法质效体系III.算法测试质量保障IV.算法迭代效率提升V.总结与展望目录I.深度学习背景深度学习背景介绍人工智能(AI)对人的意识、思维信息过程的模拟机器学习通过设计和分析一些算法,让计算机具备自动学习的能力深度学习建立、模拟人脑进行分析学习的神经网络来解释数据的机器学习技术深度学习背景介绍神经网络的学习规则 调整神经元之间的连
2、接权值和神经元内部阈值的规则“反向传播”算法通过计算损失函数(即实际输出与期望输出之间的差异)并将这种误差反馈回网络的每一层,来调整每层的权重。这种方法使得网络能够从错误中学习并不断改进深度学习背景介绍大语言模型(LLM)一种用于生成自然语言文本的深度学习模型通常采用神经网络来学习语言的结构和规律,并用这些知识来生成新的文本在线广告算法体系II.0-1算法质效体系算法测试面临的挑战算法测试门槛高挑战 广告是互联网重要营收手段,涉及到资损,质量要求高 广告算法服务多,数据及模型复杂度高且整体链路长,对系统稳定性要求高 广告需要保障商家、用户、平台三方利益,模型效果要求严谨,评测复杂度高 涉及到商
3、家的ROI,商家对广告要求高,对Badcase零容忍 实验配置、代码上线、模型更新频繁,频繁的变更引入的质量风险高 算法同学要做实验拿结果,要求迭代效率快 与传统测试比,算法测试成熟经验相对少一些 机器学习、深度学习、大模型知识学习有一定门槛算法迭代效率要快算法迭代效率要快广告服务质量要求高算法效果评测复杂度高算法质效保障体系质效 全流程质量保障 算法效果评测 用户体验提升 算法测试策略明确 孵化算法测试平台 算法持续交付流程算法质效体系III.算法测试质量保障算法质量保障目标 数据质量保障 特征质量保障 模型质量保障 变更管控 Badcase回溯及运营保障方式 标注平台&自动化评测 效果DI
4、FF全流程质量保障体系数据质量-灰度能力建设 新增策略:新开实验策略进行对比优化,工程侧灰度 灰度策略迭代:某些只对部分商户生效的策略的迭代操作 全量策略迭代:在已有全量策略上进行参数优化等迭代操作,全链路任务一键复制离线数据迭代ETL任务依赖的数据任务状态XT任务执行时间XT任务执行状态表级监控数据量对比完成时间监控执行时长监控 字段级监控字段异常最小值|最小长度最大值|最大长度空字符串数据监控数据质量-测试与监控特征质量-特征一致性 日常迭代:在线特征一致性校验,利用线上debug接口实现,执行量级较小,主要用于回归测试 新模型上线:离线特征一致性校验,天级别请求回放获取特征日志对比的方式
5、,执行量级较大,赋能算法自测特征质量-工具效果展示 特征一致性平台特征一致性校验详情特征质量-特征监控 每个模型计算需要成百上千个特征,若特征依赖的数据源及计算任务失败,会影响模型计算效果进而影响在线预估效果特征质量-特征监控 每个模型计算需要成百上千个特征,若特征依赖的数据源及计算任务失败,会影响模型计算效果进而影响在线预估效果监控效果模型质量-模型拦截 模型更新可能引入问题的原因:离线数据和特征的缺失和计算有问题,模型文件生成有问题 问题影响大:模型更新频率一般是日更新且更新时间一般在凌晨,模型回滚时间长,一般需要10分钟1小时 广告系统中的模型输出结果一般分成0-1打分和多维向量输出两类
6、,前者占到了全部模型的80%,出现的故障大部分都是前者,并且后者已经从覆盖率和重复度等数据可用性角度对离线向量进行了监控,因此模型质量优先考虑对打分输出类模型的支持背景离线auc拦截对模型离线评测的auc结果进行阈值卡控,低于时拦截上线离线模型大小拦截配置阈值系数,新模型的大小和历史版本大小*上下阈值系数对比,若超过则拦截上线模型灰度更新拦截从模型对线上真实请求的表现着手,直接对新旧版本模型的打分结果进行不同维度的比较,从而判断新模型是否存在问题,以保障模型新版本质量模型质量-模型灰度更新拦截模型灰度更新拦截流程流量更新流量校验录制流量校验线上流量,新旧模型不一致录制流量,新旧模型完全一致数量