《A2--彭晓茂--支付宝商家业务增长引擎效果评测提效实践.pdf》由会员分享,可在线阅读,更多相关《A2--彭晓茂--支付宝商家业务增长引擎效果评测提效实践.pdf(29页珍藏版)》请在三个皮匠报告上搜索。
1、彭晓茂蚂蚁集团测试开发专家彭晓茂蚂蚁集团 支付宝 测试开发专家曾经负责支付宝大促营销活动和商家增长业务,对大促活动质量保障、商家业务增长引擎效果评测有较为丰富的经验。目前主要负责支付宝质量底盘和效能相关保障,致力于用先进技术解决业务保障中的痛点,在保障风险的同时提升效能。毕业后曾就职百度外卖,对营销数据挖掘及质量保障等方向有一定经验。目录CONTENTS业务背景及痛点0102解决方案实践和效果03未来展望04PART 01业务背景及痛点CopilotCopilot人机人机对话对话内容搜索推荐内容搜索推荐商家基础数据商家基础数据评测人力成本高每类业务的评测流程大致包含数据集准备、评测执行、报告生
2、成、结果分析等10几个步骤,跨多个平台,一次评测的准备加执行需要耗费10天左右的成本评测协同复杂度高业务评测涉及到算法、工程、质量、产品、业务等各个角色,有人需要开发评测脚本,有人需要准备评测数据,有人需要确定指标,有人需要分析报告等等。各个环节隔裂,会导致信息不一致,使用不方便评测门槛高数据集准备环节如何保证评测数据是高质量客观的,自动评测环节如何实现准确率非常高的自动评测脚本,报告分析环节如何快速和自动地分析报表并产出badase都具备较高的技术门槛PART 02解决方案评测人力成本高评测协同复杂度高评测门槛高评测流程抽象+个性化接入将不同业务的评测流程抽象成标准化的评测结点:数据集准备、
3、模型调用、机审执行、人审评估、报告分析、badcase管理等阶段提供开放的评测集管理、标签管理、评测任务管理、评测分析脚本等方式,供不同的业务方可以在平台快速完成自定义个性化接入平台一体化协同评测能力开放+复用通过一站式平台自动打通评测涉及到的各个上下游,包括研发/运营系统产出的数据源、公司通用评测/实验平台的调度和指标回流、badcase的订正后台等等,完成全流程的自动化串联不同的业务租户、职能角色按需查看和处理跟自己相关的数据,处理完成后自动流转到下一步提供自定义的脚本框架,使平台可以快速轻量级调度起外部的大模型评测、算法评测等评测单元提供可复用的能力框架,使评测技术能力较强的业务团队提供
4、的数据集评估打分、自动化机审、badcase自动归类等能力能够被其它业务方快速复用支付宝商家业务增长引擎评测平台快速接入一站式平台能力开放抽象流程抽象流程能力沉淀能力沉淀一站式集成一站式集成自由拼装自由拼装多类业务多类业务分析共性,抽象出各类业务完整的评测流程单个评测节点乐高化,支持用户自定义拼装配置任务流开放外部脚本化对接,实现校本化轻量级对接。如对抗评测模型接入多平台作业联动一站式评测触发-执行-报告一站式问题流转&闭环【评测集生成评测集生成】【样本库样本库&样本分析样本分析】针对评测集中样本自身的 信度(完整性、正确性)、效度(代表性、覆盖度、偏差度、真实性)、难度(语义难度、推理难度、
5、解决难度、区分度)进行特征评估,用于判断是否满足评测诉求分析评测过程各个环节的样本执行情况,判断是否因执行过程执行失败等原因使得样本流失,导致评测最终的样本数量、特征分布带来的评测置信度偏差分析多次评测任务评测集差异,判断是否因评测集差异过大引起评测结果置信度偏差数据安全数据安全数据安全业务整体实验分析单实验 长 期 效 果 分 析单实验 仿 真 效 果 分 析数据安全PART 03应用效果评测执行次数平台上线半年内,多个业务在本平台执行300+次/月的正式评测数据集准备耗时单次数据集准备成本减少80%,从5天减少至1天评测周期单次模型评测周期已减少80%,从10人日减少至2人日评测数据集全面
6、分析评测集分析接入11个指标,评测集生成和流转灵活清晰,评测结果置信度极大提升新业务准备评测成本同类业务的准备评测的周期以月为单位,平台接入降低至1天 一周时间,减少80%降低降低80%降低降低80%覆盖覆盖11个指标个指标降低降低60%300+300+次次/月月业务覆盖支撑商家经营助手、O站智能助手;消费圈,租赁;门店数据、商品增长数据等业务业务效果提升在评测过程识别和追踪了2k+badcase,提前拦截效果问题,提升了业务效果2k+badcase2k+badcase10+