《3-AI大模型驱动算法评测的效能革命-陈曦文文禧-0511.pdf》由会员分享,可在线阅读,更多相关《3-AI大模型驱动算法评测的效能革命-陈曦文文禧-0511.pdf(26页珍藏版)》请在三个皮匠报告上搜索。
1、AI大模型驱动算法评测的“效能革命”陈曦文目录1 背景2评测全流程的效能革命3应用案例4 挑战与展望背景01背景 传统算法评测痛点1.数据收集:依赖真实场景数据,成本高、样本不足,难以覆盖边缘案例2.离线评测:人工标注耗时长,小模型泛化能力差,问题归因依赖专家经验3.业务上线:多轮人工审核导致流程冗长,用户体验差(如广告/电商生成图审核周期长)4.线上巡检:人工回流数据耗时,问题归因不系统,报告生成效率低 现状当前支付宝各业务线DAU较大,传统依赖人工质检与小模型的评测方式已难以应对当前海量数据的实时性与精准性要求。AI时代变革从此进入AI大模型时代,实现从“专用模型”到“通用智能”的跨越。L
2、LaMATransformer问世BERT1.0小模型时代2.0大模型时代AlexNetResNetVGGGANCLIPChatGPTLLMMLLMClaudeDeepSeekMidjourneyDALL-EQwen-VLGemini算法评测的变革核心通过预训练+微调范式,轻量化训练业务大模型核心转变:不再依赖于专家逻辑,把理解、知识和逻辑推理交给AI。AI 1.0AI 2.0 定义:数据驱动下的技术架构与智能化范式。典型场景:图像识别、语音识别、自然语言处理等。应用范式:基于领域内数据构建判别式AI小模型,完美展现专家经验。局限性:需要大量标注数据,泛化能力弱,可解释性差。定义:利用大模型的
3、生成能力和推理能力,带来新的应用范式。典型场景:ChatGPT、Copilot等。应用范式:训练一个巨大的生成式大模型,大模型驱动业务决策 局限性:训练资源消耗巨大,存在不当使用和模型偏见问题。评测全流程的效能革命02一、数据集构建传统方式:依赖于开源数据、业务数据、或真实场景采集,成本高、样本有限,难以覆盖极端案例AI注入:基于sd模型或虚拟仿真技术,生成“不存在的badcase”,低成本构建海量样本。不再局限于真实场景及传统的数据增强方式,提升覆盖度的同时,极大地降本增效二、离线评测三、业务上线人审提效70%,全流程耗时降至小时级,助力用户体验与业务效率双提升四、线上日常巡检应用案例03广
4、告AIGC场景应用 评测难点与挑战主体生成前后改变【一致性】与客观事实不符【美学】主背景不协调【美学】广告场景下:AIGC产物新问题点:现实世界不存在或不常见【异常】与用户意愿不相符【一致性】主观感受不佳【美学】建设思路:“魔法打魔法”的思路,用大模型测大模型测评大模型:基于CLIP(ViT)、LLaVA等业界前沿的大模型训练框架和底座,结合开源数据集以及支付宝自营业务场景标注数据,训练一套蚂蚁自己的AIGC生图测评大模型VQAGPT,对AIGC生图产物进行自动化评测质检。VQA-GPT:Visual Quality Assessment General Pretrained-models广告
5、AIGC场景应用 大模型思路VQA-GPT 一致性判断线上拦截商品主体出现异常突变的生成图,拦截准确率90%+判断生成前后商品主体是否一致可视化问题区域,提高模型对特定问题发现的辨识度大模型思路VQA-GPT 美学判断大模型思路训练集:开源+业务美学标注数据规模10w+在算法上线前充分验证机审能力,上线后持续优化,实现高效可靠的AIGC图像质量检测体系,为人审提效20%+。广告AIGC场景应用 业务效果自动化评测平台功能1:美学异常检测,用户可以上传单/多张图片(url),来实现检测功能2:图文一致性检测,用户可以上传图片和对应文本,来实现检测功能3:图图一致性检测,用户可以上传图片-图片对,
6、来实现检测功能4:任务中心提供多种检索方式,用户可查看所有上传图的评测结果自动化评测平台AIGC质量评测平台(VQA-GPT)功能5:统计中心为用户提供各指标的分级统计结果,如异常率的高/中/低分级、一致率的优/中/差分级等功能6:评测样本集管理AI TestOps数据预处理模型评估工程部署AIGC算法服务库模型训练火花平台透出1.模型更新2.代码更新3.模型+代码更新自动化算法服务效果评测开源评测集线上回流仿真调用新算法服务验证效果&工程是否通过重部署标准流程线上效果监控算