2025.1.222025年战略展望2本材料包含公司的前瞻性声明,包括关于本公司和其附属公司业务相当可能有的未来发展的声明,例如预期未来事件、业务展望或财务结果。“预期”、“预计”、“继续”、“估计”、“目标”、“持续”、“可能”、“将会”、“预测”、“应当”、“相信”、“计划”、“旨在”等词汇以及相似表达意在判定此类前瞻性声明。这些声明以本公司在此日期根据其经验以及对历史发展趋势,目前情况以及预期未来发展的理解,以及本公司目前相信的其它合理因素所做出的假设和分析为基础。然而,实际结果和发展是否能够达到本公司的目前预期和预测存在不确定性,取决于一些可能导致实际业绩、表现和财务状况与本公司的预期产生重大差异的不确定因素,这些因素包括但不限于宏观政治及经济因素、原油和天然气价格波动有关的因素、石油和天然气行业高竞争性的本质、气候变化及环保政策因素、公司价格前瞻性判断、并购剥离活动、HSSE及保险安排、以及反腐败反舞弊反洗钱和公司治理相关法规变化。因此,本材料中所做的所有前瞻性声明均受这些谨慎性声明的限制。本公司不能保证预期的业绩或发展将会实现,或者即便在很大程度上得以实现,本公司也不能保证其将会对本公司、其业务或经营产生预期的效果。3未来展望石油需求(百万桶油当量/天)布伦特油价及预测(美元/桶)资料来源:全球经济增长来自国际货币基金组织世界经济展望(2024年10月),中国经济增长来自中国银行2025年中国经济金融展望报告、全球石油需求来自OPEC世界石油展望(2024年)2025年全球经济预计增长3.2%,中国经济预计增长5%全球石油需求有望保持增长,机构预测布伦特油价未来维持在70至80美元/桶0204060801002023年2024年2025年2026年2027年实际BloombergWood MackenzieS&P Global85.887.488.890.291.616.417.117.517.818.00 10 20 30 40 50 60 70 80 90 100 2023年2024年预测2025年预测2026年预测2027年预测全球(不包括中国)中国宏观环境42025年工作目标5130%百万桶油当量1,250-1,350亿元人民币760-780保持良好的健康安全环保水平5资本支出产量目标储量替代率HSE水平不低于资本支出616a %勘探开发生产资本化其他682%中国海外2025年资本支出结构1,0001,0501,1001,1501,2001,2501,3001,3502024年预算2025年预算(人民币亿元)1,320 2024年资本支出完成情况良好,预计达约人民币1,320亿元 2025年资本支出预算为人民币1,250-1,350亿元 在支持产量稳增长基础上,2025年资本支出预算保持稳定勘探工作7聚焦寻找大中型油气田持续夯实增储上产资源基础 坚持稳油增气、向气倾斜 稳定渤海,加快南海,拓展东海,探索黄海,做强海外 推进非常规2202141301162024年预计2025年预算海上陆上非常规13,30010,9002024年预计2025年预算勘探工作量(中国)三维地震数据勘探井(口)(平方公里)勘探部署(中国)聚焦中浅层,开展环渤中岩性油气藏连片勘探 瞄准深水、深层,在南海开展立体勘探,在渤海向深拓展勘探新层系 围绕新区、新领域,探索南海新洼陷油气勘探潜力,钻探大中型目标8 南海实施中浅层和深层立体勘探 渤海聚焦深层、超深层等开展勘探 陆上持续推进深层煤层气和致密气等多种气源的协同勘探保持合理勘探投资,保障原油储量稳定以建成三个万亿大气区为引领,持续推进天然气勘探新层系陆上天然气基地渤海南海西部南海东部勘探部署(海外)9 持续推动圭亚那项目钻探和尼日利亚项目滚动勘探 积极推进莫桑比克和伊拉克勘探新项目等地震勘探工作 推进新项目优选,争当作业者聚焦大西洋两岸和“一带一路”沿线国家部署尼日利亚莫桑比克伊拉克圭亚那开发投资开发和生产资本化积极推进重点项目-中国:垦利10-2油田群开发项目(一期)、文昌9-7油田开发项目和深海一号二期天然气开发项目等-海外:圭亚那Uaru项目和巴西Buzios7项目等抓好钻完井质量管理和工程进度把控,进一步提产提效持续深化调整井井位部署研究,提升单井产量推进油气藏精细描述,保障油气田稳产持续推动火炬气回收等节能降碳重点工程实施10生产资本化投资 2024年预计完成净产量约720百万桶油当量 2025年产量目标为760-780百万桶油当量产量目标112024年预算2025年预算(百万桶油当量)720760-780重点新项目渤中26-6油田开发项目(一期)位于渤海中部海域,平均水深约20米 得益于工程标准化等应用,该亿吨级*油田开发周期大幅缩短,仅用时3年 主要生产设施:1座中心处理平台,1座无人平台 高峰产量:22,300桶油当量/天 中国海油权益:100*探明地质储量重点新项目 位于渤海南部海域,平均水深约20米 主要生产设施:1座中心处理平台,2座井口平台 高峰产量:19,400桶油当量/天 中国海油权益:100垦利10-2油田群开发项目(一期)重点新项目 位于南海海域,平均水深约40米 统筹新区开发和老油田二次开发 主要生产设施:1座中心处理平台,1座无人井口平台 高峰产量:17,300桶油当量/天 中国海油权益:100涠洲11-4油田调整及围区开发项目重点新项目番禺10/11区块联合开发项目*位于南海东部海域,平均水深约100米 已于2025年1月2日投产 主要生产设施:1座井口平台,1座无人井口平台 高峰产量:13,600桶油当量/天 中国海油权益:100*即番禺11-12油田/番禺10-1油田/番禺10-2油田调整联合开发项目重点新项目深海一号二期天然气开发项目 位于南海海域,平均水深800-1,000米 高峰日产天然气约160百万立方英尺、凝析油约3,900桶 已于2024年9月27日投产,2025年将投产9口新井,新增天然气产能约110百万立方英尺/天 助力”深海一号“超深水大气田高峰年产量提升50%至45亿立方米,为粤港澳大湾区和海南省提供清洁能源16重点新项目圭亚那Yellowtail项目 位于圭亚那Stabroek区块,水深1,600-2,100米 主要生产设施:1艘FPSO,1套水下生产系统 产能:250,000桶/天 中国海油权益:25001,0001,5002020年2022年2023年2025年2030年Liza二期Payara(千桶油当量/天)Liza一期未来项目Stabroek区块产能规划*根据作业者披露Yellowtail17圭亚那Stabroek区块:到2030年预计将有8期项目运行,总产量将增长至130万桶/天,产能将达到170万桶/天*重点新项目18*根据作业者披露 位于巴西Buzios油田,水深约2,000米 主要生产设施:1艘FPSO,1套水下生产系统 产能:225,000桶/天中国海油权益:7.34%巴西Buzios7项目巴西Buzios油田:到2027年预计将有11期项目运行,总产量将达到150万桶/天,产能将超过200万桶/天*192025年经营指引20增储上产科技创新绿色发展 扎实推进三大工程,实施“提质增效升级”行动 不断提升价值创造能力,为股东带来更大的回报未来经营策略三年滚动产量目标(百万桶油当量)69ig13 25年预算2026年目标2027年目标中国海外760-780780-800810-83021 专注高质量发展,追求有效益的产量,保持规模稳步增长31%科技创新与应用 聚焦深水/深层和陆上非常规等领域的勘探开发技术研究 推进智能油气田建设,加快实施海上平台无人化、少人化建设和台风模式改造 依托“海能”人工智能模型,推动数智技术与油气产业深度融合22推进增储上产关键技术研究与应用 推动标准化项目定型设施减重,海上安装提速提效,实现产能建设全流程效率提升 以少井高产为抓手,坚持数智赋能,全面推动“优智钻完井”建设深化工程标准化与优智钻完井绿色发展 稳步发展近海海上风电,探索储备深远海风电技术 持续推进陆地海上新能源融合发展 利用岸电工程,持续提高绿电替代水平,2025年预计消纳绿电超10亿度,同比上升约30#推动油气勘探开发与新能源融合发展 打造渤海和海南两个海上CCUS基地 积极推进大亚湾区、长三角海上CCS/CCUS示范项目 研究组建海上CCUS产业联盟,打造区域产业联合体推进CCS/CCUS产业化统筹做好碳资产管理 将碳排放总量和强度纳入投资评价决策提质增效24推进提质增效升级行动 在支持产量稳定增长的基础上保持未来资本支出稳定 持续实施严格的成本管控,保持行业领先的成本竞争优势 坚持审慎的财务政策,保持健康的财务状况财务健康严控成本审慎投资25高度重视ESG工作坚持将ESG理念融入公司发展战略和治理体系 坚持服务社会,创造和谐,造福于民 关注社会需求,积极投身公益事业 坚持高标准合规管治 加强董事会建设,完善公司治理体系理念与承诺油气增储上产主导力量绿色低碳发展促进力量构建和谐社会中坚力量环境影响最小化 社会贡献最大化 公司治理最优化 坚持环保至上,节约优先,绿色发展 落实低碳减排政策,积极应对气候变化注重股东回报,共享发展成果股息政策 在获股东大会批准的前提下,全年股息支付率不低于45%将根据市场环境变化,秉承回报股东的原则,综合考虑公司股东的意愿、战略规划、经营状况等因素,适时对上述分红政策进行调整262025至2027年谢 谢!
序阿里妈妈成立于 2007 年,是淘天集团商业数智营销中台。秉承着“让每一份经营都算数”的使命,阿里妈妈技术团队深耕 AI 在互联网广告领域的探索和大规模应用,并通过技术创新驱动业务高速成长,让商业营销更简单高效。2021 年 5 月,我们开始通过阿里妈妈技术微信公众号持续分享我们的技术实践与经验,覆盖广告算法实践、AI 平台及工程引擎、智能创意、风控、数据科学等多个方向。每年此时,我们都会整理过去一年颇具表性和创新性的工作沉淀制作成册,这些工作有的已为业务创造实际收益,有的是一些常见问题的新解法,希望可以为相关领域的同学带来一些新的思路。期待明年此时,每位朋友都有新的收获,而我们也带着更多探索实践来与大家分享交流 2024 阿里妈妈技术年刊开放下载,如果对这本电子书有想要探讨的问题,或有更好的建议,也欢迎通过阿里妈妈技术 微信公众号与我们联系。最后,祝大家新春快乐 祝福如初,愿不负追求与热爱,万事尽可期待!如果觉得还不错,别忘了分享给身边的朋友 阿里妈妈技术团队关注阿里妈妈技术,了解更多精彩内容|目录目录决策智能 1阿里妈妈首提 AIGB 并实现大规模商业化落地,将在 NeurIPS 2024 正式开源 Benchmark 1【NeurIPS24】开源|AuctionNet:针对大规模博弈环境的出价决策 Benchmark 7【KDD24】AIGB:基于生成式模型的自动出价优化新范式 17【KDD25】AIGA 生成式拍卖:感知排列外部性的整页优化机制 28强化学习在广告自动出价场景的大规模落地实践 39召回/预估模型 52【CIKM24】展示广告预估技术最新突破:基于原生图文信息的多模态预估模型 52展示广告多模态召回模型:混合模态专家模型 66【WSDM24】展示广告预估模型优势特征应用实践 76大规模约束优化 85【KDD24】合约广告中的双目标库存分配 85【KDD24】合约广告中大规模多重线性约束库存分配问题的高效局部搜索算法 98【AAAI24】合约广告中基于风险约束的 Pacing 算法优化 111智能创意 123开源|阿里妈妈技术开源 FLUX 图像修复及蒸馏加速模型 123开源|筑基砥柱:EcomXL-万相实验室 AIGC 电商基础模型 131懂你,更懂电商:阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用 143乘风破浪,川流入海 LLM 在阿里妈妈智能文案的应用 157尺寸魔方:AIGC 赋能下的视觉创意智能延展 168AtomoVideo:AIGC 赋能下的电商视频动效生成 178|目录【ACL24】视频解说生成算法及在电商广告中的应用 188【ECCV24】SPLAM:基于子路径线性近似的扩散模型加速方法 197【NeurIPS24】FlowDCN:基于可变形卷积的任意分辨率图像生成模型 207【ACM MM23】视频尺寸魔方:分层遮掩 3D 扩散模型在视频尺寸延展的应用 216因果推断 224【WSDM24】CausalMMM:基于因果结构学习的营销组合建模 224【ICML24】面向因果效应估计的耦合生成对抗模型 235隐私计算 242阿里妈妈营销隐私计算平台 SDH:公用云应用案例分享 242风控技术 252重磅!阿里妈妈新一代反作弊平台DNA算法揭秘 252算法工程 264揭秘阿里妈妈AI 小万背后的 AI Native 工程能力 264AI 生成存储基座:自研超大规模向量数据库 Dolphin VectorDB 280多智能体 292哪家 AI 能成卧底之王?淘天技术团队发布多智能体博弈游戏平台 WiS 2921|决策智能阿里妈妈首提 AIGB 并实现大规模商业化落地,将在 NeurIPS 2024 正式开源 Benchmark 阿里妈妈技术 导读2023 年,阿里妈妈首次提出了 AIGB(AI-Generated Bidding)Bidding 模型训练新范式。AIGB 是一种全新的迭代范式,把自动出价问题建模为生成式序列决策问题,这是生成式 AI 在该领域的首次应用。经过一年的探索和研发,我们在阿里妈妈广告平台成功部署 AIGB 并取得显著效果,我们还把过程中的发现和经验总结成论文发表在 KDD 2024,详细分享了这一全新的迭代范式。为了激发该领域进一步的技术创新,我们今年发起了 大规模拍卖中的自动出价比赛,并特别设置了 AIGB 赛道,这一理念得到了 NeurIPS 的认同,阿里妈妈成为国内工业界今年唯一一家获得 NeurIPS 比赛主办权的组织。同时,我们也将在 NeurIPS 2024 上正式开源 AIGB 的 Benchmark:业界首个标准化的大规模模拟竞价系统和大规模博弈数据集。论文名称:AIGB:Generative Auto-bidding via Diffusion Modeling论文作者:Jiayan Guo,Yusen Huo,Zhilin Zhang,Tianyu Wang,Chuan Yu,Jian Xu,Yan Zhang,Bo Zheng发表会议:KDD 2024论文链接:https:/arxiv.org/abs/2405.16141背景:在线广告场景中的自动出价广告业务是互联网公司营收的一项重要来源。仅在 2023 年,在线广告市场的规模就决策智能2|决策智能达到了 6268 亿美元。在线广告往往是通过流量拍卖的方式进行广告投放。广告主需要设定合理的出价从而竞得流量。近年来,自动出价(Auto-Bidding)技术已成为推动广告市场持续增长的关键因素。相比于传统的手动出价,自动出价充分考虑了线上流量分布、竞价环境、预算以及各种限制因素,在为广告主带来了更多价值的同时,促进了平台业务的增长。一种典型的自动出价目标是在给定预算及其他约束的条件下最大化广告主的流量价值。典型的自动出价任务包括给定预算下的最大化拿量任务 Max-Return,以及给定预算和 ROI 约束的最大化拿量任务 Target Roas 等。在实践中,自动出价的优化问题一般会被看作一个序列决策问题,出价模型在整个投放周期(通常为 1 天)内随着流量和竞价情况的变化动态调整出价参数从而优化整体效果。模型需要具备一定的全局视角,进行整体规划和决策。对于序列决策问题,一种被业界广泛采用的解决方案是强化学习(RL)。RL 方法可以通过不断和环境交互寻优,从而不断提升策略效果。RL 也是目前一种主流的 Bidding 解决方法。但是这种方法由于存在一定的内生性缺陷(价值函数预估和自举法导致的训练不稳定),不擅长处理 Bidding 面临的长序列决策问题,容易出现训练效果差的问题。因此,我们期待通过算法范式的升级来提升 Biding 模型的线上效果。生成式模型助力 Bidding 范式升级生成式模型近年来得到了迅速的发展,在图像生成、文本生成、计算机视觉等领域取得了重大突破。目前最新的生成式模型在分布拟合以及相关性关联等方面显著地优于浅层神经网络。工业界 Bidding 策略优化的核心是基于历史的 Bidding 数据,通过模型挖掘策略与效果之间的相关性从对策略进行优化,是生成式模型落地的一个较为理想环境。基于这一洞察,我们提出了 AIGB(AI-Generated Bidding)解决方案。AIGB 是一种基于生成式模型(Transformer、Diffusion Model 等)的出价问题解决方案框架。与以往解决序列决策问题的 RL 思路不同,AIGB 将 Auto-Bidding 视为一个策略生成问题,通过生成模型强大的特征关联以及分布拟合能力,直接捕捉历史 Bidding 数据集中优化目标和出价策略之间的相关性从而优化策略。相比于 RL 方法,这种新的建模范式避免了价值函数预估和自举法所所造成的误差,尤其擅长处理 Bidding 所面对的长序列稀疏回报的问题。3|决策智能图 1:图左历史投放轨迹中,颜色深浅代表计划 return 的不同。右图为 AIGB 模型根据不同需求生成的新策略。整个模型看作一个分布处理 pipeline,输入历史非最优但存在有效信息的广告投放轨迹,输出符合优化目标的新策略。图 1 直观地展示了生成式出价(AIGB)模型的流程。我们将出价、优化目标和约束等具备相关性的指标视为一个有一定规律的数据分布。在训练阶段,我们可以利用生成模型对这一数据分布进行数据挖掘寻优,这使得模型能够自动学习出价策略、状态间转移概率、优化目标和约束项之间的相关性。在线上推断阶段,生成式模型可以基于约束和优化目标,以符合分布规律的方式输出出价策略。理论上,AIGB 范式可以兼容多种生成模型。目前常用的生成式模型包括 Trans-former、Diffusion Model 等。但不同的模型侧重点不同,例如,Transformer 模型主要基于自注意力机制,能够对样本中跨时序和分层信息进行提取和关联,擅长进行自回归处理。而 Diffusion Model 则缓慢地将随机噪声添加到数据中,然后学习逆向扩散过程以从噪声中构造所需的数据样本。加噪和去噪的过程可以类比为是把特征用马赛克遮住然后再还原的过程。相比之下,可以从细节到整体捕捉多个层次的相关性,从而提取出更多的有效信息,更擅长进行分布建模。因此,基于不同的生成模型特点,可以构建出不同的建模方案。DiffBid:基于扩散模型(Diffusion Model)的 AIGB在 AIGB 框架下,我们引入了基于扩散模型方案 DiffBid。DiffBid 由规划模块和控制模块组成。对于规划模块,我们首先将一个完整投放周期内广告主剩余预算、消耗速率、ROI、流量价值等出价相关状态信息随着时间不断变化的过程看作一条 Bidding 轨迹,然后利用扩散模型对历史数据集中的海量 Bidding 轨迹序列进行建模(图 2),以最大似然估计的方式拟合轨迹数据中的分布特征。因此,DiffBid 可以基于给定目标规划出对应的出价轨迹。在此基础上,DiffBid 会再利用一个逆动力学控制模型根据环境的变化尽可能逼近规划轨迹。4|决策智能图 2:左为正向过程,右为反向过程。DiffBid 正向与反向过程示例,对于一条由剩余预算序列轨迹,正向过程不断加入噪声,破坏其有效信息,然后反向过程生成新的轨迹,最大限度将这部分丢失的信息还原。在近一年多的实践中,我们通过多轮线上实验,反复验证了 DiffBid 的效果。截至目前,DiffBid 已经多个场景的实验中相比于传统的 RL 方法产生了显著的正向效果。其中在某场景 Max-Return 任务中,产生了 GMV 3.6%的结果。在 Target Roas 任务中,在保证整体 ROI 满足要求的情况下取得了 GMV 5.0%的结果。特别在 Target Roas 中,由于 ROI 反馈稀疏且滞后,RL 方法训练难度较大,而 DiffBid 受影响较小。因此,DiffBid 既为广告主带来更多收益,又很好保障了广告主的 ROI。与此同时,我们通过进一步分析,发现 DiffBid 模型在提效的同时,还能够对实际投放轨迹产生一定的平滑性优化(图 3),在 DiffBid 策略生效后,投放轨迹的异常状态显著减少,振荡性显著降低,与此同时减少过快消耗的现象。广告主的投放体验也因此得到改善。图 3:真实线上剩余预算散点图。横轴为剩余时间,纵轴为剩余预算。越分散代表消耗越振荡,投放平滑性越差。此外在图 a 中,存在大量提前消耗完毕的投放轨迹。这部分轨迹可能会由于错过一部分晚上的高性价比流量导致效果下跌。而 DiffBid 可以明显减少这种问题5|决策智能除了实际线上效果的优势外,相比于其他方法,DiffBid 还具有其他两方面的优势。首先,相比于通过端到端方法直接输出 Bidding 信息,DiffBid 生成的轨迹信息具有更好的可解释性(图 4)。有助于我们对模型效果进行更好的评估,从而助力优化工作。例如,我们观察模型规划出的轨迹和实际线上的轨迹,如果出现规划出的最终剩余预算不为 0 的情况说明模型并未能有效利用所有预算。如果规划轨迹与实际轨迹差距较大,则说明逆动力学控制模型自适应能力较差。在定位问题之后,可以较为方便地进行针对性优化。其次,DiffBid 对多目标的兼容能力更强,与此同时支持在训练完成后对目标进行调整从而优化规划轨迹。基于这一特点,我们可以更为方便地加入一些将业务逻辑指标作为优化目标,与 Bidding 模型更好地结合起来。例如,在 Max-Return 任务优化的过程中,可以将预算使用率合并进入目标中,同时保证 GMV 和预算使用率得到优化。图 4:横坐标轴表示时间,纵坐标表示剩余预算和但时间步消耗。灰色曲线/柱子为最优轨迹剩余预算曲线/消耗。红色表示不同优化目标所对应的规划轨迹曲线。可以看出,随着目标 Return 变大,模型规划会逐步逼近最优轨迹。证明模型学到了合理的业务逻辑和优化措施目前 DiffBid 在阿里妈妈广告场景中大规模商业化落地,助力双十一,为广告主赋能。此外,基于扩散模型的特点,DiffBid 下可延展性和多目标能力会显著强于传统模型,这种特点将会为未来的 Bidding 优化和产品建设带来帮助。展望除了已经展现出来的诸多优势之外,AIGB 框架的开放性也能够兼容诸多不同的方案设计。在阿里妈妈刚刚举办的 NeurIPS 2024:大规模拍卖中的自动出价比赛中,选手们基于不同的基础生成模型,提出了一批不同于 DiffBid 的 AIGB 解决方案,迸发出诸多亮点。其中有的选手充分利用了 Transformer 的优势,通过自回归的方式预测给定优化目标的出价信息。有的选手提出 Transformer 全局规划模型与 bidding 小模型结合的出价方案。也有基于 Diffusion 模型直接进行出价的方案。这些方案均在不同程度上展示出了优势,为未来 AIGB 的进一步迭代提供了启发。但是,我们相6|决策智能信这仅仅是一个开始。未来随着技术的进一步发展,更多的 AIGB 方案涌现出来,从而以完全不同的方式重构自动出价的技术体系。阿里妈妈沉淀了亿级广告投放轨迹数据,是业界为数不多具备超大规模决策类数据资源储备的平台。这些海量数据资源可以成为营销决策大模型训练的有力保证,从而推动 AIGB 技术的发展。期待后续有机会与大家分享和交流我们的进展与实践。7|决策智能【NeurIPS24】开源|AuctionNet:针对大规模博弈环境的出价决策 Benchmark 银耀、妙临、铓客摘要大规模博弈环境中的决策智能是人工智能领域内的重要研究方向,对实际应用具有深远影响。然而,由于缺乏全面且真实的博弈环境及相关数据集,这一领域的进展受到了限制。为了解决这一问题,本文提出了一种基于在线广告行业的自动出价决策问题的 Benchmark,并命名为 AuctionNet。AuctionNet 包括一个大规模广告竞拍环境、基于该环境预生成的数据集以及几种基础出价决策算法的效果评估。广告竞拍环境通过深度生成式模型生成广告流量数据,旨在缩小仿真环境与现实问题之间的差距,同时避免敏感数据暴露的风险。数据集中包含了 48 个不同出价智能体相互竞价的日志,可帮助出价模型更好的训练。这个数据集共有 5 亿条记录,共计 80GB。AuctionNet 已应用于 NeurIPS 2024 竞赛,为 1500 支队伍提供了近万次准确、公正的算法效果评估,并帮助选手研发更多元、创新性的解决方案。AuctionNet 不仅适用于广告拍卖中的出价决策算法研究,也适用于大型博弈场景的决策智能算法研究。论文:AuctionNet:A Novel Benchmark for Decision-Making in Large-Scale Games作者:Kefan Su,Yusen Huo,Zhilin Zhang,Shuai Dou,Chuan Yu,Jian Xu,Zongqing Lu,Bo Zheng发表会议:NeurIPS 2024 Datasets and Benchmarks Track(Spotlight)论文下载:https:/arxiv.org/abs/2412.10798代码地址:https:/ 2023 年超过 6000 亿美元。这一领域需要在大规模博弈中运用复杂的决策技术。具体来说,在线广告系统主要通过流量拍卖的方式实现广告投放。而自动出价技术是衍生于这一场景的一项重要技术。如图 1 所示,自动出价的智能体代表广告主对大量持续到来的广告流量进行出价,目标是在满足特定约束条件(如投资回报率 ROI)的前提下实现效益最大化。图 1:大规模在线广告平台总体架构大规模广告拍卖中的出价决策是大规模博弈决策的一个典型例子。然而,研究人员通常只能有限地访问到真实的大规模广告竞拍环境,这一现状会对该领域的研究造成阻碍。尽管业界已经有了部分工作旨在为研究者提供一个仿真环境,但此类仿真环境大都无法对广告系统中的复杂的流量分布及博弈行为进行很好的描述,且可扩展性不足,无法很好支持研究者对问题进行广泛的研究。在本文中,我们提出了 AuctionNet源自真实在线广告平台的大规模广告出价决策基准。AuctionNet 由三个部分组成:广告竞拍环境、基于该环境的预生成数据集以及对几种基线出价决策算法的性能评估。具体来说,该环境通过多个模块的交互,有效地复制了真实世界广告竞价的完整性和复杂性:广告流量生成模块基于深度生成式模型。这种方法可以缩小模拟数据和真实世界数据之间的差距,同时降低敏感数据暴露的风险;出价模块实现了使用不同决策算法训练的多样化;拍卖机制模块基于广义二价(GSP)拍卖机制,同时也允许根据需要定制拍卖机制。为了促进研究并提供对博弈环境的深入了解,我们还基于该环境预生成了一个大型数据集。该数据集包含 48 个不同的智能体相互竞争的轨迹,总计超过 5 亿条记录,大小达 80GB。作为AuctionNet 的一部分,我们还提供了线性规划、强化学习和生成式模型等基线算法9|决策智能在出价决策方面的性能评估。2.问题建模在本文中,我们使用部分可观测随机博弈(POSG)来构建这个问题。在 POSG 中,=表示一个元组,其中 表示所有智能体的集合,为时间范围,即一个周期所对应的时间步数,表示状态空间,为动作空间,为转移概率,表示折扣因子,表示观测空间,表示对每个智能体 从状态到观测的映射,是所有智能体的联合奖励函数,是每个智能体 的个体奖励函数,其中 是所有智能体的联合动作。具体来说,在一个时间步内的交互过程如下:状态 由预算、广告流量特征、广告主特征 (如行业类别)以及相应的价值矩阵 组成,其中 表示广告流量 对智能体 的价值。智能体 的观察值 仅包含状态 中的部分信息,即智能体 可能不知道其他智能体的预算。基于自动出价领域的已有结论,智能体 对流量的出价可以被表示为一个出价系数 与流量价值 的乘积。因此,在这个时间步内智能体 对所有广告流量的出价为,其中 是这个时间步长内的广告流量数量。给定所有智能体的出价,根据拍卖机制的决定,智能体 将收到拍卖结果,其中当且仅当智能体 赢得流量 时,。智能体只会从赢得的流量中获得奖励并付出成本,即奖励 以及成本。因此下一个时间步的预算,其中 是展示 对智能体 的成本。以典型的自动出价场景为例,根据上述定义,从智能体 的角度来看,优化目标如下:其中,是智能体 的预算,表示内积。在实现的时候,我们构造 ,因此优化公式中的目标与 是相同的。对于更复杂的场景,我们可以添加 CPA 约束以确保预算的有效利用。上述决策制定10|决策智能公式可以轻松扩展到各种现实场景中。3.广告竞拍环境为了全面展示真实世界在线广告平台中的大规模博弈,我们开发了一个广告竞拍环境。为了规范自动出价过程,我们将一段时期内的广告流量划分为 个决策时间步。根据目标,自动出价智能体在每个时间步依次进行出价,利用第 步的结果和之前的历史信息来改进第 步的策略。这种设计理念使智能体能够持续优化其出价策略,以适应不断变化的环境。在每个时间步内,所有广告流量都是独立且并行执行的。完成竞价后,环境会为智能体计算出最终得分。这个环境通过广告流量生成模块、竞价模块和广告拍卖模块的相互作用,有效地复现了真实世界中广告拍卖的完整性和复杂性。为了更好地模拟现实中的大规模拍卖,环境中输入了大量的广告流量,并配置了数十个出价智能体。这些广告流量是通过深度生成式模型产生的,以此减少模拟环境与现实之间的差距,同时避免敏感数据泄露的风险。这些代理配备了多样化且复杂的自动竞价算法。3.1 流量生成模块广告流量生成模块的目标是生成与真实在线广告数据相似的多样化广告流量。如图2 所示,该模块的核心是深度生成式模型。我们使用了潜在扩散模型(LDM)的方法来生成广告流量。LDM 在潜在空间中添加噪声并使用扩散模型进行去噪,然后通过编码器和解码器从潜在空间生成数据。具体来说,LDM 在训练过程中使用编码器将广告流量特征 映射到潜在向量,并使用解码器重构这个特征。在生成时,LDM从正态分布中采样一个随机潜在向量,然后基于这个向量生成广告流量特征。令 为广告流量特征数据 的空间,其中 是原始数据的维度,是广告流量的数量。令 为潜在空间()。编码器和解码器分别表示为 和,其中 和 是参数。编码器 的功能是获取原始数据的潜在表征,即,其中 且 是潜在表征。在实践中,应用重参数化技巧以确保该操作在反向传播期间是可微的。11|决策智能图 2:广告流量生成流程给定潜在表征,解码器负责从 重构原始数据,即。除了重构之外,潜在分布 需要逼近标准高斯分布。因此,编码器和解码器的损失函数如下:其中 是重构损失,是潜在分布的正则化损失。LDM 在潜在空间中使用扩散模型来生成潜在变量。扩散模型背后的思想是向原始数据添加高斯噪声以获得服从 的变量,并从 开始去噪来进行生成。给定一个潜在变量,我们将其经过 次迭代后的噪声版本表示为。扩散模型包含一个用于预测噪声的网络,其损失函数可以表示为:其中,是 的潜在空间嵌入,是从集合 中均匀采样得到的。网络 是扩散模型中唯一可学习的组件,它通过基本操作实现了添加噪声和去噪的过程。对于给定的广告流量特征,我们还需要确定这个广告流量与对应广告主类别信息 12|决策智能 和时间信息 相结合的价值,其中 是与 相关联的真实数据中的广告主信息。我们使用多头注意力机制(Multi-head Attention,MHA)作为信息整合的网络架构。让 表示价值预测模块,表示在特定时间步骤下,针对特定广告主的广告流量特征 的预测价值。价值预测模型的损失函数如下:其中 是与 相关联的记录中广告流量的真实价值。3.2 出价模块出价模块复现了广告主之间的动态竞争。每个广告主都有不同的广告目标,并使用独立的自动出价智能体,同时对其竞争对手的策略并不了解。研究人员可以控制环境中的部分智能体,而其他智能体则保持不受控制。这种设置可以更好地反映现实世界在线广告中复杂且动态的博弈过程。3.3 拍卖机制模块广告拍卖模块的任务是根据智能体对广告流量的所有出价来确定赢家和中标价格。根据不同的拍卖规则,智能体的成本会有所不同。基于常见的 GSP 拍卖,获胜者会以第二高的出价而非最高出价来支付。为了方便研究人员进行研究,拍卖模块内部支持包括 GSP 在内的多种主流拍卖规则。此外,研究人员可以使用拍卖模块的接口设计特定的拍卖规则以满足他们的研究目的。此外,环境中实现了多坑的属性。多坑源于工业应用,意味着单个广告流量可能有多个广告坑位用于展示。具有较高曝光率的广告坑位对广告主来说更有价值。假设广告位数量为 l,那么拍卖模块将把 l 个广告位分配给出价最高的 l 个出价者,这些出价者将根据广告位不同的曝光率获得不同的价值。总的来说,多广告位特性增加了最优出价策略的复杂性,因为曝光率作为折扣因子同时影响成本和价值。4.预生成数据集为了更好地证明生成的数据能够反映真实世界数据的特性,我们对广告流量生成模块本身的有效性进行了验证。广告流量生成模块包含两个组成部分:特征生成式模型和价值预测模型。我们进行了实验来验证这些模型的有效性。我们随机抽样了 10 万个真实世界在线广告数据点,并与 10 万个生成的数据点进行13|决策智能比较。首先,我们使用 PCA(主成分分析)来可视化真实数据和生成数据之间的相似性。3D PCA 结果如图 3 所示。为了更好地展示,我们在 3D 空间中使用了六个不同的视角。我们观察到生成的数据在 3D 空间中与原始数据重叠。此外,生成的数据点在 3D 空间中形成了四个主要的独立簇,这与真实世界的数据点类似。这些可视化结果表明,生成的数据总体上与真实世界的数据相似。图 3:10 万条生成数据和 10 万条真实数据的三维主成分分析(PCA)结果为了进一步比较这两个数据集,我们研究了两个数据集中身份信息和消费行为信息的数值分布。实证结果如图 4 所示。对比真实数据和生成数据中个人信息相关特征的取值分布:可以发现在年龄、会员等级、偏好的手机价格区间等具体的特征上,生成数据的分布和真实数据的分布虽然略有差异,但在大体上仍是相似的。图 4:用户身份信息分布在图 5 中,我们对比了真实数据和生成数据中消费行为相关特征的取值分布:在统计消费行为的相关特征上,我们可以发现生成数据和真实数据都呈现出“长尾分布”,即绝大部分消费者的消费行为都比较稀疏,而存在小部分的消费者消费行为较为频繁,这也符合相关行业观察到的现实规律。14|决策智能图 5:消费行为信息分布实验结果表明,生成数据在总体上与真实数据相似。该数据集源自博弈环境中生成的数据,其中多个自动出价智能体相互竞争。我们已经预先生成了大规模的博弈数据,以帮助研究人员更深入地了解竞价系统。这些数据可用于对环境建模和有效训练自动出价智能体。数据集包含 21 个广告投放周期,每个周期包含超过 500,000 个广告流量,并被分为48 个步骤。每个流量都包含出价最高的前 48 个智能体(注:真实世界的数据表明,48 个智能体可以确保自动出价智能体训练时的竞争压力)。数据集包含超过 5 亿条记录,总计 80GB 大小。每条记录包含预测价值、出价、拍卖和展示结果等信息。5.评估基线算法的性能对比在实验部分,论文评估了多种基线算法在 AuctionNet 环境中的性能,包括 PID Controller、Online LP、IQL、BC 和 Decision Transformer。值得注意的是,我们使用了论文中的原始算法,并没有在自动出价任务对这些方法做特殊的优化。实验结果如图 6 所示。为了更好地说明问题,我们将所有基线方法的性能用启发式基线 Abid 的平均周期奖励进行归一化。因此,在基础任务中,Abid 的平均相对性能为1.0。Online LP 取得了最佳性能,这可能是因为它相对稳健,无需为自动出价任务进行特殊适应就能取得良好效果。虽然 IQL、BC 等方法的表现不如 Online LP,但我们观察业界有在这些算法基础上针对自动出价问题提出了一些新的解法(如 AIGB)并有显著效果提升,证明了这类方法具有巨大的优化潜力。此外,在目标 CPA 任务中所有基线方法的奖励下降是由于超出约束而产生的 CPA 惩罚所致。15|决策智能图 6:基线算法在基本任务和目标 CPA 任务上的实验结果6.在 NeurIPS 比赛上的应用AuctionNet 被 应 用 于 NeurIPS 2024 竞 赛“Auto-Bidding in Large-Scale Auctions”中。该竞赛解决了在不确定和竞争环境中进行高频出价决策的关键问题,历时 3 个月并有来自全球 1500 多支队伍参与其中。竞赛中使用的广告竞拍环境、数据集和基线出价决策算法均源自该 Benchmark。广告竞拍环境为竞赛提供了近万次评估,为参赛者提供了准确、公平的效果评估。数据集和基线算法使参赛者能够快速启动任务并激发他们的创造力,从而产生更多样化和创新的解决方案,推动该领域的技术发展。7.开源代码我们将这个 benchmark 的代码开源出来,希望能加速这个领域的技术突破。16|决策智能8.总结AuctionNet 环境仍然存在一定的局限性,包括生成数据与真实数据之间的偏差并没有完全得到解决,以及 AuctionNet 环境的计算速度仍然偏慢,有待进一步优化。尽管如此,AuctionNet 环境和数据集仍然为大规模博弈决策的研究提供了一个有价值的工具。这不仅为研究人员提供了在大规模拍卖中研究自动出价算法的机会,也可以帮助博弈论、强化学习、生成模型、运筹学等领域的研究人员和实践者解决各种决策研究问题。17|决策智能【KDD24】AIGB:基于生成式模型的自动出价优化新范式银耀、铓客、妙临导读:去年,我们提出了 AIGB 的初步设想与方案(延展阅读:Bidding 模型训练新范式:阿里妈妈生成式出价模型(AIGB)详解)。经过一年的深入探索,我们完成了AIGB 的完整方案,并在实际在线广告平台大规模预算 AB 测试中取得了显著效果。值得一提的是,AIGB 的研究成果已被 KDD 2024 大会接收。在本文中,我们将基于 KDD 公开发表的论文,详细分享这一全新的自动出价优化范式。论文:AIGB:Generative Auto-bidding via Diffusion Modeling作者:Jiayan Guo,Yusen Huo,Zhilin Zhang,Tianyu Wang,Chuan Yu,Jian Xu,Yan Zhang,Bo Zheng链接:https:/arxiv.org/abs/2405.16141摘要:在 2023 年,在线广告市场的规模达到了 6268 亿美元,而自动出价已成为推动这一市场持续增长的关键因素。自动出价需要在顺序到来的海量展示机会中依次做出出价决策,这是一个典型的长序列决策问题。近年来,强化学习(RL)在自动出价中得到了广泛应用。然而,目前大多数基于 RL 的自动出价方法都采用马尔可夫决策过程(MDP)进行建模,但在面对较长序列决策时,这些方法受到了误差累积等因素的限制,效果表现受限。为了解决这些问题,本文提出了一种新范式 AIGB基于生成式模型的自动出价。在具体实现上,该方法基于条件生成模型,将出价决策轨迹与优化目标直接建模在一起,从而有效避免在长序列决策时跨时间步的误差传播。在应用中,只需设定要达成的优化目标及特定约束,即可生成能够最大化给定目标的出价轨迹,依托此轨迹可以得到具体的出价决策动作。我们将该方法在阿里巴巴广告平台进行大规模部署,并通过预算 AB 实验进行了长达一个月的效果观察,充分验证了该方法的有效性。在总交易额(GMV)和投资回报率(ROI)上分别实现了 4.2%和 5.6%的增长,同时显著提升了广告主的投放体验。并且我们对该范式进行了深入细致的分析,在出价轨迹规划及出价动作的有效性上都展现出了不错的潜力,对该范式的深入研究可以带来持续的效果提升。18|决策智能一、背景1.1 自动出价建模广告主的目标是在满足各个约束的条件下在整个投放周期内部获取最多的流量价值。考虑到广告目标、预算和 M 个 KPI 约束,自动出价问题可以被定义为一个带约束的优化问题:其中,表示是否竞得流量,和 分别表示流量 的价值(流量产生购买或 GMV 的可能性)和成本。是第 个约束的上界。表示效果指标,例如 CPC、ROI 等,第 个约束所关联的流量消耗。如果只有预算 进行约束,我们称为 Max Return Bidding。如果同时考虑预算约束和 CPC 约束,我们称为Target-CPC bidding。如果假设已经知道整个投放周期内流量集合的全部信息,包括能够触达的每条流量以及其流量价值和成本,那么可以通过解决线性规划问题来获得最优。为了求解这一优化问题,我们一般通过对偶变换,构造一个最优出价公式,将原问题转化为求解最优参数的问题,从而大大降低在线情况下求解此问题的难度。最优的出价公式为:其中,是常数项,是参数,其范围为:。证明过程详见论文1。最优出价公式共包含 m 1 个核心参数,公式中其余项为在线流量竞价时可获得的流量信息。由于最优出价公式存在,对于具有 M 1 个约束、且希望最大化赢得流量的总价值的问题,最优解可以通过找到 M 1 个最优参数并根据公式进行出价,而不是分别为每个流量寻找最优出价。理想情况下,通过求解最优参数,即能直接获得每个广告计划的最优出价。19|决策智能1.2 自动出价中的决策问题然而,在实际投放过程中,我们无法提前获知整个投放周期的流量分布,需要在流量集合未知的情况下进行实时竞价。因此,由于无法直接计算出最优参数,常规的线性规划解决方法并不完全适用。在实践中我们往往需要根据历史信息对 进行预估,并得到预估值。由于环境随机性大,进行实时动态调整以适应环境的变化。基于这一视角,我们可以将自动出价被看作一个序列决策问题。为了对这个问题进行建模,我们引入状态变量 描述实时投放状态,自动出价模型基于 输出出价动作,环境将动态变迁至下一状态,并获取到相应的奖励。接下来我们进行详细的定义:状态:描述在时间段 的实时广告投放状态,包含一下方面的信息:1)剩余投放时间;2)剩余预算;3)预算消耗速率;4)实时点击成本(Cost Per Click);5)平均点击成本(CPC)。动作:描述在时间段 对出价参数的调整,其维度与竞价参数 的数量相符,并用向量形式 表达。奖励:在时间段 内获取的收益。轨迹:表示整个投放周期内一系列状态、动作和奖励的序列。1.3 生成式模型生成式模型近年来得到了迅速的发展,在图像生成、文本生成、计算机视觉等领域取得了重大突破,并催生出了近期大热的 ChatGPT 等。生成式模型主要从分布的角度去理解数据,通过拟合训练数据集中的样本分布来进行特征提取,最终生成符合数据集分布的新样本。目前常用的生成式模型包括 Transformer3、Diffusion Model4等。Transformer 主要基于自注意力机制,能够对样本中跨时序和分层信息进行提取和关联,擅长处理长序列和高维特征数据,如图像、文本和对话等。而 Diffusion Model 则将数据生成看作一个分阶段去噪的过程,将生成任务分解为多个步骤,逐步加入越来越多的信息,从而生成目标分布中的样本。这一过程与人类进行绘画过程较为相似,由此可见,Diffusion Model 擅长处理图像生成等任务。依靠生成式模型强大的信息生成能力,我们也可以引入生成式模型将序列决策问题建模为一个序列动作生成问题。模型通过拟合历史轨迹数据中的行为模式,达到策略输出的目标。Decision Transformer(DT)5 和 Decision Diffuser(DD)6 分别将Transformer 以及 Diffusion Model 应用于序列决策,在通用数据集中,相比主流的20|决策智能RL 方法 7,8 取得了较好的效果提升。这一结果为我们的 Bidding 建模提供了一个很好的思路。二、AIGB(AI Generated Bidding)建模方案AIGB 是一种利用生成式模型构造的出价优化方案。与以往解决序列决策问题的 RL视角不同,AIGB 将自动竞价视为一个轨迹生成问题,直接捕捉优化目标和整个投放轨迹之间的相关性,从而克服 RL 在处理线上环境高随机性、长序列稀疏回报和有限数据覆盖时的性能瓶颈。在此基础上,我们进一步发挥生成模型的优势,尝试通过多任务的方式解决出价问题。在训练过程中,对约束进行条件化,使得推断时的行为可以同时满足多个约束组合。我们的研究结果表明,使用条件生成模型来解决出价问题中的序列决策问题是一个好的选择。图 1:图左历史投放轨迹中,颜色深浅代表计划 return 的不同。右图为 AIGB 模型根据不同需求生成的新策略。整个模型看作一个分布处理 pipeline,输入历史非最优但存在有效信息的广告投放轨迹,输出符合优化目标的新策略。从生成式模型的角度来看,我们可以将出价、优化目标和约束等具备相关性的指标视为一个联合概率分布,从而将出价问题转化为条件分布生成问题。这意味着我们可以以优化目标和约束项为条件,生成相应出价策略的条件分布。图 1 直观地展示了生成式出价(AIGB)模型的流程:在训练阶段,模型将历史投放轨迹数据作为训练样本,以最大似然估计的方式拟合轨迹数据中的分布特征。这使得模型能够自动学习出价策略、状态间转移概率、优化目标和约束项之间的相关性。在线上推断阶段,生成式模型可以基于约束和优化目标,以符合分布规律的方式输出出价策略。总的来说,生成式模型的优势在于:训练阶段,条件生成式模型通过最大似然估计进行训练,通过监督学习的方式优化策略,可解释性更强。推断阶段,条件生成式模型可以根据不同的出价类型生成不同的出价轨迹,以实现不同约束项的满足。具备多任务能力。21|决策智能2.1 模型结构图 2:AIGB 结构如图 2,给定当前轨迹信息 和策略生成条件,AIGB 模型可以逐个生成未来的出价策略:其中出价策略 是由未来的最优状态和与之对应的最优出价组成的序列。生成条件 包括了优化目标(购买量最大化、点击量最大化)以及约束项(PPC、ROI、投放平滑性)等。被用来估计条件概率分布。模型基于当前的投放状态信息以及策略生成条件输出未来的投放策略,相比于以往的 RL 策略仅仅黑盒输出单步 action,AIGB 策略可以被理解为在规划的基础上进行决策,更擅长处理长序列问题。这一优点有利于我们在实践中进一步减小出价间隔,提升策略的快速反馈能力。与此同时,基于规划的出价策略也具备更好的可解释性,能够帮助我们更好地进行离线策略评估,方便专家经验与模型深度融合。2.2 生成式建模我们提出一种基于 AIGB 范式的出价算法DiffBid。在训练阶段,DiffBid 模型通过最大似然估计历史数据集 D 中轨迹 和策略生成条件 所对应的轨迹信息进行训练,从而最大限度拟合历史轨迹的分布信息:22|决策智能拟合历史分布的过程可以通过引入 Diffusion Model 或 Transformer 等生成式模型来完成。以我们真实使用的扩散模型为例,我们将序列决策问题看作一个条件扩散过程,包括正向过程 和反向过程。表示正向过程的迭代步,在正向过程,从 转变为 的过程,每一次 到 的转换均通过加入高斯扰动实现;反向过程则表示高斯噪声 转化为历史投放轨迹分布。每一次 到 的转换均通过加入含有一定信息的高斯扰动实现。除此之外,在反向过程中,我们还希望能够表达 与 的相关性,因此可以引入 DD 模型中使用的 Classifier-free 方法,利用提取数据集中与 相关度最高的部分。其中 为噪声模型,通过神经网络生成每一个时间步所增加的噪声。步所对应的高斯扰动可以表示为:其中 表示不同的目标或者约束,用来调节 的权重。Classifier-free 方法可以较为优雅地处理多种优化目标和约束条件,避免以往 RL 训练过程中由于约束信号稀疏而效果下降的问题。在此基础上,我们可以计算每一个 step 的重构误差,也就是:然后通过最小化误差的方式进行训练。DiffBid 模型的策略生成阶段通过给定生成条件 生成符合要求的出价轨迹。具体过程如下:23|决策智能2.3 策略生成条件对于只有预算约束的单约束 bidding 问题,我们利用策略生成条件 来表示优化目标。我们将每一条投放轨迹 在整个投放周期内的总奖励定义为 Return,为了方便模型进行训练,我们沿用 DD 中的处理方式,也就是:其中 和 分别表示数据集中 Return 的最小和最大值。其中 表示数据集中最好的轨迹,能够更好地服务于广告主的效果提升。表示数据集中最差的轨迹。接下来我们把 作为 condition 合并进 中并进行训练。对于具有多约束的 bidding 问题,需要要求每一个约束变量都不能超过设定的阈值。我们在此基础上将更多约束相关信息合并进 中,并维护一个二进制变量 来指示最终 CPC 是否超过给定的约束:其中,由上文计算得到。当 时代表出价不会导致超限发生。我们将 合并进 中进行训练。对于多约束变量,除了业内普遍的 CPC、ROI 等约束以外,利用扩散模型的强大能力,我们得以加入更多个性化的约束,我们称为人类反馈约束。例如,广告主可能会希望预算消耗尽可能均匀,进一步减小爆量发生的概率。我们可以通过定义约束相 来实现。其中 表示广告计划在 时刻的总消耗。广告主可能希望将特定时间段消耗更多的预算以应对促销活动,我们通过 来表示。三、实验结果为了对 AIGB 的效果进行验证,我们通过仿真平台和真实线上做了大规模的实验。在离线实验中,我们进行了多维度的实验,包括在 Max Return Bidding、Target-CPC Bidding、广告主反馈等。在此基础上,我们将模型部署到线上场景进行了线上的 Max-Return 场景进行了实验。24|决策智能3.1 仿真实验结果表 1:AIGB 模 型 与 各 种 baseline Max Return Bidding 对 比。USCB 是 一 种 基 于 仿 真 的 RL bidding 方法1,目前在业界被普遍使用。其余 Baseline 包括目前主流的 Offline RL 方法,包括 BCQ10、CQL7以及 IQL10,USCB-5K 表示利用 USCB 出价模型与环境交互产的数据集,USCBx-5K 表示在 USCB 策略上加入一定的探索扰动。表 1 展示了 DiffBid 与基准模型在 Max Return Bidding 的效果对比。在这个表中,DiffBid 作为评估的所有方法中表现最好的方法脱颖而出。在所有预算场景和训练数据集中,DIffBid 模型始终获得最高的累计奖励。这一显著的表现突显了 AIGB 在优化出价策略方面的能力,展示了将出价过程进行生成式建模的优势能够做出更具有全局性的出价策略。另外一个关于 AIGB 性能的方面是其对探索数据具有更好的融合能力。AIGB 比强化学习基线方法能够更有效从探索数据中提取出更好的策略。图 3:AIGB 与 USCB 消耗曲线对比,颜色的不同代表不同的预算25|决策智能我们进一步研究 AIGB 策略的特点,我们比较了基准方法 USCB 和 DIffBid 的分时消耗情况。在图 3 中,我们绘制了一天中剩余预算比例随时间步的变化。从图中我们可以观察到,在 USCB 下,大部分广告商的消费未能耗尽他们的预算。这归因于USCB 面临的线下虚拟环境和真实线上环境之间的不一致性。相反,在 AIGB 下,预算完成情况有所改善,大部分广告商花费了超过 80%的预算。一个可能的原因是DiffBid 发现高预算完成比例的轨迹同样会有高累积奖励,因此倾向于生成预算完成比例高的轨迹。此外,小预算的广告商倾向于在下午消费。这是因为下午的流量平均性价比更高。图 4:AIGB 与 IQL 在 Target-CPC Bidding 中的表现我们还研究了 AIGB 应对多约束的能力,并将其性能与离线强化学习(IQL)进行了比较。具体来说,我们检查 DiffBid 和 IQL 控制整体 CPC 超额比例的能力,同时最大化总回报。在训练期间,我们设置不同的 CPC 阈值。然后在测试时,我们让 AIGB生成满足期望 CPC 下的轨迹。在图 4 中,我们展示了在不同 CPC 约束和训练设置下的超限比例和总回报。从图中发现,AIGB 能够在保持完整回报的同时,控制不同水平的超限比例,显著优于 IQL。因此,AIGB 在有效解决 MCB 问题上占据了明显优势。26|决策智能图 5:AIGB 不同水平的人类反馈对比我们还研究了在不同广告商反馈下的性能。在训练期间,我们将阈值将轨迹分为高低两个水平,并学习不同水平下的条件分布。在生成期间,我们调整条件并生成相应的样本,并总结指标。图 5 显示了低水平、高水平和原始轨迹的指标的统计分布结果。我们发现,部署 AIGB 获得的轨迹能够很好地受到条件的控制。3.2 线上实验结果:表 2:线上 AB 实验结果为了进一步证实 AIGB 的有效性,我们已经在阿里巴巴广告平台上与表现最优的自动出价方法之一 IQL 方法进行了比较。通过较长周期的在线 A/B 测试,实验结果表明(如表 2),DiffBid 可以将购买次数(Buycnt)提高 2.72%,总商品交易额(GMV)提高 4.2%,投资回报率(ROI)提高 5.55%,ROI 胜出率提升 20.04%,展示了其在优化整体性能方面的有效性。在效率方面,经过 GPU 加速,AIGB 可以很好地保证计算延时不增加太多。四、总结及未来展望AIGB 方案有诸多优势,包括解决困扰 RL Bidding 在离线不一致问题,更好地训练27|决策智能多约束出价模型,更好的可解释性以及更为顺畅的与专家经验的结合能力等,这些优势可以帮助我们进一步提升的模型迭代效率和效果上限。基于 AIGB 的出价方案目前已经在阿里妈妈线上广告场景落地。可以看出,生成式模型驱动的 AIGB 已经在以完全不同的方式重构自动出价的技术体系。但是,这仅仅是一个开始。阿里妈妈沉淀了亿级广告投放轨迹数据,是业界为数不多具备超大规模决策类数据资源储备的平台。这些海量数据资源可以成为营销决策大模型训练的有力保证,从而推动 AIGA 技术的发展。与此同时,用户和互联网产品的交互方式也将发生深刻的变化。重塑广告营销模式的机会之门已经在变化之中逐步显现,我们需要做的就是通过持续不断的探索和尝试来迎接变化。期待后续有机会与大家分享和交流我们的进展与实践。28|决策智能【KDD25】AIGA 生成式拍卖:感知排列外部性的整页优化机制衡言从“先预估后分配”的判别式方法,到直接面向最终拍卖结果的生成式方法,生成式模型能否为在线广告的拍卖机制优化带来持续增量?本文介绍阿里妈妈展示广告机制策略团队在 AIGA(AI-Generated Auction)方向的前沿探索-生成式拍卖研究工作。1.摘要广告拍卖机制设计作为在线广告系统的重要一环,在持续优化广告主和平台收益方面起着至关重要的作用。传统的广义二价拍卖(GSP)等拍卖机制依赖于点击率分离假设(将广告点击率拆分为广告自身质量分和广告位曝光权重的乘积),忽略了页面中同时展示的其它商品的影响,即外部性影响。近年来,基于深度学习的拍卖机制显著增强了对高维上下文特征的编码能力,但是现有方法仍受限于“先预估后分配”的设计范式。这种范式只能建模参竞广告集合内的外部性,无法捕捉最终分配结果的整页上下文信息(即排列外部性),因此难以收敛到全局最优解。本文系统分析了在排列外部性影响下的最优拍卖机制,在理论最优解的基础上,我们提出了首个使用生成式模型建模排列外部性的广告拍卖机制-生成式拍卖(Contextual Generative Auc-tion,CGA)。该框架通过自回归模型生成广告分配结果,并将激励兼容(Incentive Compatibility,IC)条件量化为最小化事后后悔(ex-post regret),实现端到端学习最优计费规则。大规模离线实验和在线 A/B 实验表明 CGA 能显著提升平台收入等关键指标,同时有效逼近理论最优拍卖的结果。基于该项工作整理的论文已被 KDD25 Research Track 接收,欢迎阅读交流。论文:Contextual Generative Auction with Permutation-level Externalities for Online Advertising作者:Ruitao Zhu,Yangsu Liu,Dagui Chen,Zhenjia Ma,Chufeng Shi,Zhen-zhe Zheng,Jie Zhang,Jian Xu,Bo Zheng,Fan Wu下载:https:/arxiv.org/abs/2412.1154429|决策智能2.引言在线广告系统的最优拍卖机制旨在最大化平台期望收入,同时满足经济学性质,包括激励兼容和个体理性(Individual Rationality,IR),并且需要满足系统在线部署的计算时延要求。IC 条件要求广告主真实报价最大化其自身效用,IR 条件要求广告主的效用非负。在典型的点击计费(Cost-per-Click,CPC)多坑广告场景下,广告拍卖机制的效果依赖于对广告点击率(CTR)的预估准度。广泛使用的 GSP 等机制使用精排阶段的单点预估 CTR,忽略了页面展示的其它商品的影响。而实际场景中,用户浏览的页面包括多个商品,用户在决策前通常会对不同商品进行比较,因此同时曝光的其它商品会对目标广告的 CTR 产生影响,称为“外部性”1。基于深度学习的拍卖机制,如 Deep Neural Auction(DNA 2)和 Score Weighted VCG(SW-VCG 3)等工作考虑使用深度网络刻画外部性影响以提升平台收入。然而无论是 DNA 采用的先预估广告 rankscore 再进行排序,还是 SW-VCG 使用的先预估单调性分数再求解二部图最大匹配,这些方法本质上都受到“先预估后分配”(allocation-after-prediction)范式的局限,预估时的上下文信息与分配后的最终上下文信息不一致,因此模型只能捕捉到粗粒度的广告候选集层面的外部性。另一方面,Neural Multi-slot Auction(NMA 4)等机制采用类似 VCG 拍卖的方式,遍历所有可能的排列结果以求解最优分配,但是极高的计算复杂度使其难以应用于在线场景。根据 Myerson 拍卖理论 5,拍卖机制的 IC 条件要求广告主获得的期望价值关于其出价满足非递减关系。大多数现有方法通过保证排序公式中出价的权重为正,使得广告主提高出价能获得相同或更前置的广告位。但是在排列外部性的影响下,即使广告候选集保持不变,将广告分配到的坑位前置反而可能导致其期望价值下降。图 1 给出了不同广告的分坑位 点击率*曝光率(表示 CPC 机制下的广告主期望价值)的实验数据,二者的关系并不满足单调性。因此,在排列外部性影响下,如何设计满足激励兼容条件的分配规则是一个非平凡的问题。30|决策智能图 1:广告分坑位 点击率*曝光率 本文旨在探索在排列外部性影响下,满足 IC 和 IR 约束的收入最大化广告拍卖机制的基本形式和高效实现。我们首先给出系统性的理论分析,证明最优解保留 Myerson 最优拍卖的基本形式,即分配规则和计费规则可以进行解耦。在理论最优解的基础上,我们引入经典的生成器-评估器(Generator-Evaluator)架构,构建感知排列外部性的生成式拍卖。最后,我们进行工业数据集上的离在线实验,在多维度指标上对比现有的拍卖机制研究工作。3.问题建模与理论分析在线广告场景可以抽象成一个典型的多坑拍卖问题。对于每条用户请求,由 个广告主(可以是手动调整出价或者自动出价代理)对 个广告位进行出价。广告主 根据自身的私有估值 提交出价,其中 服从价值分布。给定出价向量,用户特征向量 以及所有参竞广告的特征向量,平台的拍卖机制决定分配方案 以及广告主的计费,其中 表示广告 分配到广告位。广告拍卖中的外部性指的是竞胜广告主的效用会受到其它竞胜广告的影响 1。对于 CPC 多坑拍卖,外部性影响主要反映在广告 CTR 上。我们用 表示任意感知排列外部性的 CTR 模型,广告 的 CTR 可以表示为,可以简化表示为。在上述排列外部性的拍卖机制建模下,广告主 的期望效用为31|决策智能拍卖机制的激励兼容(IC)条件要求真实报价 最大化其期望效用,个体理性(IR)条件则要求广告主效用非负。广告拍卖机制目标为最大化平台期望收入,且满足 IC 和 IR 约束。求解收入最大化机制的直观想法是遵循经典的 Myerson 拍卖,我们将排列外部性引入 Myerson 拍卖,可以写成如下形式,其中 表示经过 iron 操作后的虚拟价值函数(确保函数单调性):分配规则:计费规则:需要注意的是,由于排列外部性的引入,在最终分配结果中其它广告的影响下,广告主提高出价不一定会提高最终的 CTR,因此 Myerson 理论中的“单调分配”性质在排列外部性影响下是否成立需要重新论证。我们理论证明了上述“单调分配”的性质仍然保持,具体表述为如下引理 1,完整证明请参考论文原文附录 A.1。引理 1:在排列外部性建模下,若拍卖机制的分配规则 最大化期望虚拟福利,则对于任意广告主 以及其它广告主的出价向量,关于出价 单调不减,或者称分配规则 为单调的。结合引理 1 和 Myerson 拍卖理论,可以证明上述引入排列外部性的 Myerson 拍卖为满足 IC、IR 约束且最大化平台期望收入的最优拍卖机制,完整推导过程请参考论文原文 2.2 节。直接求解上述最优分配结果需要枚举参竞广告的所有可能排列结果,再进行选优,枚举过程的计算复杂度为,线上场景下,,枚举过程的高复杂度无法满足线上推理实验要求。因此我们考虑将拍卖机制进行参数化,通过数据驱动的方式进行学习。为了在端到端学习的过程中满足 IC 约束并保持优化过程的可微性,类似多物品拍卖的研究工作 RegretNet 6,我们将机制偏离 IC 条件的程度量化为每个广告主的 ex-post regret,即广告主通过虚报出价 可以获得的最大效用增加值:32|决策智能给定价值分布 中的 条采样,则广告主 的经验 ex-post regret 为拍卖机制设计问题可以进一步改写成如下约束优化问题:4.生成式拍卖前文提到,现有的基于深度学习的拍卖机制受限于“先预估后分配”的设计范式,无法感知排列级外部性。我们提出的生成式拍卖引入了生成器-评估器的基本架构,模型整体架构如图 2 所示。生成器采用自回归模型,逐坑位感知已经决策完成的序列信息,生成广告序列。评估器捕捉广告序列中的商品相互影响,对精排阶段的单点 pCTR 结合序列上下文信息进行校准,在训练时为生成器提供奖励信号。在线推理时,仅部署生成器,以保证线上推理时延。此外,我们构建了 PaymentNet 模块,通过优化 ex-post regret 学习最优计费规则。图 2:感知排列外部性的生成式拍卖整体框架4.1 生成器根据理论推导的最优分配形式,生成器的目标为根据 个参竞广告,生成长度为 的广告序列,以最大化期望虚拟福利。我们构建的生成器包括两部分:满足排列33|决策智能不变性(permutation-invariant)的集合编码器,以及满足排列同变性(permuta-tion-equivariant)的自回归解码器。排列不变性指的是改变模型输入元素的排列顺序不会改变模型输出的结果,排列同变性指的是输入元素的排列顺序改变会引起输出结果的排列顺序产生相同的改变。前者保证输入模型的参竞广告顺序不影响分配结果,后者在自动机制设计 7-9 的研究工作中广泛应用,10 进一步论证了排列同变性可以提升机制的泛化性。集合编码器旨在通过建模参竞集合粒度的外部性来增强每个广告的表征。编码器首先通过 self-attention layer 编码广告 embedding 序列:再经过 sum-pooling 层和 MLP 层得到集合粒度上下文编码:解码器使用自回归模型建模长度为 的广告序列的联合概率分布:我们使用 GRU 单元建模参竞广告 在坑位 的条件概率:,第 个 GRU 单元迭代式地定义为:进一步,每个参竞广告 在坑位 的分配概率 建模为:其中 为可学习的参数,始终非负,确保更高的虚拟价值获得更大的分配概率,与最大化虚拟福利的目标保持一致。我们接下来对在坑位 之前分配的广告进行 mask 操作,并基于概率 进行采样以决策分配到当前坑位 的广告。重复 次采样过程,得到长度为 的广告序列即为最终分配结果。注意到生成器中的 MLP 和 GRU 单元作用在每个 state-ad 对,且编码器满足排列不变性,因此解码器满足排列同变性。34|决策智能4.2 评估器评估器的目标为预估分配结果 中每个广告的 CTR,进一步在训练过程中为生成器提供奖励信号。为了复用精排阶段从用户行为序列中提取的用户兴趣信息,避免冗余建模,评估器在精排单点 pCTR 的基础上,预估排列外部性校准向量,再将二者进行逐元素相乘得到最终预估的 CTR:。模型结构上同时引入了双向 LSTM 和 self-attention 模块提取序列上下文信息,最终将聚合用户 embedding 后的表征送入 MLP 层得到外部性校准向量:,具体实现细节请参考论文原文。4.3 计费模块注意到第 2 节中理论推导的最优计费规则包括积分项通过蒙特卡洛采样近似计算积分时,每次采样都需要调用生成器 和评估器,在实时推理时的计算开销过大。在前文中,我们将 IC 条件改写为每个广告主的经验 ex-post regret 等于 0,这使得我们可以通过数据驱动的方式构建计费模块学习上述最优计费规则。计费模块输入包括广告分配序列的表征,出价矩阵,以及期望价值向量,其中 表示生成器输出的广告分配概率,表示评估器输出的外部性校准后的 CTR。为了满足 IR 条件,计费模型通过 sigmoid 激活函数输出计费比,再与出价相乘得到最终计费。4.4 训练流程根据第 2 节中推导的结论,最优分配最大化虚拟福利,与计费规则无关,因此我们在训练时将基于生成器-评估器架构的分配求解模块与计费模块的优化进行解耦。我们首先使用列表级的广告点击数据训练评估器,交叉熵损失函数定义为:35|决策智能其中 表示用户是否点击列表 中的第 个广告,表示评估器的外部性校准后的预估 CTR。在评估器训练收敛后,我们冻结其参数,指导生成器训练。类似推荐系统重排工作 GRN 11 的损失函数设计思路,我们将奖励函数拆解为两部分。Self-Reward 直接刻画每个分配的广告带来的虚拟福利增量,即;External-Reward 刻画每个分配的广告带来的外部性影响,即类似 VCG 拍卖中的边际贡献的概念。二者相加即可得到分配广告 的整体奖励函数:其中 表示排除广告 后的广告序列。最后,我们使用 Policy Gradient 定义生成器的损失函数为:在生成器-评估器架构训练收敛后,我们冻结其参数,使用增广拉格朗日方法求解第 2 节最后定义的约束优化问题以优化计费模块,对违反 IC 条件施加惩罚项,增广拉格朗日函数定义为:计费模块的优化过程包括以下两个过程的迭代:(1)更新计费模块的参数(2)更新拉格朗日乘子 5.实验我们在淘宝展示广告场景的真实数据集上以及线上环境中评估生成式拍卖的有效性。对比的基线方法按照外部性建模的粒度可以分为三类:36|决策智能 无外部性建模:GSP 广义二价拍卖。集合粒度外部性建模:DNA 2;SW-VCG 3。排列级外部性建模:基于枚举实现的 VCG 拍卖;EdgeNet 12;理论推导的最优拍卖机制。5.1 离线实验离线实验使用的训练集和测试集分别包括不同日期随机采样的 50 万条和 10 万条拍卖日志,每次拍卖约有 30 个广告参竞。我们考虑广告主出价的条件分布分别服从均匀分布(uniform)和指数分布(exponential),在两种条件下分别进行评估。评估指标包括平台收入指标 RPM(Revenue Per Mille),CTR 以及评估机制 IC 条件的指标,衡量广告主通过非真实出价能够获得的效用相对增量。实验结果如表 1 所示。可以观察到随着外部性建模从不考虑外部性到集合粒度外部性,再到排列级外部性,三个指标均趋向更优。此外,注意到与基于枚举法实现的理论最优上界相比,生成式拍卖(CGA)达到了 95%的平台收入以及极低的 值,表明生成式拍卖可以高效近似理论最优机制。表 1:离线对比实验。指标后的百分比增减量表示基线方法相比 CGA 的相对值5.2 在线实验我们在展示广告场景进行了线上 A/B 实验,基线为线上使用的 DNA 2 机制。实验结果表明,生成式拍卖在推理时延仅增加 1.6%的情况下,平台收入指标 RPM 提高了 37|决策智能3.2%,CTR 提升 1.4%,成交 GMV 提升 6.4%,广告主 ROI 提升 3.5%。实验结果表明生成式拍卖带来的收入提升不是由于直接抬高广告主计费,而是通过感知排列级外部性优化广告分配,实现更精准的广告触达,反映于 CTR、GMV 以及广告主 ROI 的提升。6.总结本文从广告拍卖机制中的排列级外部性影响出发,打破“先预估后分配”的设计范式,针对在线广告场景提出了感知排列外部性的生成式拍卖。我们的理论结果表明,经典的 Myerson 拍卖在迁移到排列级外部性的形式后,仍然保持其最优性。基于这一结论,我们设计的生成式拍卖架构将分配和计费模块解耦。在具体实现上,我们构建了基于生成器-评估器的自回归生成式结构来优化分配,并将 IC 约束量化为最小化期望事后后悔来学习最优支付规则。工业级场景的离在线实验验证了生成式拍卖的有效性。值得注意的是,我们提出的生成式拍卖框架并不局限于特定的生成式模型。我们未来的研究工作将探索引入更加高效的生成式架构,并在拍卖机制中统一分配来自多渠道的商品,例如自然结果与广告的融合混排。参考文献1 Arpita Ghosh and Mohammad Mahdian.Externalities in online advertising.WWW08.2 Xiangyu Liu,Chuan Yu,Zhilin Zhang,Zhenzhe Zheng,Yu Rong,Hongtao Lv,Da Huo,Yiqing Wang,Dagui Chen,Jian Xu,Fan Wu,Guihai Chen,and Xiaoqiang Zhu.Neural auction:End-to-end learning of auction mechanisms for e-commerce advertising.KDD21.3 Ningyuan Li,Yunxuan Ma,Yang Zhao,Zhijian Duan,Yurong Chen,Zhilin Zhang,Jian Xu,Bo Zheng,and Xiaotie Deng.Learning-Based Ad Auction Design with Externalities:The Framework and A Matching-Based Approach.KDD23.4 Guogang Liao,Xuejian Li,Ze Wang,Fan Yang,Muzhi Guan,Bingqi Zhu,Yongkang Wang,Xingxing Wang,and Dong Wang.2022.NMA:Neural Multi-slot Auctions with Externalities for Online Advertising.arXiv preprint arXiv:2205.10018(2022).5 Roger B Myerson.1981.Optimal auction design.Mathematics of operations research 6,1(1981),5873.6 Paul Dtting,Zhe Feng,Harikrishna Narasimhan,David Parkes,and Sai Srivatsa Ravindranath.Optimal auctions through deep learning.ICML19.7 Zhijian Duan,Haoran Sun,Yurong Chen,and Xiaotie Deng.A scalable neural network for dsic affine maximizer auction design.NeurIPS24.8 Dmitry Ivanov,Iskander Safiulin,Igor Filippov,and Ksenia Balabaeva.Optimal-er 38|决策智能auctions through attention.NeurIPS22.9 Jad Rahme,Samy Jelassi,Joan Bruna,and S Matthew Weinberg.A permutation-equivariant neural network architecture for auction design.AAAI21.10 Tian Qin,Fengxiang He,Dingfeng Shi,Wenbing Huang,and Dacheng Tao.Benefits of permutation-equivariance in auction mechanisms.NeurIPS22.11 Yufei Feng,Binbin Hu,Yu Gong,Fei Sun,Qingwen Liu,and Wenwu Ou.2021.GRN:Generative Rerank Network for Context-wise Recommendation.arXiv preprint arXiv:2104.00860(2021).12 Guangyuan Shen,Shengjie Sun,Dehong Gao,Duanxiao Song,Libin Yang,Zhen Wang,Yongping Shi,and Wei Ning.EdgeNet:Encoder-decoder generative Network for Auction Design in E-commerce Online Advertising.CIKM23.39|决策智能强化学习在广告自动出价场景的大规模落地实践妙临、霁光、玺羽 导读:本文整理自 RL-China 演讲分享实录,欢迎阅读交流。1.前言在线广告对于大多数同学来说是一个既熟悉又陌生的技术领域。搜广推、搜推广等各种组合耳熟能详,但广告和搜索推荐有本质区别:广告解决的是“媒体-广告平台-广告主”等多方优化问题,其中媒体在保证用户体验的前提下实现商业化收入,广告主的诉求是通过出价尽可能优化营销目标,广告平台则在满足这两方需求的基础上促进广告生态的长期繁荣。广告智能决策技术在这之中起到了关键性的作用,如图 1 所示,它需要解决如下问题在内的一系列智能决策问题:1.为广告主设计并实现自动出价策略,提升广告投放效果;2.为媒体设计智能拍卖机制来保证广告生态系统的繁荣和健康。图 1:广告智能决策通过自动出价和拍卖机制等方式实现多方优化40|决策智能随着智能化营销产品和机器学习的发展,阿里妈妈将深度学习和强化学习等 AI 技术越来越多地应用到广告智能决策领域,如 RL-based Bidding(基于强化学习的出价)帮助广告主显著提升广告营销效果,Learning-based Auction Design(基于学习的拍卖机制设计)使得多方利益的统筹优化更加高效。我们追根溯源,结合技术浪潮发展的视角重新审视广告智能决策技术的演化过程,本文将以阿里妈妈广告智能决策技术的演进为例,分享我们工作和思考。也希望能以此来抛砖引玉,和大家一块探讨。2.持续突破的自动出价决策技术广告平台吸引广告主持续投放的核心在于给他们带来更大的投放价值,典型的例子就是自动化的出价产品一经推出便深受广告主的喜爱并持续的投入预算。在电商场景下,我们不断地探索流量的多元化价值,设计更能贴近营销本质的自动出价产品,广告主只需要简单的设置就能清晰的表达营销诉求。图 2:出价产品逐步的智能化&自动化,广告主只需要简单的设置即可清晰的表达出营销诉求极简产品背后则是强大的自动出价策略支撑,其基于海量数据自动学习好的广告投放模式,以提升给定流量价值下的优化能力。考虑到广告优化目标、预算和成本约束,自动出价可以统一表示为带约束的竞价优化问题。其中 为广告主的预算,为成本约束,该问题就是要对所有参竞的流量进行报价,以最大化竞得流量上的价值总和。如果已经提前知道要参竞流量集合的全部信41|决策智能息,包括能够触达的每条流量的价值 和成本 等,那么可以通过线性规划(LP)方法来求得最优解。然而在线广告环境的动态变化以及每天到访用户的随机性,竞争流量集合很难被准确的预测出来。因此常规方法并不完全适用,需要构建能够适应动态环境的自动出价算法。对竞价环境做一定的假设(比如拍卖机制为单坑下的 GSP,且流量竞得价格已知),通过拉格朗日变换构造最优出价公式,将原问题转化为最优出价参数的寻优问题9:对于每一条到来的流量按照此公式进行出价,其中 为在线流量竞价时可获得的流量信息,为要求解的参数。而参数并不能一成不变,需要根据环境的动态变化不断调整。参竞流量的分布会随时间发生变化,广告主也会根据自己的经营情况调整营销设置,前序的投放效果会影响到后续的投放策略。因此,出价参数的求解本质上是动态环境下的序列决策问题。2.1 主线:从跟随到引领,迈向更强的序列决策技术如何研发更先进的算法提升决策能力是自动出价策略发展的主线,我们参考了业界大量公开的正式文献,并结合阿里妈妈自身的技术发展,勾勒出自动出价策略的发展演进脉络。图 3:自动出价策略的演进主线:迈向更强的决策能力42|决策智能整体可以划分为 4 个阶段:第一代:经典控制类 把效果最大化的优化问题间接转化为预算消耗的控制问题。基于业务数据计算消耗曲线,控制预算尽可能按照设定的曲线来消耗。PID1及相关改进210是这一阶段常用的控制算法。当竞价流量价值分布稳定的情况下,这类算法能基本满足业务上线之初的效果优化。第二代:规划求解类 相比于第一代,规划求解类(LP)算法直接面向目标最大化优问题来进行求解。可基于前一天的参竞流量来预测当前未来流量集合,从而求解出价参数。自动出价问题根据当前已投放的数据变成新的子问题,因此可多次持续的用该方法进行求解,即 Online LP34。这类方法依赖对未来参竞流量的精准预估,因此在实际场景落地时需要在未来流量的质和量的预测上做较多的工作。第三代:强化学习类 现实环境中在线竞价环境是非常复杂且动态变化的,未来的流量集合也是难以精准预测的,要统筹整个预算周期投放才能最大化效果。作为典型的序列决策问题,第三阶段用强化学习类方法来优化自动出价策略。其迭代过程从早期的经典强化学习方法落地5689,到进一步基于 Offline RL 方法逼近在线真实环境的数据分布9,再到末期贴近问题本质基于 Online RL 方法实现和真实竞价环境的交互学习13。第四代:生成模型类 以 ChatGPT 为代表的生成式大模型以汹涌澎湃之势到来,在多个领域都表现出令人惊艳的效果。新的技术理念和技术范式可能会给自动出价算法带来革命性的升级。阿里妈妈技术团队提前布局,以智能营销决策大模型 AIGA(AI Generated Action)为核心重塑了广告智能营销的技术体系,并衍生出以AIGB(AI Generated Bidding)14为代表的自动出价策略。为了让大家有更好的理解,我们以阿里妈妈的实践为基础,重点讲述下强化学习在工业界的落地以及对生成式模型的探索。43|决策智能2.1.1 强化学习在自动出价场景的大规模应用实践跟随:不断学习、曲折摸索 作为典型的序列决策问题,使用强化学习(RL)是很容易想到的事情,但其在工业界的落地之路却是充满曲折和艰辛的。最初学术界8做了一些探索,在请求粒度进行建模,基于 Model-based RL 方法训练出价智能体(Agent),并在请求维度进行决策。如竞得该 PV,竞价系统返回该请求的价值,否则返回 0,同时转移到下一个状态。这种建模方法应用到工业界遇到了很多挑战,主要原因在于工业界参竞流量巨大,请求粒度的建模所需的存储空间巨大;转化信息的稀疏性以及延迟反馈等问题也给状态构造和 Reward 设计带来很大的挑战。为使得 RL 方法能够真正落地,需要解决这几个问题:MDP 是什么?由于用户到来的随机性,参竞的流量之间其实并不存在明显的马尔可夫转移特性,那么状态转移是什么呢?让我们再审视下出价公式,其包含两部分:流量价值和出价参数。其中流量价值来自于请求粒度,出价参数为对当前流量的出价激进程度,而激进程度是根据广告主当前的投放状态来决定的。一种可行的设计是将广告的投放信息按照时间段进行聚合组成状态,上一时刻的投放策略会影响到广告主的投放效果,并构成新一时刻的状态信息,因此按照时间段聚合的广告主投放信息存在马尔可夫转移特性。而且这种设计还可以把问题变成固定步长的出价参数决策,给实际场景中需要做的日志回流、Reward 收集、状态计算等提供了时间空间。典型的工作5678912 基本上都是采用了这样的设计理念。Reward 如何设计?Reward 设计是 RL 的灵魂。出价策略的 Reward 设计需要让策略学习如何对数亿计流量出价,以最大化竞得流量下的价值总和。如果 Reward只是价值总和的话,就容易使得策略盲目追求好流量,预算早早花光或者成本超限,因此还需要引导策略在约束下追求更有性价比的流量。另外,自动出价是终点反馈,即直到投放周期结束才能计算出完整的投放效果;且转化等信号不仅稀疏,还存在较长时间的回收延迟。因此我们需要精巧设计 Reward 让其能够指导每一次的决策动作。实践下来建立决策动作和最终结果的关系至关重要,比如9在模拟环境中保持当前的最优参数,并一直持续到终点,从而获取到最终的效果,以此来为决策动作设置较为精准的 Reward。另外,在实际业务中,为了能够帮助模型更好的收敛,往往也会把业务经验融入到 Reward 设计中。如何训练?强化学习本质是一个 Trail-and-Error 的算法,需要和环境进行交互44|决策智能收集到当前策略的反馈,并不断探索新的决策空间进一步更新迭代策略。但在工业界,由于广告主投放周期的设置,一个完整的交互过程在现实时间刻度上通常为一天。经典的 RL 算法要训练好一般要经历上万次的交互过程,这在现实系统中很难接受。在实践中,通常构造一个模拟竞价环境用于 RL 模型的训练,这样就摆脱现实时空的约束提升模型训练效率。当然在线竞价环境非常复杂,如何在训练效率和训练效果之间平衡是构造模拟环境中需要着重考虑的事情。这种训练模式,也一般称之为 Simulation RL-based Bidding(简称 SRLB),其流程如下图所示:图 4:Simulation RL-based Bidding(SRLB)训练模式基于 SRLB 训练模式,我们实现了强化学习类算法在工业界场景的大规模落地。根据我们的调研,在搜广推领域,RL 的大规模落地应用较为少见。创新:立足业务、推陈出新随着出价策略不断的升级迭代,“模拟环境和在线环境的差异”逐渐成为了效果进一步提升的约束。为了方便构造,模拟环境一般采用单坑 GSP 来进行分配和扣费且假设每条流量有固定的获胜价格(Winning Price)。但这种假设过于简单,尤其是当广告展现的样式越来越丰富,广告的坑位的个数和位置都在动态变化,且Learning-based 拍卖机制也越来约复杂,使得模拟环境和在线实际环境差异越来越大。基于 Simulation RL-based Bidding 模式训练的模型在线上应用过程中会因环境变化而偏离最优策略,导致线上效果受到损失。模拟环境也可以跟随线上环境不断升级,但这种方式成本较高难度也大。因此,我们期待能够找到一种不依赖模拟环45|决策智能境,能够对标在线真实环境学习的模式,以使得训练出来的 Bidding 模型能够感知到真实竞价环境从而提升出价效果。结合业务需求并参考了 RL 领域的发展,我们先后调研了模仿学习、Batch RL、Offline RL 等优化方案,并提出的如下的 Offline RL-based Bidding 迭代范式,期望能够以尽可能小的代价的逼近线上真实的样本分布。图 5:Offline RL-based Bidding 训练模式,与 SRLB 模式差异主要在训练数据来源和训练方式在这个范式下,直接基于线上决策过程的日志,拟合 reward 与出价动作之间的相关性,从而避免模拟样本产生的分布偏差。尽管使用真实决策样本训练模型更加合理,但在实践中往往容易产生策略坍塌现象。核心原因就是线上样本不能做到充分探索,对样本空间外的动作价值无法正确估计,在贝尔曼方程迭代下不断的高估。对于这一问题,我们可以假设一个动作所对应的数据密度越大,支撑越强,则预估越准确度越大,反之则越小。基于这一假设,参考 CQL21的思想,构建一种考虑数据支撑度的 RL 模型,利用数据密度对价值网络估值进行惩罚。这一方法可以显著改善动作高估问题,有效解决 OOD 问题导致的策略坍塌,从而使得 Offline RL-based 能够部署到线上并取得显著的效果提升。后续我们又对这个方法做了改进,借鉴了 IQL22(Implicit Q learning)中的 In-sample learning 思路,引入期望分位数回归,基于已有的数据集来估计价值网络,相比于 CQL,能提升模型训练和效果提升的稳定性。46|决策智能图 6:从 CQL 到 IQL,Offline RL-based Bidding 中训练算法的迭代总结下来,在这一阶段我们基于业务中遇到的实际问题,并充分借鉴业界思路,推陈出新。Offline RL-based Bidding 通过真实的决策数据训练出价策略,比基于模拟环境训练模式(SRLB)能够更好的逼近线上真实环境的数据分布。突破:破解难题、剑走偏锋让我们再重新审视 RL-based Bidding 迭代历程,该问题理想情况可以通过与线上真实环境进行交互并学习的方式求解,但广告投放系统交互成本较高,与线上环境交互所需要的漫长训练时间成本和在线上探索过程中可能需要遭受的效果损失成本,让我们在早期选择了 Simulation RL-based Bidding 范式,随后为解决这种范式下存在的环境不一致的问题,引入了 Offline RL-based Bidding 范式。图 7:重新审视 RL-based Bidding 发展脉络47|决策智能为了能够进一步突破效果优化的天花板,我们需要找到一种新的 Bidding 模型训练范式:能够不断的和线上进行交互探索新的决策空间且尽可能减少因探索带来的效果损失。还能够在融合了多种策略的样本中进行有效学习。即控制训练时间成本和效果损失成本下的 Online RL-based Bidding 迭代范式,如下图所示:图 8:Online RL-based Bidding 训练模式,与前两种模式的差别在于能够和环境进行直接交互学习13提出了可持续在线强化学习(SORL),与在线环境交互的方式训练自动出价策略,较好解决了环境不一致问题。SORL 框架包含探索和训练两部分算法,基于 Q函数的 Lipschitz 光滑特性设计了探索的安全域,并提出了一个安全高效的探索算法用于在线收集数据;另外提出了 V-CQL 算法用于利用收集到的数据进行离线训练,V-CQL 算法通过优化训练过程中 Q 函数的形态,减小不同随机种子下训练策略表现的方差,从而提高了训练的稳定性。48|决策智能图 9:SORL 的训练模式在这一阶段中,不断思考问题本质,提出可行方案从而使得和在线环境进行交互训练学习成为可能。2.1.2 引领生成式 Bidding 的新时代(AIGB)ChatGPT 为代表的生成式大模型以汹涌澎湃之势到来。一方面,新的用户交互模式会孕育新的商业机会,给自动出价的产品带来巨大改变;另一方面,新的技术理念和技术范式也会给自动出价策略带来革命性的升级。我们在思考生成式模型能够给自动出价策略带来什么?从技术原理上来看,RL 类方法基于时序差分学习决策动作好坏,在自动出价这种长序列决策场景下会有训练误差累积过多的问题。因此,我们提出了一种基于生成式模型构造的出价策略优化方案(AIGB-AI Generative Bidding)14。与强化学习的视角不同,如图 9 所示,AIGB 直接关联决策轨迹和回报信息,能够避免训练累积,更适合长序列决策场景。图 10:Generative Bidding 相比 RL-based Bidding 模式能够避免训练误差累积,更适合长序列决策场景49|决策智能从生成式模型的角度来看,我们可以将出价、优化目标和约束等具备相关性的指标视为一个联合概率分布,从而将出价问题转化为条件分布生成问题。图 10 直观地展示了生成式出价模型的流程:在训练阶段,模型将历史投放轨迹数据作为训练样本,以最大似然估计的方式拟合轨迹数据中的分布特征。这使得模型能够自动学习出价策略、状态间转移概率、优化目标和约束项之间的相关性。在线上推断阶段,生成式模型可以基于约束和优化目标,以符合分布规律的方式输出出价策略。图 11:AIGB 的训练和预测算法AIGB 基于当前的投放状态信息以及策略生成条件输出未来的投放策略,相比于以往的 RL 策略输出单步 action,AIGB 可以被理解为在规划的基础上进行决策,最大程度地避免分布偏移和策略退化问题,从而更适合长序列决策场景。这一优点有利于在实践中进一步减小出价间隔,提升策略的快速反馈能力。与此同时,基于规划的出价策略也具备更好的可解释性,能够帮助我们更好地进行离线策略评估,方便专家经验与模型深度融合。另外,我们也还在进一步探索,是否可以把竞价领域知识融入到大模型中并帮助出价决策。从动作判别式决策 到轨迹生成式决策,朝着生成式 Bidding 的新时代大踏步迈进!50|决策智能2.2 副线:百花齐放,更全面的出价决策技术图 12:发展副线:更全面的业务实际场景的特性优化除了更强的决策能力外,在实际场景中还会针对业务特点做更多的优化,这里介绍 4个典型的研究技术点:复杂的竞价环境下的最优出价策略出价形式化建模依赖对竞价环境的假设,不同的假设下推导出来的出价公式是不同的。以 MaxReturn 计划为例,出价形式为,其中 为一个粗粒度与请求无关的参数,在简单竞价环境下(GSP 单坑下)这种出价形式是理论最优的。而在实际工业界竞价环境是非常复杂的:多坑、带保留价的机制或其他复杂机制,当前的出价策略并非最优。学术界和工业界针对这一问题提出了不少方法,大概分为 2 类:1)对竞价环境做进一步的假设(比如多坑)推导出闭式解,并进行求解18;2)基于数据驱动的方法,在基础价格上结合当前流量的信息(如 Winning Price)等进行微调,比如 Bid Shading 类方法1719。多智能体联合出价在线广告本质上是一个多智能体竞价系统。通常情况下每一个自动出价智能体求解一个独立的优化问题,而将其他智能体出价的影响隐式地建模为环境的一部分。这种建模方式忽略了在线广告的动态博弈,即最终的拍卖结果取决于所有智能体的出价,且任一智能体的策略的改变会影响到其他所有智能体的策略。因此若不做协调,则所有51|决策智能智能体会处于一个无约束状态,进而降低系统的效率。典型的工作包括71112都是针对线上环境的多智能体问题进行求解,面对线上智能体个数众多(百万级),通过广告主进行聚类等方式,把问题规模降低到可求解的程度。Fairness不同行业的广告主在广告投放时面临的竞价环境也是不同的,当前广泛采用的统一出价策略可能使得不同广告主的投放效果存在较大的差异,尤其是对小广告主来说,训练效果会受到大广告主的影响,即“Fairness”问题。典型的工作包括16将传统的统一出价策略拓展为多个能够感知上下文的策略族,其中每个策略对应一类特定的广告主聚类。这个方法中首先设计了广告计划画像网络用于建模动态的广告投放环境。之后,通过聚类技术将差异化的广告主分为多个类并为每一类广告主设计一个特定的具有上下文感知能力的自动出价策略,从而实现为每个广告主匹配特定的个性化策略。多阶段协同出价为平衡行业在线广告的优化性能和响应时间,在线工业场景经常会采用两阶段级联架构。在这种架构下,自动出价策略不仅需要在精竞阶段(第二阶段)进行传统的竞拍,还必须在粗竞阶段(第一阶段)参与竞争才能进入精竞阶段。现有的工作主要集中在精竞阶段的拍卖设计和自动出价策略上,而对粗竞阶段的拍卖机制和自动出价策略研究还不够充分,这部分最主要的挑战在于粗竞阶段的广告量级会比精竞阶段多了近百倍,且自动出价依赖的流量价值预估(如 PCVR)比精竞阶段准度差,因此如何设计更大规模且能够应对不确定性预估值下的出价策略是这个方向主要研究的问题,而且还需要研究两阶段下的拍卖机制设计以引导自动出价正确报价。在这个方向上,我们依赖强大的工程基建能力上线了全链路自动出价策略,显著提升了广告主的投放效果;并设计了适用于两阶段的拍卖机制33。3.结语雄关漫道真如铁,而今迈步从头越。历经阿里妈妈技术同学们坚持不懈的努力,在自动出价决策技术上,从推动经典强化学习类算法在工业界大规模落地,到持续革新提出 Offline RL-based Bidding、Online RL-based Bidding 等适应工业界特点的新算法,再到提出 AIGB 迈入生成式 Bidding 的新时代。一路走来,我们持续推动业界广告决策智能技术的发展,并秉承开放共赢,把我们的工作以学术化沉淀的方式实现对学术界研究的反哺。希望大家多多交流,共赴星辰大海。52|召回/预估模型【CIKM24】展示广告预估技术最新突破:基于原生图文信息的多模态预估模型 珞家 一、摘要目前,搜索推荐及广告领域的预估模型主要基于大规模稀疏 ID 特征结合 MLP 构建。然而,ID 特征难以刻画 item 的内容语义信息,因此业界一直在探索如何引入原生多模态内容信息以提升模型性能。为此,需要思考几个关键问题:1.多模态信息在预估模型中带来效果提升的关键,以及如何设计预训练任务以获取多模态表征;2.在基于 ID 体系的预估模型中如何释放多模态表征的效果。本文将介绍阿里妈妈展示广告团队在预估模型与多模态结合方向上的最新突破。我们发现,多模态信息能否大幅提升效果的关键在于,其能否通过精准建模“目标商品”和“用户历史行为商品”之间的语义相似度,从而实现相较于 ID 特征更优的行为序列建模。为此,我们首先设计了语义感知的对比学习预训练 SCL 方法,让多模态编码器能够从多模态原始信息中抽取出其蕴含的电商业务语义信息。随后,我们提出了SimTier 和 MAKE 算法,利用多模态表征的语义判别能力进行行为序列建模。通过这些技术创新,我们取得了显著成果精排 CTR 模型的 GAUC 提升超过 1 个百分点,这是近几年来展示广告离线效果提升最大的迭代,在目前的高技术水位下显得尤为可贵。目前,多模态的应用也在粗排等其他模型中全面上线,均取得显著的线上收益。基于这一工作的研究论文已被 CIKM 2024 会议接收,欢迎阅读交流。论文:Enhancing Taobao Display Advertising with Multimodal Representations:Challenges,Approaches and Insights召回/预估模型53|召回/预估模型作者:Xiang-Rong Sheng*,Feifan Yang*,Litong Gong*,Biao Wang*,Zhang-ming Chan,Yujing Zhang,Yueyao Cheng,Yong-Nan Zhu,Tiezheng Ge,Han Zhu,Yuning Jiang,Jian Xu,Bo Zheng(*Equal contribution)链接(点击阅读原文):https:/arxiv.org/pdf/2407.19467二、背景目前,业界的预估模型普遍采用大规模稀疏 ID 特征结合多层感知机(MLP)作为核心架构。ID 特征的优势在于其高复杂度和强大拟合能力,在数据量较大的情况下往往能够取得优异的效果 1。然而,ID 特征天然难以刻画商品的内容语义信息。因此,业界一直在探索将多模态信息引入预估模型的解决方案 2-这些方案通常采取两阶段的建模框架,第一阶段进行多模态表征的预训练,第二阶段将这些表征引入预估模型。尽管过去的研究在一定程度上提高了模型在长尾样本上的预估准度,但尚缺乏能够大幅提升整体预测效果的方案。在本文中,我们希望探明预估模型与多模态的有效结合方式,为模型迭代提供 ID 体系之外的第二增长曲线。为此,我们需要回顾当前业界预估模型中哪些模块起到了最重要的作用,并思考如何利用多模态数据来改进这些模块。预估模型的核心模块:行为序列建模模块。在预估模型中,一个(最为)重要的模块是行为序列建模模块,其核心在于通过建模“目标商品”和“用户历史行为商品”之间的相关性,以实现精准个性化推荐(图 1 以 DIN 为例进行了介绍);ID 特征做行为序列建模的局限:难以建模商品之间的语义相似度。由于 ID 特征稀疏性和无泛化性的特点,其难以有效建模商品之间语义相似度,例如商品pairwise 的视觉相似度和文本语义相似度。54|召回/预估模型图 1.DIN 利用 ID 特征端到端建模“Target 商品”和“用户历史行为商品”之间基于 ID 协同过滤信息的 pairwise 相似度(用作 attention score),但由于 ID 的稀疏性和无泛化性特点,其难以建模商品之间的视觉及文本语义相似度针对 ID 特征的不足,我们思考是否可以利用多模态信息来实现更好的行为序列建模。直观上,多模态信息可以更好地建模“目标商品”和“用户历史行为商品”之间的视觉和文本语义相似度。例如,商品的图片可以帮助模型判定目标商品与历史行为商品之间的视觉相似度,从而辅助预测。明确了多模态信息的利用方式后,我们设计了基于原生图文信息的多模态预估模型建模框架(如图 2 所示),核心解决了以下两个问题:如何设计预训练任务,使多模态表征具备度量商品之间语义相似度的能力;如何有效应用多模态表征的语义相似度度量能力提升序列建模能力。图 2.基于原生图文信息的多模态预估模型建模框架针对多模态表征预训练,我们提出了语义感知的对比学习方法 SCL(Seman-tic-aware Contrastive Learning)。SCL 的设计 motivation 来源于我们的实验55|召回/预估模型发现-我们发现多模态预训练(表征质量)的关键不在于选择哪个基座模型,而在于如何构造预训练数据,更具体地,如何定义语义相似/不相似的商品对,来使得表征可以刻画电商场景下不同商品之前的语义相似度。更具体地,我们发现电商场景下用户的搜索-购买行为链可以很好地定义多模态之间的语义相似性。以图像为例,如果用户搜索了一张枕头的图片,随后购买了一个枕头,这一连串的动作表明查询的图片和购买商品的图片在语义上足够相似,从而满足了用户的购买意图。因此我们使用用户的搜索-购买行为链定义语义相似 pair,通过对比学习让多模态 encoder 提取多模态中蕴含的电商业务语义信息。在训练文本编码器时,我们将用户搜索查询的文本与他们最终购买的商品标题配对,作为语义相似对。同样地,对于图像模态,我们将用户搜索的图片与后续购买商品的图像进行配对。这种配对策略自然地捕捉了在电商场景中与用户最相关的语义相似信息(反映了影响他们购买决策的关键因素)。在获得蕴含电商业务语义的多模态表征后,接下来的问题是如何将这些多模态表征引入基于 ID 体系的预估模型。我们对不同的应用方式进行了实验,并有两个有趣的观察:1.简化多模态表征的使用方式通常可以提升多模态表征的效果;2.由于泛化能力的不同,基于 ID 的模型和基于多模态的模型在训练时的epoch 数上存在差异。针对以上的这两个观察,我们设计了两个多模态表征应用算法。首先,我们提出了SimTier 方法,通过构造行为序列与 target 商品的同款相似度分布,简化模型对语义相似度分布的建模难度。此外,为了解决多模态表征和 ID 特征之间在训练 epoch上存在的差异,我们引入了多模态知识提取(MAKE)模块。MAKE 模块将与多模态表征相关参数的优化与基于 ID 模型的参数优化分离开来,通过多个 epoch 的训练,使多模态表征相关参数能够充分学习。接下来的章节我们会对表征预训练和表征应用方式做详细介绍,同时也会介绍实验分析和线上系统架构。三、SCL:语义感知的对比学习预训练为了得到能够度量语义相似度的表征,我们提出了语义感知的对比学习方法 SCL,SCL 的核心想法是在表征空间拉近语义相似样本对的距离,推远语义不相似样本对56|召回/预估模型的距离。为实现这一目标,我们需要定义电商场景下的语义相似(正样本)和不相似(负样本)的样本对。正负样本的定义直接决定了表征质量-以图 3 为例,这里展示了三个几乎相同的枕头,它们之间存在着细微的差异(图案和外观上有微小不同)。如果语义相似/不相似样本对的定义不够准确,那么表征将无法捕捉这些细微差别,进而影响后续的序列建模应用。实际上,我们在实验中发现这些微小差异通常无法被关注整图语义的预训练表征刻画,这也是之前业界使用通用预训练表征收效甚微的原因。图 3.图 A 与图 B 在图案上相对图 C 更一致那么,如何构造这种语义相似的样本对(pair)呢?如第二章所述,我们发现在电商场景中用户的搜索-购买行为链可以用来定义语义相似商品 pair:以图像为例:如果用户搜索了一张枕头的图片,随后购买了一个枕头,这一连串的动作表明查询的图片和购买商品的图片在语义上足够相似,从而满足了用户的购买意图。以文本为例:如果用户搜索“毛绒绒的玩具”,随后购买了一只标题为“毛绒玩偶”,这表明搜索的文本和购买商品的文本在语义上足够相似,从而满足了用户的购买意图。因此,在训练文本 encoder 时,我们将用户搜索查询的文本与他们最终购买的商品标题配对,作为语义相似对。同样地,对于图像模态,我们将用户搜索的图片与后续购买商品的图像进行配对。我们实验中发现使用搜索-购买行为链作为正样本效果最佳,而其他一些常见的商品相似度定义指标,例如 swing i2i 等,并不适合作为多模态预训练的 label。原因在于诸如 swing i2i 等指标并不是基于商品 pair 的多模态语义相似性定义,如果用这种 pair 进行训练,会导致多模态 encoder 的学习偏离预期(退化为 ID 表征),学习不到商品的多模态语义信息。因此定义语义相似的商品对57|召回/预估模型时,需要保证这一相似性能够归因于图像、文本的多模态语义相似性,而不是其他无关因素。构造完正样本后,接下来的问题是如何构造负样本。一种直观的方式是使用同 mini-batch 下的样本作为负样本,在实践中,我们发现对于负样本,扩大负样本的数量可以进一步提升效果。为了在训练过程中增加可用的负样本数量,我们借鉴 MoCo 的动量更新技术,从更大的 memory bank 中采样出更多的负样本。最终的样本组成如下表所示:模态正样本(语义相似)pair负样本图像MoCo memory bank文本MoCo memory bank构造完正/负样本 pair 后,我们采用 InfoNCE 作为损失函数进行对比学习。具体来说,给定一个多模态 encoder 提取的搜索 query 表征 及其对应的正样本表征,以及 memory bank 中的一组负样本表征,InfoNCE 利用点积来度量相似性(所有表征均进行了 L2 归一化)。如公式 1 所示,当 query 与其指定的正样本 的相似度较高,并且与 memory bank 中的所有其他样本的相似度较低时,损失值将降低。(1)在公式(1)中,是一个可学习的温度参数。在实践中,我们将 memory bank 的大小 设置为 196,800。通过 SCL 预训练获得的表征能够为下游预估模型提供区分商品语义相似度的能力。除了上述的预训练过程,我们在实验中还发现显示增加难负样本对最终的表征质量也有一定帮助。例如对于图像,我们会额外构造难负样本,例如用户被商品图 A trigger(类 query)后的点击商品 B 作为难负样本(具有一定的视觉相似性但又不完全视觉相似的样本 pair),并取得了进一步的效果提升。58|召回/预估模型四、SimTier&Make:多模态表征用于序列建模4.1 观察和思考在获得蕴含电商业务语义的多模态表征后,接下来的问题是如何利用多模态表征的语义判别能力进行序列建模。我们首先回顾当前业界主流的多模态表征应用思路,主要可以分为:(a)聚类(b)相似度(c)原始表征 几种方式:聚类:将多模态 embedding 聚类为 ID,并应用 Target Attention 等序列建模方法;相似度:计算 target item 与行为 item 的相似度,将其作为序列行为的sideinfo 并应用 pooling 等建模方法;原始表征:直接引入原始 embedding,采用和 ID embedding 完全一样的序列建模方式,进行 target attention 等计算。我们对不同的应用方式进行了实验,并有两个有趣的观察:1.观察 1:简化多模态表征的使用方式通常可以提升多模态表征的效果。我们发现,直接将多模态原始表征采用和 ID embedding 一样的复杂应用方式,往往不能带来最佳的效果。这是因为与多模态表征相关的参数(例如与多模态表征连接的 MLP 的参数),在与 ID embedding 的联合训练过程中无法充分学习。相反,那些简化多模态表征使用的策略,例如将它们转换为聚类 ID和相似度的方式 3,4,往往可以提供相对更好的效果。2.观察 2:由于泛化能力的不同,基于 ID 的模型和基于多模态的模型对于训练所需 epoch 数存在差异。业界基于 ID 的模型通常只训练一个 epoch,以避免过拟合 1。相反,我们发现完全基于多模态表征(无 ID 特征)的模型由于其良好的泛化性,可以进行多个 epoch 的训练,并且随着训练 epoch 数的增加,其性能显著提升(详见图 4)。59|召回/预估模型图 4.多模态预估模型(只以多模态表征为输入,无 ID 特征)训练多个 epoch 后测试 GAUC 持续上涨,而 ID 预估模型在训练的第二个 epoch 测试 GAUC 会有急剧下滑(One-Epoch 现象)针对以上的这两个观察,我们设计了两个多模态表征应用算法 SimTier 及 MAKE,将分别在 4.2 和 4.3 中进行介绍。图 5.本文提出的预估模型应用多模态表征方法:SImTier(a)及 MAKE(b)4.2 SimTier:构造语义相似度分布4.1 章的观察 1 启发了我们要简化多模态表征的使用方式。为此,我们提出了SimTier 方法,通过构造 target 商品与行为序列的语义相似度分布,简化模型序列建模的难度。如图 6(a)所示,SimTier 首先计算 Target 商品与用户历史行为商品的多模态相似度 (L 为序列长度),在得到相似度分数之后,我们的想法是将相似度分数离散化后分档,并统计每个档位行为个数,以此来表示 target 商品与历史行为商品的相似度分布。具体地,我们先将60|召回/预估模型相似度的值域-1.0,1.0 平均划分为 N 个层级。在每个层级中,我们计算其对应范围内的相似度分数的数量。由此,我们将 L 个相似度分数转换为了得到一个 N 维向量,每个维度代表该对应层级中的相似度分数的数量。通过这样方式,SimTier 有效地将一组高维的多模态表征转换为一个低维(N 维)向量,该向量刻画了 Target商品与用户历史行为商品之间的相似度分布。SimTier 得到的 N 维向量会与其他ID embedding 拼接,并输入到随后的 MLP 中。图 6 给出了 SimTier 向量计算的伪代码。4.3 MAKE:解耦多模态表征和 ID 特征的优化过程为了解决 4.1 章观察 2 中多模态表征和 ID 特征之间在训练 epoch 上存在的差异,我们引入了多模态知识提取(MAKE)模块。MAKE 模块将与多模态表征相关参数的优化与其他参数优化分离开来,通过多个 epoch 的训练,使多模态表征相关参数能够更有效地学习。如图 7(a)所示,MAKE 模块包括两个步骤:1)将多模态相关参数通过多个 epoch 训练充分 2)将预训练充分的多模态知识引入下游 CTR 等任务。多个 epoch 训练多模态相关参数MAKE 模块的目标是通过多轮训练预训练多模态表征相关的参数,以确保它们的收敛。实践中,我们采用点击率预估任务作为多模态参数的“预训练”任务(注意到这里的预训练不同于表征预训练,是预训练多模态预估模型,其只以 Target 和序列侧多模态表征、为输入)。如图 7(a)所示,我们首先构造一个基于 DIN 的用户行为建模模块,该模块只使用多模态特征为输入,得到输出 :61|召回/预估模型然后,我们将 输入到一个四层的 MLP()中,得到 logit 及预估点击率,通过多轮训练使其模型参数训练收敛(表征 fix 不更新)。将预训练充分的多模态知识引入下游 CTR 等任务在获取到训练充分的多模态预估模型后,接下来的步骤是将其引入到下游推荐任务中。在实践中,我们将、的中间层输出、logits 拼接,送到预估模型中联合训练。通过 MAKE 模块的多轮训练,我们有效解决了 ID 特征和多模态表征所需训练 epoch 的差异,最终带来了更好的预估效果。我们还对 MAKE 进行了消融实验,来验证第一阶段 MAKE 多 epoch 预训练对下游预估模型的正向作用。如图 7(b)所示,我们将预训练不同 epoch 后的 MAKE 模块分别与预估模型结合。可以观察到预估模型效果随着 MAKE 预训练 epoch 数量的增多而变好(0 epoch 意味着 MAKE 没有进行预训练,而是直接与预估模型端到端训练)。这说明第一阶段的预训练起到非常关键的作用,这一阶段为多模态相关的模型参数提供更好的初始化,使得 ID 和多模态表征联合训练时效果更优。五、实验分析在本节中,我们以图像表征在点击率(CTR)预估模型的应用为实验 setting,在此基础上进行实验分析。5.1 预训练任务对比我们将 SCL 与其他一系列广泛应用的预训练方法进行了对比。CLIP-O:基于通用数据集预训练的 CLIP 模型;62|召回/预估模型 CLIP-E:在电商场景中基于 CLIP-O 模型进行微调的版本,使用对齐的商品描述和商品图片;SCL:本文提出的语义感知的对比学习方法。对于预训练方法的评估,我们主要采用准确率 Acc(多模态检索匹配语义相似商品能力)及正负差异性指标(衡量测试样本与正负样本之间距离的差距)。具体来说,AccN 指标量化了表征识别语义相似商品对的能力。但由于准确率只是评估了正负样本的相对距离大小,而模型使用时会使用相似度的绝对值,因此我们也会比较正负差异性指标,评估正样本 pair 与负样本 pair 之间距离差距。具体来说,正负差异性指标计算逻辑是检索 top1 相似度与检索 top10 相似度的差,直观上正负差异性指标越大,表征区分正负样本 pair 的能力越强。预训练指标与预估模型 GAUC 的关系详见论文 6.2。图 8.不同预训练方法的对比各个预训练方法的效果对比详见图 8。从中我们可以得到两个结论。首先,SCL 预训练方法优于其他不考虑语义相似性的方法,这显示了语义感知预训练的必要性。其次,Momentum Contrast(MoCo)和 Triplet loss(引入 hard negative)等负样本增强技术可以进一步提升多模态表征的质量,这说明负样本的选择对表征质量有很大影响。5.2 预估模型对比我们将 SimTier 和 MAKE 与其他方法进行了对比,包括 基于 ID 的生产基线模型(ID-based model);原始表征应用(vector)方法,即直接引入原始 embedding,进行 target attention 等计算;63|召回/预估模型 相似度方法(SimScore):SimScore 方法可以看作是 Vector 方法的简化版本。它将每个历史行为与 Target 的相似度作为辅助信息引入模型。图 9.不同多模态应用方法的对比实验结果如图 9 所示,从中我们可以得到两个结论,首先 SimTier 和 MAKE 显著优于其他方法。其次,SimTier 和 MAKE 叠加后可以进一步提升预估效果,相比于基于 ID 的模型,GAUC 提升 1.25%,AUC 提升 0.75%。此外我们也验证了多模态表征对于长尾商品的帮助,更详尽的实验分析见论文 6.3。六、在线部署和效果为了最大化多模态表征的效果,我们需要保障多模态表征在用户行为序列侧和 target商品侧的特征覆盖率。这要求我们构建高效的实时表征产出能力,使得新建商品/广告能够迅速请求多模态 encoder 生成表征,供模型训练和在线预测使用。为此,我们也对系统架构进行了升级,如图 10 所示,在接收到上游触发源(新商品/新广告)的消息后,我们会请求多模态 encoder 模型,实时推理得到商品主图/广告创意embedding,并写入多模态索引表。下游 ODL 训练任务和在线预估引擎可以从索引中查询表征进行应用。通过表征实时推理能力的建设,新商品/新广告从创建到对应表征可以被下游应用的时延降低至秒级,多模态特征覆盖率提升至 99%以上-这不仅提升了多模态表征的效果,还大大缓解了新广告的冷启动问题。64|召回/预估模型图 10.在线系统架构自 2023 年中期以来,原生图像、文本表征已经在阿里妈妈展示广告系统中的粗排、精排和融合模型中全量上线,带来了显著的业务收益。例如,在精排 CTR 预估模型中引入图像表征取得大盘 CTR 3.5%,RPM 1.5%,ROI 2.9%的提升。特别地,对于新广告(创建时间在最近 24 小时内)提升更加显著,CTR 6.9%,RPM 3.7%,ROI 7.7%,这也验证了多模态信息在缓解冷启动问题上的效果。七、总结和展望多模态内容信息能补充 ID 特征难以刻画的语义信息,因此一直吸引着业界的广泛关注。在本文中,我们通过设计语义感知的预训练 SCL 方法,并结合创新的多模态应用算法 SimTier 及 MAKE,构建了基于原生图文信息的多模态预估模型。在取得显著的业务效果的同时,也突破传统预估模型对 ID 特征过度依赖的问题。对于预估模型 X 多模态方向,未来还有诸多值得继续探索的方向,包括但不限于1.如何利用多模态表征全面革新传统序列建模技术,例如多模态结合长序列建模 5;2.如何将多模态表征与大模型世界知识进行结合,突破用户行为反馈数据的闭环;3.如何将多模态与生成式推荐结合,实现预估模型的 scaling law。未来我们也会在这些方向进行持续探索。References1 Zhao-Yu Zhang,Xiang-Rong Sheng,Yujing Zhang,Biye Jiang,Shuguang Han,Hongbo Deng,and Bo Zheng.Towards Understanding the Overfitting Phenomenon of Deep Click-Through Rate Models.In CIKM 2022.65|召回/预估模型2 Tiezheng Ge,Liqin Zhao,Guorui Zhou,Keyu Chen,Shuying Liu,Huiming Yi,Zelin Hu,Bochao Liu,Peng Sun,Haoyu Liu,Pengtao Yi,Sui Huang,Zhiqiang Zhang,Xiaoqiang Zhu,Yu Zhang,and Kun Gai.Image Matters:Visually Modeling User Behaviors Using Advanced Model Server.In CIKM 2018.3 Jia-Qi Yang,Chenglei Dai,Dan Ou,Ju Huang,De-Chuan Zhan,Qingwen Liu,Xiaoyi Zeng,and Yang Yang.COURIER:Contrastive User Intention Reconstruction for Large-Scale Pre-Train of Image Features.CoRR abs/2306.05001(2023).4 Anima Singh,Trung Vu,Raghunandan H.Keshavan,Nikhil Mehta,Xinyang Yi,Lichan Hong,Lukasz Heldt,Li Wei,Ed H.Chi,and Maheswaran Sathiamoorthy.2023.Better Generalization with Semantic IDs:A case study in Ranking for Recommendations.CoRR abs/2306.08121(2023).5 Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction.Qi Pi,Guorui Zhou,Yujing Zhang,Zhe Wang,Lejian Ren,Ying Fan,Xiaoqiang Zhu,Kun Gai.In CIKM 2020.66|召回/预估模型展示广告多模态召回模型:混合模态专家模型 俊广、卓立、凌潼、青萤1.背景随着在搜索、推荐、广告技术上多年的迭代积累,业界逐步形成了召回(匹配)、粗排、精排这一多阶段的系统架构。其中,召回作为链路的最前端,决定了业务效果的天花板。召回阶段的主要目的是从全量广告库中高效筛选高质量 top-k 集合给后链路进一步打分&排序。近年来,随着机器学习,尤其是深度学习技术的发展,学术界及工业界已经全面进入到了 model-based 召回算法的研究与应用阶段。其中阿里妈妈代表性的工作有:TDM 系列算法 1-3、二向箔索引算法4。在 model-based 的召回模型中,主要基于离散 ID 来描述广告和用户,这种方式直接针对最终目标进行优化,具有很高的优化效率,也非常适合个性化推荐的需求。但是,只使用离散 ID 模态进行个性化推荐存在以下几方面的问题:信息不全:真正给用户展现的是商品创意、标题等图、文、视频模态信息,而非离散 ID。泛化性不强:ID 类特征无泛化性,因此完全基于离散 ID 特征的推荐系统在长尾商品、冷启广告等低频 ID 上存在预估不准的问题。与 ID 模态相反,图像、文本等内容内容模态泛化性强,对新广告友好,更接近用户感知,但是内容模态的个性化能力差,不容易针对广告召回的目标进行优化。例如在淘宝上可能存在多个商家使用相同的图片,但是这些店铺的信誉度有好有差,广告主的出价有高有低,内容模态都无法将其有效区分开。离散 ID 模态和内容模态在分布、形态、优势上均存在明显的差异,在本文中我们将探索在展示广告的召回模型中如何将 ID 模态和内容模态进行融合,并提出了混合模态专家模型的设计。2.模型召回的形式化目标及检索方法介绍图文内容模态主要反映了用户的兴趣偏好,因此我们这里重点介绍在以用户兴趣作为目标的召回模型中引入多模态的方法。用户兴趣召回模型是展示广告召回的主力通道之一,一方面它保障了召回的结果满足用户的兴趣和需求,另一方面避免系统陷入数67|召回/预估模型据循环,保障系统的长期健康。在用户兴趣建模中,为用户 从全库候选集 挑选出商品 的概率为:其中 表示用户 对商品 的兴趣分,对应的优化目标为:其中 表示用户在全域中的兴趣行为(点击为主,也包括购买、收藏、加购)。推理时的目标是从候选集 中找到用户点击概率最高的一个子集:为了降低在线 serving 时的推理时间,我们采用了二向箔检索框架3来减少模型打分量。如下图所示,在推理时,首先会对 Layer=2 层的所有商品 计算兴趣分,从中挑选出兴趣分较高的商品,然后在 HNSW 层次化图结构进行扩展,得到 Layer=1 层的候选集,之后继续对扩展出的商品候选 计算兴趣分,这个过程迭代进行,直至抵达 Layer=0 层。通过二向箔检索,我们可以将千万级别的候选库打分量降低至万级别,同时检索精度依然接近 90%。二向箔检索框架使得我们可以用相对复杂的模型结构来建模用户 对商品 的兴趣分,这也是我们后面引入混合模态专家召回模型的重要基础。68|召回/预估模型二向箔检索中的 HNSW 层次化图结构3.混合模型专家模型本节将介绍我们在用户兴趣建模中如何引入多种模态的信息,来提高用户兴趣的建模能力。多模态召回的主要目标是通过引入多种模态的表征,使得模型 更好地拟合或反映真实的价值度量函数。这个目标可以进一步分解为三个关键问题:模态选择:对于召回任务,需要明确选择哪些模态来描述广告或用户。哪些模态最适合用于召回的任务?模态表征优化:一旦确定了使用的模态,接下来的问题是如何在给定模态 后优化其表征。这涉及到模态表征的训练和优化策略。模态融合:在获得不同模态的表征 后,需要解决如何融合这些模态以训练最终的召回模型。这一步是确保不同模态信息有效协同工作的关键。3.1 模态选择在个性化推荐系统中,使用最为广泛的模态是离散的 ID 模态,例如我们会使用性别、年龄、地理位置等 ID 特征表述用户,使用商品、店铺、类目等 ID 特征描述商品。商品侧天然地存在一些其他模态的信息,例如商品的文本和图像,但是用户侧并不存在类似的文本或者图像。幸运的是,在电商场景下往往存在丰富的用户行为序列,因此69|召回/预估模型我们可以将用户行为过的商品的文本或者图像序列作为用户侧的内容模态特征。在实践中,我们发现图像单一模态更适合排序任务,而图文融合模态则更适合召回任务。这是因为召回需要从全库商品中进行筛选,全库商品中存在大量的负样本(无关样本),而文本这种粗粒度的特征对这些负样本的判别性更强。在排序任务中,候选集往往已经是相似的商品,因此图像这种细粒度的特征的判别性更强。下图中提供了图像单一模态的一些 badcase,可以看到图像模态的表征确实可以检索出视觉上较为相关的广告,然而却忽视了实际的语义(例如艺术体操鞋检索出的是婴儿地板鞋和老年人手套,清洁剂检索出的是苏籽油、清凉油和食用油,游戏机检索出的是刻录机、打印机和遥控器)。与此相比,图文融合模态能够更好地弥补这一缺陷,找到的是同一类目下外观相似的商品。70|召回/预估模型3.2 模态表征优化图像和文本模态的表征往往需要使用更深的模型结构,优化时需要采样更多的负样本,同时训练完成之后对于参数更新的需求较低;而 ID 模态的表征需要的网络层数更浅,但是需要根据回流的数据实时更新模型参数。考虑到这两种表征的差异,我们采用了分离的训练方式:首先使用对比学习获得商品的图文预训练表征;然后将这些已经训练完毕不再更新的商品图文表征引入到原始的召回模型中,使用标准的Sample Softmax Loss 对召回模型中的 ID 表征进行优化。接下来我们简要介绍图文内容模态的表征预训练方法。我们使用阿里电商行为数据构建了图文的正样本对,对图像和文本分别用 ViT6 和BERT7进行编码后,输入融合编码器得到融合特征,在融合特征上使用了对比学习8进行训练。同时,我们采用了跨 batch 的负样本采样和在线难样本挖掘策略,力求增加训练过程中的负样本的难度,提升商品的同款率和相关性指标。整个训练的模型架构如下图所示:71|召回/预估模型3.3 模态融合3.3.1 特征融合离散 ID 模态和图文模态的表征空间存在较大差异,直接在召回模型中加入图文表征适配困难。而图文模态的余弦空间(用户行为和目标广告的余弦)和模型目标更加接近,且更容易适配。因此我们将用户侧行为序列图文特征和广告侧图文特征逐一计算余弦值,然后对余弦序列进行直方图统计后再作为召回模型的特征。这种方式减少了内容模态和 ID 模态在特征空间上的差异,降低了特征融合的困难。直接将其用于兴趣召回模型,点击 recall 1.6pt,长尾点击 recall 2.2pt(recall:用户点击正样本被模型召回为 top-1000 的比例)。然而特征融合依然存在着一些问题:难以分析和监控不同模态的作用。神经网络是一个相对黑盒的模型,在项目开发初期中,当测试指标不变时,我们很难验证是某种模态本身没用,还是因为在特征融合中被其他模态的作用给压制了。在项目上线后,我们也难以监控随着模型不断地训练,每个模态是否依然正常发挥着作用。没有显式建模模态自适应性。一个理想的特征融合模型应该能够自适应地结合 ID 模态和内容模态特征。例如,对于高热商品,应该更多地关注 ID 模态特征,而对于长尾冷启商品,应该更多地关注内容模态特征。然而特征融合的范式下,难以直接验证模型能否学习到这种自适应性。3.3.2 输出融合为了更好地分析理解 ID 模态和内容模态在用户兴趣建模中的作用,我们借鉴了集成72|召回/预估模型学习的思想,尝试在输出层面进行模态的融合。具体而言,模型中包括纯 ID 模态专家输出的兴趣分 和纯内容模态专家输出的兴趣分,其中 和 分别表示用户和商品。最终融合的兴趣分是:其中 和 是可学习的参数,,以及 均使用全部数据进行训练,它们的区别来自于假设空间的差异。在相同的兴趣数据训练集上进行多任务优化后,纯 ID 模态专家、纯内容模态专家、输出融合模型的训练准确率依次为79.3%,48.3%,79.5%,可以看出纯 ID 模态专家拟合训练集的能力远高于纯内容模态专家。纯 ID 模态专家的权重,纯内容模态专家的权重。说明输出融合模型最终主要依赖 ID 模态,但是内容模态确实也对最终的结果产生了影响。在测试集上,输出融合模型相比于特征融合模型,在点击 recall 上 0.5pt,在长尾点击 recall 上 3.7pt,长尾广告的涨幅更加明显。说明直接在输出上进行模态融合更能发挥内容模态泛化性强的优势,反过来其实说明了特征层面的模态融合可能并没有充分挖掘内容模态的优势。3.3.3 条件输出融合进一步地,我们希望能显式地建模输出融合模型在不同热度商品上的模态自适应性。长尾冷启与高热商品最显著的差别是它们的淘内点击量,因此我们将其作为融合权重的条件输入,最终融合的兴趣分是:其中 是对点击量进行了取 log 然后离散化分桶处理后的结果。下图给出了训练得到门控权重 和 之间的关系曲线,可以看出:对于长尾冷启商品,也就是 减小时,内容模态专家的门控权重 增大,ID 模态专家的门控权重 减小,因此模型逐渐增加对内容模态的关注。对于高热商品,也就是 增大时,ID 模态专家的门控权重 增大,因此73|召回/预估模型模型的输出更加依赖 ID 模态。门控权重和详情页点击量的关系曲线注意到在淘内点击量接近于 0 的时候,ID 模态专家相比于内容模态专家依然占据主导地位,原因是 ID 模态中不仅包括 item_id 等非常个性化的特征,也包括类category_id、shop_id 等相对更加泛化的特征,因此在点击量接近于 0 的商品上的预估依然具有意义。输出层面的条件融合模型,显式建模了不同热度商品上的模态自适应性,相比于输出融合模型,在点击 recall 上 1.9pt,在长尾点击 recall 上 2.2pt。在长尾和非长尾上均有提升,说明模态自适应性对于不同热度的商品均有意义。我们将最终得到的兴趣召回模型称为混合模态专家模型(Mixture of Multi-Modal Experts,MoMME)。下图给出了完整的架构图,其中黄色的部分是 ID 模态专家,绿色的部分是内容模态专家,通过商品点击量作为门控单元的输入,对 ID 模态专家和内容模态专家的输出进行了条件融合,得到用户兴趣分数。74|召回/预估模型4.实验结果离线指标:各部分对于兴趣召回模型的点击 recall(用户点击正样本被模型召回为 top-1000 的比例)的影响总结如下。引入多模态特征后,我们取得了点击recall 4.0pt、长尾点击 recall 8.1pt 的显著提升。在线指标:整体升级已在展示大盘主要场景全量,累计贡献展示大盘收入 2.33%/CTR 0.82%。全场景长尾广告(广告库占比较高但消耗占比较低)展现点击消耗相对涨幅均大于非长尾部分:PV 5.24%。引用1 Han Zhu,Xiang Li,Pengye Zhang,Guozheng Li,Jie He,Han Li,and Kun Gai.Learning tree-based deep model for recommender systems.In Proceedings of 75|召回/预估模型the 24th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining(2018).10791088.2 Han Zhu,Daqing Chang,Ziru Xu,Pengye Zhang,Xiang Li,Jie He,Han Li,Jian Xu,and Kun Gai.Joint optimization of tree-based index and deep model for recommender systems.Advances in Neural Information Processing Systems 32(2019).3 Jingwei Zhuo,Ziru Xu,Wei Dai,Han Zhu,Han Li,Jian Xu,and Kun Gai.Learning optimal tree models under beam search.In International Conference on Machine Learning(2020),1165011659.4 Weihao Gao,Xiangjun Fan,Chong Wang,Jiankai Sun,Kai Jia,Wenzhi Xiao,Ruofan Ding,Xingyan Bin,Hui Yang,and Xiaobing Liu.Deep Retrieval:Learning A Retrievable Structure for Large-Scale Recommendations.arXiv preprint arXiv:2007.07203(2020).5 Rihan Chen,Bin Liu,Han Zhu,Yaoxuan Wang,Qi Li,Buting Ma,Qingbo Hua,Jun Jiang,Yunlong Xu,Hongbo Deng,Bo Zheng.Approximate Nearest Neighbor Search under Neural Similarity Metric for Large-Scale Recommendation.CIKM(2022).6 Alexey Dosovitskiy,Lucas Beyer,Alexander Kolesnikov,Dirk Weissenborn,Xiaohua Zhai,Thomas Unterthiner,Mostafa Dehghani,Matthias Minderer,Georg Heigold,Sylvain Gelly,Jakob Uszkoreit,Neil Houlsby.An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale.ICLR(2022).7 Jacob Devlin,Ming-Wei Chang,Kenton Lee,Kristina Toutanova.BERT:Pre-training of Deep Bidirectional Transformers for Language Understanding.ACL(2019)8 Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,Ross Girshick.2020.Momentum Contrast for Unsupervised Visual Representation Learning.CVPR(2020)76|召回/预估模型【WSDM24】展示广告预估模型优势特征应用实践 珞家 1.简介本文介绍阿里妈妈展示广告 Rank 团队对优势特征的应用实践。优势特征是指预估模型在线无法获取但离线能用于提升模型能力的特征。一种经典的优势特征使用方法是优势特征蒸馏(PFD)1,2:PFD 方法使用全部特征(包括优势特征)来训练教师模型,然后利用以非优势特征(离在线均可得的常规特征)为输入的学生模型蒸馏教师模型能力,并用于在线打分。对于预估模型,我们通常会使用准度和排序能力来作为评价指标,针对优势特征蒸馏这个问题,我们发现 pointwise 和 listwise 蒸馏损失分别存在一定问题:pointwise 蒸馏损失:虽然 pointwise 损失能很好地保证准度,但其在排序能力上表现要弱于使用 listwise 损失函数进行蒸馏。listwise 蒸馏损失:直接使用 listwise 损失函数进行蒸馏会造成预估不准的问题,这对于依赖准度的广告系统来说难以接受。一种同时提升准度与排序能力的思路是使用 scale-calibrated ranking loss,例如阿里妈妈的 JRC 3以及 Google 的 RCR 4。本文中,我们针对优势特征蒸馏问题的特性,设计了 scale-calibrated listwise distillation loss(准度兼容的 listwise 蒸馏损失)CLID:CLID 以 session 粒度进行 listwise 蒸馏,具体来说,我们将学生和教师模型输出的概率分别进行 session 内的归一化,得到样本排在 session top的概率,随后对学生和教师模型输出的样本排在 session top概率对齐,在实现蒸馏教师模型排序能力的同时也在理论上保证了学生模型的准度不被破坏。基于该项工作的论文已被 WSDM 2024 接收,欢迎阅读交流 论文:Calibration-compatible Listwise Distillation of Privileged Features for CTR Prediction作者:Xiaoqiang Gui,Yueyao Cheng,Xiang-Rong Sheng,Yunfeng Zhao,Guoxian Yu,Shuguang Han,Yuning Jiang,Jian Xu,Bo Zheng链接:https:/arxiv.org/abs/2312.0872777|召回/预估模型2.背景在预估模型中,存在着一些离线可以获取在线无法获取的特征,我们将这一类特征统称为优势特征。对于精排 CTR 预估模型来说,目标商品的同页面曝光的商品列表就属于优势特征(context 特征)。离线添加此类特征通常能极大提升模型预估能力,但在线精排模型预测时却拿不到此类后验特征。一种经典的优势特征使用方法是优势特征蒸馏(PFD):PFD 方法使用全部特征(包括优势特征)来训练一个教师模型,然后将教师模型的知识蒸馏到使用非优势特征(离在线均可得的常规特征)进行训练的学生模型上,学生模型进一步用于在线推理。在实际实践中,PFD 方法通常使用 pointwise 的 LogLoss 作为蒸馏损失。然而我们发现,pointwise 蒸馏损失难以完全学习到教师模型的排序能力。这是因为 pointwise蒸馏损失假设数据独立同分布,而推荐系统中存在外部性问题,即同一展示页面上的候选物品点击率显著受其周围其他商品的影响。因此在进行优势特征蒸馏时,有必要将一个 session 内的商品做为整体进行蒸馏,以此提升学生模型的预估能力。3.方法考虑到时效性要求以及资源需求,我们并没有先训练好教师模型再单独训练一个学生模型,而是使教师模型和学生模型共享一部分参数,同时流式训练。以精排点击率预估任务为例,CLID 方法示意图如下所示。图 1 CLID 框架示意图78|召回/预估模型3.1 模型结构在点击率预估任务中,我们使用的非优势特征包括用户行为序列,用户画像,候选物品 以及其他特征。此外我们还额外构造了候选商品的同 session 展示商品列表作为其优势特征。3.1.1 基模块如上图所示,我们将学生模型和教师模型共享的这部分参数称为基模块(Base Mod-ule),其包含 embedding 层和用户行为序列建模模块。首先我们通过 embedding 层将高维稀疏特征 转化为低维嵌入表示.这些特征包括非优势特征和优势特征。个优势特征被定义为。对于用户行为特征,我们采用 DIN 作为序列建模模块。通过拼接所有 embedding,我们可以得到非优势特征表示向量 作为学生模型的输入:随后,我们拼接 个优势特征的 embedding 得到优势特征表示向量:因为优势特征在训练时可得而测试时不可得,因此我们将它们添加到教师模型中,教师模型的输入 由非优势特征表示向量 和优势特征表示向量 拼接得到:3.1.2 教师和学生模型给定一个样本,其 label,和 分别表示学生和教师模型的输入。在训练过程中,将输入到教师模型中得到样本 的 logit,然后经过 sigmoid 激活函数 得到样本 的 pCTR。对于教师模型,我们采用pointwise LogLoss 作为损失函数:不同于教师模型,学生模型仅使用非优势特征表示向量 作为输入来得到样本 的 pCTR,这里 是学生模型的 logit。学生模型将使用两个损失进行训练,一个与教师模型一样,以 为监督信号通过 LogLoss 优化。另一个损失是知识蒸馏损失,用于从教师模型中蒸馏知识。因为教师模型引入了优势79|召回/预估模型特征,其具有比学生模型更好的预测效果,可以指导学生模型进行学习。学生模型的最终损失构成如下:这里 是平衡 LogLoss 和蒸馏损失的超参数。3.2 listwise 优势特征蒸馏3.2.1 存在的挑战如上所述,对于学生模型,之前的 PFD 方法使用 pointwise LogLoss 作为蒸馏损失:然而,在推荐系统中,一个物品的点击率显著地受同页面内其他物品的影响。而pointwise 蒸馏损失基于同分布假设独立地对待每一个物品,并没有考虑同一展示页中物品预测分的相对顺序信息,这就导致 pointwise 蒸馏损失不足以蒸馏教师模型的排序能力。另一方面,listwise 损失以商品列表为单位进行优化,天然考虑了同一展示页中物品预测分的相对顺序信息。然而,我们实际中发现尽管相较于 pointwise 蒸馏损失直接使用 listwise 损失作为蒸馏损失可以大幅蒸馏教师模型的排序能力,但这种方式使得学生模型输出的 pCTR 失去了概率意义,出现预估不准的问题。实际生产中,准度对于 CTR 预估模型也尤为重要,因此,我们需要准度兼容的 listwise 蒸馏损失,即在提升模型排序能力的同时保持模型准度。3.2.2 准度兼容的 listwise 蒸馏我们首先形式化定义了蒸馏损失的准度兼容性质并分析了 pointwise LogLoss 蒸馏损失和常用的 listwise 损失作为蒸馏损失的准度兼容性质,然后我们给出了准度兼容的 listwise 蒸馏损失的设计方案。定义 1.一个蒸馏损失 是准度兼容的,如果对于任意候选物品,蒸馏损失 在学生和教师模型的 LogLoss 损失实现全局最小的时候也同时实现全局最小。可以证明 pointwise LogLoss 蒸馏损失是准度兼容的。具体来说,对于每个 ses-sion,令 表示其中第 i 个样本 的真实点击率。假设从样本 的80|召回/预估模型真实标签分布 中取 个样本,第 个样本的标记是。可以推导出学生模型和教师模型的 LogLoss 损失分别在 和 时达到最小,其中在 时。因此,教师和学生模型的LogLoss 损失总能够在 的时候同时实现全局最小。对于 LogLoss蒸馏损失,它也在 时最小,因此根据定义 1 它满足准度兼容性质。以常用的 listwise 损失 ListNet 5 为例,可以证明它在作为蒸馏损失的时候不是准度兼容的:这里 是包含样本 的 session 中全部商品的数量。根据微分法则,可以知道ListNet 蒸馏损失在如下情况下实现全局最小:可以观察到,蒸馏损失在学生和教师模型的 LogLoss 损失都实现全局最小的情况下并没被最小化(即),因此不满足准度兼容的性质。为了使 listwise 蒸馏损失满足准度兼容性质,我们提出 CLID 蒸馏损失框架。具体来说,对于蒸馏损失,我们首先将 和 映射到概率单纯形上来构建教师模型预测分布 和学生模型预测分布:这些概率编码了样本 排在商品列表顶部的概率。给定这两个分布,CLID 使用交叉熵损失惩罚它们之间的差异:根据微分法则,可以得到该蒸馏损失在如下情况下全局最小:81|召回/预估模型可以观察到当学生和教师模型的 LogLoss 损失都全局最小的时候,蒸馏损失 也是最小的。因此,我们所设计的 CLID listwise 蒸馏损失满足准度兼容性质,故而能够在大幅蒸馏教师模型排序能力的同时保持学生模型的准度不被破坏。4.实验4.1 实验设置我们使用了两个经典的 Learning-To-Rank 公开数据集 Web30K 和 Istella-S,以及一个收集自阿里妈妈展示广告系统的生产数据集用以验证 CLID 方法的有效性。采用的对比方法如下:Base:该方法将非优势特征作为输入并用 LogLoss 损失进行优化。PriDropOut 7:该方法训练时为优势特征构建浅层网络,浅层网络的 logits与主网络的 logits 相加来计算 pCTR 用于训练,训练时采用 dropout 的方式模拟在线拿不到优势特征的情况。当在线推理时,浅层网络被丢弃,由主网络的 logits 计算 pCTR。PAL 8:该方法也是在训练时为优势特征构建浅层网络,训练时,通过浅层网络和主网络输出分数相乘的方式计算 pCTR。当在线推理时,也是丢弃浅层网络,用主网络的输出分数作为 pCTR。Base Pointwise 1,2,9:基于 pointwise 蒸馏损失的 PFD 方法。Base ListMLE 6:基于 listwise 蒸馏损失的 PFD 方法,采用 ListMLE 损失作为蒸馏损失。Base ListNet 5:基于 listwise 蒸馏损失的 PFD 方法,采用 ListNet 损失作为蒸馏损失。在公开数据集上,我们采用 NDCG10 作为排序能力的评价指标,ECE 和LogLoss 作为准度的评价指标。在生产数据集上,我们采用 GAUC 作为排序能力的评价指标,LogLoss 作为准度的评价指标。NDCG10(GAUC)值越大代表模型排序能力越好,ECE(LogLoss)值越小代表模型准度越好。82|召回/预估模型4.2 实验4.2.1 实验效果图 2 公开数据集实验结果图 3 生产数据集实验结果以上分别是公开数据集和生产数据集上的实验效果,从中我们可以看出:(1)基于 listwise 的 PFD 方法在排序能力上一致地比基于 pointwise 的方法表现要好。这一事实证明了 listwise 蒸馏损失能够考虑推荐数据的非独立同分布特征,学到教师模型预测分布的相对顺序信息。然而 Base ListMLE 和 Base ListNet 方法由于不满足准度兼容性质,破坏了模型的准度。(2)CLID 在所有方法中取得了 ranking 能力同时确保了模型的准度不被破坏。这一观察证实了 CLID 中设计的 listwise 蒸馏损失的优越性。(3)PFD 方法通过解决训练-测试不一致问题有效地保持了模型的泛化性。这一结论可由非 PFD 方法(PAL 和 PriDropOut 方法)的不稳定的排序性能提升和破坏的准度来证明。因为这两个非 PFD 方法的浅层网络在线上推理时会被丢弃,所以导致了训练和测试时 pCTR 不一致问题。这个不一致破坏了模型输出的概率意义,给学生模型造成了巨大的准度下降。通过上述分析,我们证明了 CLID 方法能够很好地蒸馏教师模型的排序能力,同时保83|召回/预估模型持学生模型的准度。4.2.2 权重分析图 4 CLID 权重比分析我们在公开数据集上分析了 CLID 的权重比 对学生模型排序能力和准度的影响,我们从权重比集合 中进行检验,图 4 画出了 NDCG10 和-LogLoss 指标随权重比变化的趋势,权重比越大表示蒸馏损失越主导模型参数优化过程,NDCG10 和-LogLoss 越大证明模型性能越好。我们观察到模型的准度和排序能力在两个数据集上都呈现先增加后降低的趋势。这是因为权重比过大会削弱 LogLoss 损失的贡献,该损失直接影响准度,因此造成了模型准度下降;另一方面,蒸馏损失权重过大可能使得学生模型从教师模型中学到了一些噪声,从而造成了次优的排序性能。因此,在实际生产中我们推荐使用一个折中的权重比。5.总结和展望我们针对 PFD 方法常用 pointwise LogLoss 蒸馏损失的不足,提出了准度兼容的listwise 蒸馏框架 CLID。我们理论分析发现,相比于经典的 listwise 损失,CLID 满足准度兼容性质,因此在蒸馏教师模型排序能力的同时能够保持学生模型的准度不被破坏,阿里妈妈生产数据集上的实验结果证明了 CLID 框架的优势。在实验中,我们也发现了未来几个值得探索的方向,首先目前 CLID 的学生和教师模型都分别使用 pointwise loss 学习用户真实点击行为,如何在学生和教师模型中引入 ranking loss,并设计准度兼容的蒸馏损失是一个有意思的研究方向,事实上,我们发现可以同时使用 JRC 3提升教师模型自身的排序能力和使用 CLID 提升学生模型蒸馏教师模型排序的能力,二者在效果提升方面不存在重叠。其次,目前的84|召回/预估模型CLID 的蒸馏损失主要基于 RCR 4进行设计(便于理论推导),未来我们会将更多的scale-calibrated ranking loss 融入到 CLID 的框架中。参考文献1 Xu C,Li Q,Ge J,et al.Privileged features distillation at taobao recommendations.KDD 2020.2 Yang S,Sanghavi S,Rahmanian H,et al.Toward Understanding Privileged Features Distillation in Learning-to-Rank.NeurIPS.2022.3 Sheng X R,Gao J,Cheng Y,et al.Joint Optimization of Ranking and Calibration with Contextualized Hybrid Model.KDD 2023.4 Bai A,Jagerman R,Qin Z,et al.Regression Compatible Listwise Objectives for Calibrated Ranking with Binary Relevance.CIKM 2023.5 Cao Z,Qin T,Liu T Y,et al.Learning to rank:from pairwise approach to listwise approach.ICML 2007.6 Xia F,Liu T Y,Wang J,et al.Listwise approach to learning to rank:theory and algorithm.ICML 2008.7 Zhang Y,Yan L,Qin Z,et al.Towards Disentangling Relevance and Bias in Unbiased Learning to Rank.KDD 2023.8 Guo H,Yu J,Liu Q,et al.PAL:a position-bias aware learning framework for CTR prediction in live recommender systems.RecSys 2019.9 Liu C,Li Y,Zhu J,et al.Position Awareness Modeling with Knowledge Distillation for CTR Prediction.RecSys 2022.85|大规模约束优化【KDD24】合约广告中的双目标库存分配 容洵摘要合约广告(GD)分为两个不同的阶段,即离线售卖阶段和在线投放阶段。前者进行合约库存分配,主要考虑库存利用率的提升从而提升收入;后者则针对合约进行广告投放展示,考虑履约完成率。现有的研究通常将这两个阶段分开处理,订单在离线售卖阶段时,并不考虑在线投放阶段的实际情况。本文提出一种用于合约广告的双目标库存分配方法,旨在最大化分配给新广告订单的展示次数(即库存分配)提升库存利用率的同时,优化库存分配的平衡性以实现履约完成率的提升。由于所提出的问题是高维、多目标和多约束的,我们设计了一种高效的局部搜索算法,该算法交替关注这两个目标。实验结果表明,我们的算法优于进化算法和 Gurobi。前者常用于多目标优化中,后者是一个知名有竞争力的商业求解器。基于该项工作整理的论文已被 KDD 2024 接受,欢迎阅读交流。论文:Bi-Objective Contract Allocation for Guaranteed Delivery Advertising作者:Yan Li,Yundu Huang,Wuyang Mao,Furong Ye,Xiang He,ZHONGLIN ZU,Shaowei Cai下载:https:/dl.acm.org/doi/10.1145/3637528.36717521.背景介绍合约广告(GD)对于电子商务营销中的精准投放至关重要,其目的是将广告投放给满足特定且可能复杂要求的目标用户。这些要求涉及用户的特征,如年龄、性别、所使用的设备、地理位置等。大规模约束优化86|大规模约束优化传统的合约广告通常考虑已签约订单需求的情况下估算和分配新订单的最大可售卖量。在实践中,常见的方法基于供应和需求节点的容量,寻找能够最大化新订单可用售卖量的最优分配。然而,在线投放阶段可能因各种潜在问题而无法满足已签约的订单。传统方法仅考虑新订单的最大售卖量,可能会因为忽视在线投放中的问题而导致投放不足违约和高额罚款。因此,我们提出了一种新的双目标广告库存分配问题,该问题同时考虑新订单的最大可用售卖量和投放中的履约完成率。我们在下文中将该问题称为双目标 GD 问题。第二个目标,通过平衡已分配展示量的分布提升投中履约完成率。一种常见情况是:投前系统在假设将所有供应节点 的展示量都分配给需求订单 的情况下,最大化新订单 的可用展示量。然而,假设 的预测是准确的,部分 的展示量可能会在在线投放阶段被分配给另一个订单,导致无法满足订单。为避免这种情况,我们希望投前系统在确定新订单的展示量时不要超卖供应节点中的库存,且尽量平衡的分配减小履约风险。本文核心亮点:1)解决了实际操作中涉及线下投前阶段和在线投放阶段的合约广告库存分配问题,形成了双目标合约广告问题;2)提出了交替优化的双目标局部搜索算法。实验结果表明,所提出的算法在实际业务场景中优于著名的 MOEAs 和商业工具Gurobi。87|大规模约束优化2.问题建模2.1 订单广告库存分配合约广告库存分配可以通过下图所示的二部图来说明。在左侧,每个供应节点表示一组库存。供应节点可以通过各种属性的组合来标记,如城市、性别、用户等,每个节点可以作为广告订单的一组展示。是 能够提供的展示数量。在右侧,每个节点表示广告商订单中的需求。是 所需的展示数量。我们用邻接矩阵 表示供应节点和需求节点之间的连接关系,其中 表示供应 的库存可以为需求 提供展示,;否则,。我们用 表示可用于需求 的供应集,即与 相连的供应集,。类似地,我们用 表示 可以提供展示的需求订单。传统的合约广告工作通常致力于最大化可以为新订单需求分配的展示数量。例如,给定一组现有订单的需求 和一个新订单需求,常见的目标是最大化可分配给 的供应量,同时确保现有需求订单的需求。我们在下文中将现有需求订单集表示为。合约广告系统通常包含大量的供应和需求,需要在短时间内给出解决方案。通常采用启发式方法在有限时间内搜索高质量的解决方案。然而,仅仅为了最大化新订单的库存分配可能会导致不同供应之间的库存不平衡,进而在在线服务阶段导致潜在的履约88|大规模约束优化风险。为了解决这个问题,我们引入了下列方程(2)目标,该目标旨在平衡不同供应的展示分配。我们希望实现一个分配,使得 在总可用供应 中的比例与相应供应 中的展示分配 的比例之间的偏差最小,这有助于保证供应之间的平衡。对于需求,我们希望为 分配的展示次数由 中的多个供应节点提供,而不是由一个或少数几个特定节点提供。此外,每个供应节点 提供的展示次数应与其容量 相关。总体而言,给定一组供应,一组现有需求订单,以及一个新订单,我们的双目标 GD 广告库存分配问题是找到一个分配,以优化以下两个目标(我们记 为集合,为集合):双目标:多约束:其中,方程(1)表示最大化新订单需求 的展示次数(我们通过减法将其表示为最小化问题),方程(2)旨在保持不同供应的库存平衡,方程(3)表示分配的展示次数不会超过每个供应节点的库存,方程(4)约束现有订单的需求必须得到满足,方程(5)中的 表示供应 为需求 提供的分配次数。请注意,实际上,是预定义的现有需求订单集合,我们的问题目标是为新需求订单 达到适当的分配。2.2 帕累托解集多目标整数规划问题可以表述如下:。89|大规模约束优化其中,对于我们提出的问题,目标数,表示搜索空间。我们处理的是最小化问题。我们定义,对于两个解 和,如果 在两个目标上都好于 (我们称 支配),记作。则,且。如果 并且,则两个解 和 是非支配的,记作。一个解 是帕累托最优的,如果 _。所有可行非支配解的集合称为帕累托最优集。帕累托最优集的目标值形成帕累托前沿。多目标优化问题的目标是找出帕累托最优集中的解。然而,由于现实问题的搜索空间通常很复杂,多目标优化的实际方法是搜索一组近似的帕累托最优集的非支配解。3.双目标局部搜索算法3.1 算法框架我们提出了 BOLS 方法如下所示。由于所解决的 GD 问题是高维度且高度约束的,可行解的搜索空间是稀疏的。实际场景需要在有限的时间内获得解决方案,即时间要求相对较短。因此,我们在初始化阶段执行贪婪策略。在优化循环中,算法分两个阶段进行:寻找可行解(第 3-5 行)和分别改进可行解(第 7-16 行)。第一阶段确保为改进阶段找到一个可行解。采用 SatisfyingMove 迭代操作,直到解 中不存在违反的约束条件。之后,在改进阶段,应用 ImproveMove 操作以寻找更好的解决方案。在解决双目标 GD 问题时,BOLS 交替优化其中一个目标。在实践中,当 步后没有改进时,它会切换优化另一个目标(第 16 行)。在前述步骤中,BOLS 处理一个解,解决二分图中排除 的问题。当获得一个可行(且更好)的 时,BOLS 将通过为 分配展示次数来创建一个完整的分配。并且,我们通过比较新的完整分配(第 11 行)来维护一组帕累托解。当达到终止条件,即耗尽 cutoff_time 时,BOLS 返回帕累托集。90|大规模约束优化3.2 初始化适当的初始化可以提高算法性能并加速收敛。为了获得一个有效的初始解,尽管它不需要是可行的,我们通过最小化(2)所示的目标来生成它。在实践中,对于每个 和,我们通过分配每个分量 来计算 的初始化值,同时确保。通过简单的线性变换,生成的初始解可以证明满足(4)中的约束。请注意,我们在这一步中排除了,并且 的分配将在验证现有订单的分配之后进行。3.3 满足约束阶段由于初始解的可行性无法保证,BOLS 首先使用 SatisfyingMove 搜索可行解。SatisfyingMove 通过更新解中的一个或两个变量的值来创建新解。SatisfyingMove需要调整以满足(3)的约束,即确保每个供应节点提供的总库存不超过其可用库存。请注意,这里已经满足了(3)中的约束,且尚未考虑新的需求订单。如 Algorithm 2 所示,SatisfyingMove 旨在减少由供应节点 提供的库存,其中每个 supply 节点提供的库存超过其库存容量。该函数首先检测是否可以通过调整分配给一个需求订单的库存来满足随机选择的 的违反约束(第 4-7 行)。如果无法满足违反的约束,则该函数使用多次选择最佳策略(BMS)调整两个随机选择的需求订单的相应分配,BMS 从 次独立试验中选择最佳操作(第 9-14 行)。在本文中,我91|大规模约束优化们根据先前工作的建议将 设置为 100。当调整两个需求订单的分配时,我们获得最佳得分的操作(第 13 行),该得分表示由两个供应节点提供的库存的平衡性。评分函数基于操作前后两个节点使用率之间的差异计算。是已分配给需求的总库存数,可以看作 的使用率。3.3 优化阶段为了获得有效的解决方案来应对(1),(2)两个目标,我们在算法中应用 Improve-Move 来改进现有订单的分配,并迭代测试新的完整分配以应对。我们定义:为新需求92|大规模约束优化订单 的总剩余库存,为每个供应节点为现有订单提供的库存量的平衡水平。ImproveMove 通过交替优化 和 来解决这两个目标。在比较现有需求订单的分配 和 时,我们将 和 的偏差分别表示为 和。我们定义 如果,。对于给定的解决方案 和当前的非支配解决方案集,ImproveMove 首先通过调优随机选择的一个 来找到一个新的,其中。是由约束(3),(4)确定的可行域(第 1-7 行)。根据优化模式,我们选择最小化 或 的(第 5 行)。如果获得了,则 ImproveMove 终止(第 7 行)。如果在调优一个 的 次试验后未能获得,则它将在调优两个 的 次试验中进行,直到获得(第 8-12 行)。在实践中,它随机选择两个 和(第 9 行),并通过 更新值(第 11 行),其中 是根据相应的模式计算的(第 10 行)。如果,则该试验失败。当调优一个和两个变量都失败时,ImproveMove 将在调优一个 的 次试验中通过 进行,其中 是根据最小化 或 的相应模式计算的(第 13-20 行)。函数在获得 时终止并返回(第 19 行)。否则,它通过 估算每个,并选择得分最高的一个,其中 表示当前关注目标的进展,表示另一个目标的进展(第 20 行)。93|大规模约束优化3.4 更新解集如 Algorithm 3 所述,在得到一组可行解后,UpdatePareto 会用 更新 Pareto 集 (第 11 行)。我们依次检查 中的。如果,则 将从 中删除。如果对于所有,则 将被加入到 中。在实践94|大规模约束优化中,。4.实验结果4.1 评估指标我们在这里介绍用于算法比较的四个评估指标:(1)表示与其他测试算法相比,该算法得到最优结果的实例数;(2)表示在给定时间限制内获得可行解的实例数。解决一个实例表示获得至少一个满足所有现有需求订单所需印象的解决方案;(3)是被解集支配的目标空间的体积。给定一个具有目标值 的解集,其中 是搜索空间的维数,以及一个参考点,其中 表示勒贝格测度,表示正交体,其角点分别为 和;(4)是评估实际广告收入的实用度量标准。其中。SR 的定义是使用实际分配数据调整的。95|大规模约束优化4.2 与多目标遗传算法对比由于进化计算在多目标优化问题中得到了广泛应用,本节中我们与四种多目标进化算法(MOEAs):NSGA-II、NSGA-III、U-NSGA-III 和 C-TAEA,进行比较。下表展示了五个数据集上测试算法的,和正则化 的结果。为了研究算法在不同截止时间下的性能影响,我们展示了给定截止时间 10s、60s 和 300s的结果。这些观察结果表明,MOEAs 在获取相对较小搜索空间的可行解方面具有优势。与此同时,BOLS 在解决大规模问题方面表现出优越性。此外,通过交替专注于每个目标的策略,结果显示 BOLS 相对于 MOEAs 能够在所有数据集上给出更好的解决方案。4.3 与 Gurobi 的求解数量对比我们现在将我们提出的 BOLS 与著名的商业优化工具 Gurobi 进行比较。Gurobi 已成功应用于各种现实世界的场景,并在许多混合整数规划问题中表现出显著优势。虽然 Gurobi 不提供求解帕累托解集的功能,但它可以通过为每个目标值分配权重,将多目标优化问题转换为单目标问题,从而求解问题。因此,我们通过为 和 分别分配权重 和 来测试 Gurobi 对我们提出的双目标 GD 问题的解决方案。在实践中,我们使用 Gurobi 解决问题,同时约束条件保持不变。我们测试了 Gurobi 的精确方法(Gurobi-E)和启发式方法(Gurobi-H)进行比较。下表展示了各方法的 和。我们可以观察到,在给定为时间 10s 时,BOLS 在五个数据集中都优于 Gurobi 的两种方法。随着运行时间的增加,Gurobi 96|大规模约束优化在供应节点规模相对较小的数据集 中优于 BOLS。然而,BOLS 在其余数据集中仍显著优于 Gurobi。4.4 收益对比如前几节所述,我们在这项工作中解决了合约广告系统的双目标问题,在与其他方法的对比中,而我们提出的 BOLS 显示出其优势。在本节中,我们使用销售收入(SR)指标来评估该工作的实际收益。在本节中,我们仅将 BOLS 与 Gurobi 进行比较,因为 Gurobi 通常应用于商业场景,而 BOLS 显示出相对于 MOEAs 的显著优势。在实践中,我们使用 和 的九种设置获得的最佳结果来计算 Gurobi 方法的 SR,并使用获得的 Pareto 解集的最佳结果来计算 BOLS 的 SR。下表展示了 60s(商业场景中常用的设置)的结果,这是测试实例中 SR 的总和。结果表明,与 Gurobi 的精确方法和启发式方法相比,的销售收入分别提高了 1.4%和 3.7%。对于,这些值分别为 23.5%和 19.5%。由于没有获得可行解,和 的 Gurobi 值缺失,如下表所示。97|大规模约束优化5.结论本文提出一种新的双目标库存分配方法,用于合约广告的离线售卖阶段,这个问题首次考虑了流量供给的均衡分布。该方法可以在实际的在线服务阶段更好地分配订单,避免无法履约。我们提出了一种双目标局部搜索算法来解决这个问题,实验结果表明,它相对于多目标进化算法和 Gurobi 有着显著的优势,证明了我们的方法在解决这种高维度和高度约束的双目标整数规划问题上的优越性。未来,我们计划深耕该方法的并行版本,以应对更大规模的数据集,从而使提出的问题和方法能够推广到更多实际应用场景。并且可以将双目标局部搜索应用于其他二分分配问题,例如通信中的资源分配、供应链库存分配、库存分配,尤其是具有高维度和众多约束的分配问题。参考文献1 Nader Al Theeb,Hazem J Smadi,Tarek H Al-Hawari,and Manar H Aljarrah.2020.Optimization of vehicle routing with inventory allocation problems in Cold Supply Chain Logistics.Computers&Industrial Engineering 142(2020),1063412 Peiji Chen,Wenjing Ma,Srinath Mandalapu,Chandrashekhar Nagarjan,Jayavel Shanmugasundaram,Sergei Vassilvitskii,Erik Vee,Manfai Yu,and Jason Zien.2012.Ad serving using a compact allocation plan.In Proceedings of the 13th ACM Conference on Electronic Commerce.319336.3 Kalyanmoy Deb.2011.Multi-objective optimisation using evolutionary algorithms:an introduction.In Multi-objective Evolutionary Optimisation for Product Design and Manufacturing.Springer,3344 Andrzej Jaszkiewicz.2002.Genetic local search for multi-objective combinatorial optimization.European Journal of Operational Research137,1(2002),50715 Wuyang Mao,Chuanren Liu,Yundu Huang,Zhonglin Zu,M Harshvardhan,Liang Wang,and Bo Zheng.2023.End-to-End Inventory Prediction and Contract Allocation for Guaranteed Delivery Advertising.InProceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining.16771686.6 Hong Zhang,Lan Zhang,Lan Xu,Xiaoyang Ma,Zhengtao Wu,Cong Tang,Wei Xu,and Yiguo Yang.2020.A request-level guaranteed delivery advertising planning:Forecasting and allocation.In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining.29802988.98|大规模约束优化【KDD24】合约广告中大规模多重线性约束库存分配问题的高效局部搜索算法 容洵、鹤水、林衍 摘要合约广告(Guaranteed Delivery Advertising)是在线广告的重要组成部分,合理的合约库存分配机制直接提升客户需求和平台收入。随着广告客户需求的越来越多样化和精细化,在业务场景中经常出现媒体偏好需求,即适合投放在指定媒体的广告在该媒体上分配的比例应该大于另一些不适合在该媒体投放的广告。然而,这些需求涉及到非凸的多重线性约束,会给合约广告的库存分配带来挑战,而数学规划求解器或现有基于约束的启发式求解方法无法在约束时间内产生高质量的解。本文提出一种局部搜索的框架来解决这个难题,该框架包含两阶段的搜索模式,并且集成了四种新的针对非线性约束设计的算子。实验结果表明,相比于其它算法或者求解器,我们的算法能够在业务要求的约束时间内产生高质量的解,并且该算法具备通用性,可以处理其它业务场景中存在的非线性约束,未来可以应用到更多类似的场景中。基于该项工作整理的论文已被 KDD 2024 接收,欢迎阅读交流。论文:An Efficient Local Search Algorithm for Large GD Advertising Inventory Allocation with Multilinear Constraints作者:Xiang He,Wuyang Mao,Zhenghang Xu,Yuanzhe GU,Yundu Huang,ZHONGLIN ZU,Liang Wang,Mengyu Zhao,Mengchuan Zou1.背景介绍 合约广告是在线广告行业的重要组成部分,它在品牌的在线商业营销和推广中起着至关重要的作用。广告库存的分配是合约广告的关键组成部分。广告客户通常会在广告投放日期的几个月或几周前与平台签订合同,以预先锁定所需的广告展示次数。合同中明确规定了在特定定向条件下(如人群、频次控制、城市、渠道)的广告展示数量。如果库存过度出售,可能导致无法完成合同中的展示数量目标,平台需要进行赔偿;而库存少售卖则会损害平台的收入。在以往的广告库存分配工作中,研究的重点仅限于包含线性约束。通常会利用线性约束的性质,利用对偶和 KKT 条件,快速解决99|大规模约束优化问题。然而,这些算法只能处理线性或凸性约束。随着商业需求的不断扩大,越来越多的细化需求被提出,其中一些需求可以自然地表达为非线性约束,并且在数学形式上是非凸形式。举例来说,假设一个客户有两种产品,一个是护肤精华液,一个是耳机,并指定美妆 app 作为护肤精华液的重点媒体,相对于耳机来说。广告主希望护肤精华液在美妆 app 上的分配比例比耳机更大,使其更多地集中展示在合适的媒体上。由于现有求解器和方法的效率或能力不足以处理商业场景中的这些非凸约束,这就需要探索新技术和新算法来有效解决这些问题。针对此问题,我们做了以下工作:1)首次提出解决带有非线性约束的库存分配问题,将其建模为一个包含多线性约束的整数规划问题。2)设计了一种轻量级局部搜索求解器 LS-IMP 来解决这个问题。提出了四种新的邻域操作来处理多线性约束,并设计了两种切换模式,以快速找到问题的近似最优解。LS-IMP 可以轻松处理商业场景中的一般多线性约束。3)我们在真实的在线广告应用数据上对保证交付库存分配进行了实验。实验结果表明,我们的求解器在更多实例中满足了要求,并在商业指标上具有更高质量的分配结果,优于数学规划或基于约束的启发式求解器。2.问题建模2.1 二部图建模GD 广告库存分配问题是计算新合同的最大可能展示量(库存),同时确保展示量满足发布商和广告商的需求约束。该问题可以使用二部图来描述,它可以使用二部图表100|大规模约束优化示,如下图所示。在左侧,供给节点集 对应于基本维度(城市 媒体 操作系统)的展示次数。在右侧,需求节点集 对应于销售系统中的合同。其中,需求节点 代表新合同,而其他需求节点 代表现有合同。决策变量 表示从供给 分配到需求 的展示次数。问题的目标是求解 以最大化分配给新合同的展示次数,并满足三种约束条件:1)供给约束:每个供给节点的总分配量不应超过其供给量;2)需求约束:分配到某个需求节点的展示次数不应少于其需求;3)Focus 约束:在关注媒体上,合同的关注比例不得低于另一个合同。此约束涉及同一广告主的两个合同 和 及一组选定的指定媒体集,代表 相比 的关注媒体。然后要求合同 和 在供给集 上的关注比例符合广告主的优先级要求:合同 在 上的关注比例应大于合同 的关注比例。我们使用邻接矩阵()来表示供应节点和需求节点之间的连接,如果供应节点 和需求节点 之间存在连接,则101|大规模约束优化2.2 整数多重线性规划整数多重线性规划(IMP)问题的形式如下:其中,,是输入,是决策变量。是多线性的,意味着任意变量的最高指数为 1。我们用 表示约束系统中的第 个约束为 :。变量的边界表示为,并且我们表示。在我们的问题中,是其对应供给节点的容量。给定变量,每个约束可以写成:其中 是 中 的系数多项式,是 中 的截距多项式。直观上,如果我们仅将 视为变量,那么 是 的系数,是不包含 的单项式。显然,我们的问题在公式可以转换为一般的 IMP 形式,因为线性约束是多线性的,并且关注比例约束等价于:102|大规模约束优化这是多线性的。在下文中,我们考虑一般情况下整数多重线性规划形式的问题。一个完整的赋值 对于 IMP 实例 是一个映射,它为每个变量赋予一个整数,表示 下 的值。赋值 满足约束 如果,否则约束被违反。赋值 是可行的,当且仅当它满足 中的所有约束。赋值 的目标函数值表示为。另外,我们表示 为 中 的系数多项式在赋值 下的值,为截距多项式的值。3.问题求解实现我们算法处理具有多线性约束的 GD 广告库存分配的关键创新包括局部搜索过程中四个新算子。此外,我们设计了两种模式的算法架构,以帮助算法找到高质量的解决方案。3.1 算子设计在局部搜索算法中,一个算子定义了如何修改变量以生成新的赋值,当一个算子实例化为一个变量时,我们得到一个操作。局部搜索算法逐步执行操作以生成新的赋值,并跟踪获得的最佳赋值。我们提出了四个用于一般整数多线性规划的新算子,包括三个单变量算子和一个双变量算子。它们旨在处理未满足的约束或优化目标函数,这些算子将在算法的不同模式中使用。3.1.1 多重线性 critical move(mc)算子我们的多重线性 critical move(mc)算子考虑在违反的约束中修改变量,使其满足约束。多线性关键移动将变量的值修改为使约束为真的边界值。多线性关键移动可以通过以下方式构造:给定一个违反的多线性约束,变量,我们知道。在赋值 下,我们表示:,一个 操作为 是:如果 且:将 增加。如果 且:将 减少。103|大规模约束优化 否则:保持不变。3.1.2 边界移动(bm)算子边界移动算子考虑在所有约束都满足时优化目标函数。减少目标函数值的基本思想是改变其中变量的值。设 为出现在目标函数中的变量集合,即,其中 是 在 中的系数。边界移动算子的思想是根据其在目标函数中的系数将变量移动到其上界或下界,这将使目标函数值的最快下降。我们设计边界移动算子表示为 如下:如果,则 将 赋值为其上界。如果,则 将 赋值为其下界。3.1.3 降低移动(rd)算子类似于边界移动的作用,减少移动也旨在优化目标函数。在某些情况下,将变量设置为其全局界限可能会导致更多约束被违反。对于目标函数中的变量,边界移动关注其界限,而减少移动关注其受制约的约束。对于一个变量 和一个包含 的已满足约束,我们设计减少移动算子,以保持 的满足状态并在不违反 的上界或下界的情况下实现目标函数值的减少。给定变量 和其关联的已满足约束,。在赋值 下,我们表示,一个 操作为 是:,:增加 ,:减少,否则:保持不变。3.1.4 推进移动(pm)算子不论是边界移动还是减少移动,这些算子都与目标函数中的变量相关联。然而,如果某些变量没有出现在目标函数中,它们可能不会直接影响目标函数。但是,如果这些变量与目标函数中的变量共享约束,它们可以通过改变其值来影响变量范围,进而影响目标函数。接下来,我们打算定义并搜索一对变量,类似于上面例子中的 和,以及相应的算子。有效辅助约束:给定一个赋值 和一个变量,如果,则约104|大规模约束优化束 是变量 的有效辅助约束。表明辅助约束限制 向减小目标的方向移动。我们定义 在约束 中的有效范围,即 可以移动并保持 满足的范围。对于多线性约束,这个范围是一个区间。现在我们来确定那些能够改变 在辅助约束中有效范围的变量。有效辅助变量:给定一个赋值,对于任意,变量 是 的有效辅助变量,如果 满足以下条件:(1)(2)存在约束 使得 是 的有效辅助约束,和 都出现在 中。直觉上,由于 和 在同一个约束中,的值可能会影响 在 中的有效范围。现在我们试图找到改变 是否能够导致 在 中更广范围移动,从而减小目标函数。有效推进对:给定一个赋值,一个有序变量对,是一个有效推进对,如果满足以下条件:1)存在约束 使得,并且。2)存在约束 使得,并且固定 为 不会改变 的符号。3),其中 是通过固定 为 更新的辅助赋值。基于以上思想,推进移动算子定义如下:给定一个赋值,一个推进移动算子 接受一个有效推进对 以及定义的约束 和,如 有效推进对 的定义,推进移动算子通过以下步骤固定 的值:1)将 的值固定为,得到一个新的辅助赋值。2)执行 操作,将 的值固定。3.2 双模式移动框架我们的算法采用双模式搜索框架,当存在约束不满足时,算法进入 infeasile 模式,在该模式下,通过多重线性算子来试图满足约束。当所有约束都满足的时候,算法进入 infeasible 模式,在该模式下,算法通过三种算子来降低目标函数的值。同时通过105|大规模约束优化加权技术和设计的评分函数来指引好的搜索方向,从而加速搜索。4.实验4.1 实验说明Baseline:将我们的求解器与两个数学求解器 Gurobi 10.0.0(2022)和 SCIP 8.0.1(2021)进行比较,它们分别是公认的最佳商业求解器和最佳开源求解器 mittelmann-plots。除了数学编程求解器,我们还比较了约束启发式求解器 Yuck,该求解器是 2022 和 2023 年 MiniZinc 挑战中局部搜索赛道的冠军,这是约束编程求解器的代表性竞赛 minizic。我们使用 Gurobi 的精确版和启发式版,分别记为 Exact 和 Heur。SCIP 和 Yuck 使用默认参数。106|大规模约束优化数据集:实验数据集来自阿里妈妈真实 GD 广告场景。通过对涵盖不同时间段(包括常规日和节假日)的实际在线请求数据进行采样和聚合生成 5 个数据集,以涵盖全面的业务场景。我们从所有样本中进行均匀随机抽样。实验数据的规模如下表:其中ins 是例子的数量,ML Constraint 是新引入的约束数量。4.2 评估指标在本小节中我们比较了 5 个指标:库存利用率(#UR):我们将所有供应节点的总库存水平记为,所有订单的总需求量记为。较高的#UR 表示售出的广告数量更多,从而带来更多收入。理想库存履约率(#FR):理想分配量记为,等于将目标函数中所有变量设置为其上限时的值。#FR 代表库存与最优库存之间的差距较小,意味着在满足合同义务的同时尽可能多地销售广告。#FR 应尽可能接近 100%以履行客户合同。获胜解决方案(#win):表示求解器在所有测试求解器输出的解决方案中找到最佳解决方案的实例数量。这个指标衡量算法在目标值方面找到高质量分配的能力。可行解决方案(#feas):表示求解器在时间限制内找到可行解决方案的实例数量。这个指标衡量求解器找到满足所有要求的分配方案的实例数量。求解时间:比较 LS-IMP 与 baseline 求解器在找到相同目标值的解决方案时的运行时间。4.3 结果分析#UR 和#FR 分析:我们比较了每组实例的平均#UR 和#FR。结果下图所示。在商业场景中,GD 广告库存分配的销售实例通常需要在 60 秒内解决。可以看到,SCIP 和 Yuck 在解决这个问题上的效果相对较低,反映在业务解决时间内观察到的较低的#UR 和#FR 指标。为了验证和比较我们求解器的能力,还进行了求解时间延长到 300 秒和 1000 秒的实验。实验结果表明,尽管 Gurobi 在#UR 和#FR 上有所提107|大规模约束优化高,LS-IMP 仍然是最具竞争力的算法。此外,从 300 秒和 1000 秒的求解时间结果来看,与 60 秒的 LS-IMP 结果相比,没有明显的改进。这表明 LS-IMP 基本在 60 秒内收敛,展示了我们算法的有效性。#win 和#feas 分析:可以观察到,在 60 秒内,LS-IMP 在可行解决方案的数量和获胜解决方案的数量上都具有显著优势。显然,SCIP 和 Yuck 在应用于可用数据集时,大多数实例无法提供可行的解决方案。作为商业求解器,Gurobi 在 60 秒的时108|大规模约束优化间范围内,在可行解决方案的数量和找到的解决方案的质量方面都远远落后于 LS-IMP。即使在更长的时间(300 秒和 1000 秒)内,这两个指标仍然未能超越 LS-IMP。求解时间分析:我们比较了 LS-IMP 和 Gurobi 求解器的求解时间,具体考察了它们在 300 秒和 1000 秒的运行时间,以验证我们算法的收敛速度。在这个分析中,我们比较了 Gurobi 的启发式和精确版本。可以观察到,无论在 300 秒还是 1000 秒的时间范围内,对于找到相同解决方案的实例,LS-IMP 始终能在更短的时间内获得解决方案。这表明了我们求解器的快速收敛速度。109|大规模约束优化5.结论本文分享了 GD 广告库存分配问题的局部搜索算法。我们将具有偏好要求的 GD 广告库存分配建模为一个整数多线性规划问题,并提出了一种高效的双模式局部搜索算法来解决该问题。实验表明,与该问题的最先进求解器相比,我们的算法生成了更高质量的分配计划。该算法方案能够处理一般的多线性约束,并且可以应用于其他合同分配场景。未来,我们还考虑扩展该算法方案,以解决涉及其他业务指标比率要求的问题。局部搜索算法对于计算广告来说是新的方向,我们认为这是一个值得探索的领域。期待我们的新局部搜索算法能够为未来的研究提供一些灵感。参考文献1 Tobias Achterberg.Scip:solving constraint integer programs.Mathematical Programming Computation,1:141,2009.2 Shipra Agrawal and Nikhil R Devanur.Fast algorithms for online stochastic convex programming.In Proceedings of the twenty-sixth annual ACM-SIAM symposium on Discrete algorithms,pages 14051424.SIAM,2014.3 Shipra Agrawal,Zizhuo Wang,and Yinyu Ye.A dynamic near-optimal algorithm for online linear programming.Operations Research,62(4):876890,2014.4 Anand Bhalgat,Jon Feldman,and Vahab Mirrokni.Online allocation of display ads with smooth delivery.In Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining,pages 12131221,2012.5 Vijay Bharadwaj,Peiji Chen,Wenjing Ma,Chandrashekhar Nagarajan,John Tomlin,Sergei Vassilvitskii,Erik Vee,and Jian Yang.Shale:an efficient algorithm SIGKDD international conference on Knowledge discovery and data mining,pages 11951203,2012.6 Peiji Chen,Wenjing Ma,Srinath Mandalapu,Chandrashekhar Nagarjan,Jayavel Shanmugasundaram,Sergei Vassilvitskii,Erik Vee,Manfai Yu,and Jason Zien.110|大规模约束优化Ad serving using a compact allocation plan.In Proceedings of the 13th ACM Conference on Electronic Commerce,pages 319336,2012.7 Liang Dai,Zhonglin Zu,Hao Wu,Liang Wang,and Bo Zheng.Fairness-aware guaranteed display advertising allocation under traffic cost constraint.In Proceedings of the ACM Web Conference 2023,pages 35723580,2023.8 Nikhil R Devanur,Kamal Jain,Balasubramanian Sivan,and Christopher A Wilkens.Near optimal online algorithms and fast approximation algorithms for resource allocation problems.In Proceedings of the 12th ACM conference on Electronic commerce,pages 2938,2011.9 Zhen Fang,Yang Li,Chuanren Liu,Wenxiang Zhu,Yu Zheng,and Wenjun Zhou.Large-scale personalized delivery for guaranteed display advertising with real-time pacing.In 2019 IEEE International Conference on Data Mining(ICDM),pages 190199.IEEE,2019.10 Jon Feldman,Monika Henzinger,Nitish Korula,Vahab S Mirrokni,and Cliff Stein.Online stochastic packing applied to display ad allocation.In European Symposium on Algorithms,pages 182194.Springer,2010.11 Jon Feldman,Aranyak Mehta,Vahab Mirrokni,and Shan Muthukrishnan.Online stochastic matching:Beating 1-1/e.In 2009 50th Annual IEEE Symposium on Foundations of Computer Science,pages 117126.IEEE,2009.12 Vahideh H Manshadi,Shayan Oveis Gharan,and Amin Saberi.Online stochastic matching:Online actions based on offline statistics.Mathematics of Operations Research,37(4):559573,2012.13 Wuyang Mao,Chuanren Liu,Yundu Huang,Zhonglin Zu,M Harshvardhan,Liang Wang,and Bo Zheng.End-to-end inventory prediction and contract allocation for guaranteed delivery advertising.In Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining,pages 16771686,2023.14 Hong Zhang,Lan Zhang,Lan Xu,Xiaoyang Ma,Zhengtao Wu,Cong Tang,Wei Xu,and Yiguo Yang.A request-level guaranteed delivery advertising planning:Forecasting and allocation.In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery&Data Mining,pages 29802988,2020.111|大规模约束优化【AAAI24】合约广告中基于风险约束的 Pacing算法优化觉一、天穿摘要:本文提出一种适用于合约保量广告的预算平滑 Pacing 算法,该算法通过对偶出价因子的百分位位置联动调控 Pacing,兼容保量分配机制的同时,有效控制了预算释放过快的风险,并且最大程度兼顾了投放效果的提升。基于该项工作整理的论文已发表在 AAAI24,欢迎阅读交流。论文:Percentile Risk-Constrained Budget Pacing for Guaranteed Display Advertising in Online Optimization 下载(点击阅读原文):https:/arxiv.org/abs/2312.061741.背景介绍1.1 业务场景合约广告(Guaranteed Delivery,GD)是通过合同形式,为品牌或直播广告主在指定时间内,在圈定的目标人群上触达确定数量的曝光。和效果广告的实时竞价相比,GD 广告采用曝光的合同固定价格计费,并且具有强保量的约束,也是广告主在大促时期确定性获取流量的重要广告形式。合约广告的在线分配机制中,通常基于对偶理论,采用”虚拟出价”(如 bid=CTR-对偶)的方式进行流量优选(0 价过滤)和分配(最高价竞得),在满足保量约束的前提下,最大限度优化投放效果。除了合约广告,有很多场景有采用类似的建模方式,如:push 次数有限的情况下,最大化用户点击次数等;消费券数量有限情况下,最大化转化率/成交 uplift。1.2 分配建模假设我们以优化 CTR 为目标,对于第 次请求召回的广告 的预估价值为,原问题可以建模成:112|大规模约束优化根据原始对偶可以推导出,虚拟出价公式为:其中 是根据广告 消耗速度的快慢,基于反馈算法(如 PID 等)进行调整得到的。虚拟出价后,再通过 0 底价过滤和出价排序,最终选取 top1 广告返回,过程表示为:其中,表示召回率,表示 Pacing 模块的随机通过率,表示参竞率,表示竞得率。因此,一段时间内广告 的曝光计费次数,可以串行漏斗来表示:1.3 平滑问题虽然理论上原始对偶方法可以实现最优的在线分配,但是在实际投放过程中,我们面对的是一个动态分配问题。如果只使用“虚拟出价”,非常容易出现不平滑的情况。比如,对偶因子初始值不合理,广告可能在几分钟之内释放完一个小时的预算;另外,PID 反馈调整的步长设置不合理,也可能导致广告从完全没展现到瞬间“爆量”。不平滑释放会带来两方面问题:1)业务方面:广告主希望预算均匀消耗,尤其是主播希望均匀引流,长时间无量或者爆量会带来客诉和资损;2)效果方面:对广告感兴趣的用户是随着大盘流量均匀到达的,不平滑投放会浪费后续投放到优质流量的机会,对效果有损。113|大规模约束优化2.技术挑战与算法思路2.1 现有算法现有广告里平滑投放算法,主要有三类可以借鉴:Bid Modification(出价修改):相当于没有 Pacing 模块,通过参竞率来间接实现,反馈速度慢且对于小订单风险巨大(如初始值不合理预算瞬间花完),达不到较好的预算平滑效果 Probabilistic Throttling(概率节流):简单高效,在 RTB 使用广泛,但是在合约广告里,直接使用会带来一个问题,同时用一个信号(预算消耗速度)反馈调整两个参数(出价&Pacing),会出现相互干扰、控制混淆,引起保量风险和平滑问题。举个例子,广告释放过快,应该调低出价,还是调低Pacing 通过率?Regularization(分配正则项):在之前合约分配模型建模常采用正则项,以实现平滑或者均匀分配,但是这种方法的正则项超参数是固定的,无法在投放中自适应调整。综上,现存的方法并不能很好解决我们的问题。2.2 合约业务挑战分析我们业务里面平滑释放的挑战,主要包含以下因素:1)静态因素 预定量:不同广告的保量目标从几千到几百万 PV 不等 定向:不同广告的定向人群、定向资源位不同 优化目标:不同广告优化目标不同(转化率/停留时长/进店率等),不同类型的目标分布差异极大,如转化率 0.1%,点击率 10%,仅打分的平均值就相差百倍,导致调控的初始化和步长配置非常复杂2)动态因素假设有两个广告 Ad1 和 Ad2,除了 Ad1 的流量供给大很多,其他静态因子都相同的情况下,最终收敛后 Ad1 的对偶因子一定高于 Ad2 的对偶因子。这意味着:由于 Ad1 的流量供给大于 Ad2,Ad1 更容易“爆量”;114|大规模约束优化 Ad1 的虚拟出价远低于 Ad2,Ad1 的竞得率更容易受其他订单的影响;从参竞率的角度,如果对偶因子反馈调整相同距离,或者打分分布发生变化,Ad1 的波动也比 Ad2 更大,可以用下图来表示这个过程:2.3 算法设计思路平滑投放的主要挑战来自于释放过快,因为消耗是无法回撤的,而释放过慢可以通过后期反馈进行调整后加速。设计合约广告中的 Pacing 算法,需要考虑以下几点:一方面通过 Pacing 随机通过率,来控制广告的流量供给,把对偶因子限制在安全的百分位范围内,避免由于调控出现参竞率太大的波动。另一方面,Pacing 如果过滤流量太多,会让对偶因子处于较低百分位,虽然没有平滑风险,但是会随机丢弃大量优质流量,不利于效果提升。所以一个合格的合约 Pacing 算法,需满足以下三点要求:1)不能破坏合约保量分配机制,不干扰到对偶因子的调控,否则有缺量风险;2)能有效控制平滑风险(对偶百分位不能太高);3)尽量避免丢弃优质流量,减少效果损耗(流量充足情况下,对偶百分位不能太低)。115|大规模约束优化3.风险约束的 Pacing 算法细节3.1 双向变换为了解决不同打分类型分布不一致,导致“对偶初始化”以及”调控步长“难以统一设置的问题,一个很简单的思路,是将所有打分通过之前落盘打分日志,统一变换到 0,1 的均匀分布。但是这带来的问题是,我们的求解目标从 变成了。尽管百分位变换是保序,但是其非线性变换的特性,将导致百分位空间的最优解并不是原问题的最优解(不同类型分数,竞得率的公平性不在讨论范围内)。基于此,我们采用了双向变换:1)效果分前向变换:原空间()=百分位(),将打分映射到百分位空间,在百分位空间调整对偶。通过对偶在百分位空间的位置,可以感知爆量风险(比如当前对偶调整到 0.99,说明参竞率为 1%,爆量风险较高),并在 pacing 策略采取对应调整措施约束风险;2)对偶后向变换:百分位()=原空间()。在百分位空间调整对偶后,反向变换到原空间,所以 bid 的计算还是在原来的空间,保证我们求解的是原问题的最优解。原空间到百分位空间的变换,可以基于非参数方法(如累计直方图统计),也可以采用参数化方法变换。这里我们采用了参数化的 BoxCox 方法,将原空间变换到正态分布,再通过标准化转换为标准正态分布,最后通过标准正态分布的累积分布函数(CDF),变换成 0 到 1 的均匀分布,即百分位空间。变换过程如下图所示:后向变换与上述过程正好相反,互为逆函数。116|大规模约束优化3.2 PTR 粗估上述我们分析了对偶的百分位越高,对应广告的参竞率越小,不平滑风险越高。因此我们希望 Pacing 模块通过随机通过功能,将每个广告的对偶的百分位 限制在一个安全阈值 内。例如 表示期望收敛后,此时广告有 top 5%的优质流量参竞,余下的 95%流量 bid 为负被底价过滤。假设广告 定向的人群大小为,全局的竞得率为,通过之前的流量漏斗公式,可以粗估出 Pacing 的通过率()为:百分位对偶值初始化可以表示为:3.3 PTR 微调尽管我们在离线对 PTR 进行了粗估,但是在实际投放过程中,粗估值和实际线上投放情况可能有较大误差,因此需要根据线上情况进行微调。微调函数我们分解为两个函数:1)对偶联动 在线实际投放中如果,说明 偏小,需要增加流量供给,减少缺量风险和优质流量损耗;反之则说明 偏高,需要快速降低 以约束风险,我们用两段指数函数来进行微调:函数如下图所示:117|大规模约束优化2)出价加权 受到 smart pacing 论文的启发,效果越好的流量,PTR 应该更高。对应到我们的算法中,对于同一个广告来说,即 bid 越高通过率越高。如果用原空间的bid 加权,由于广告的打分分布差异很大,bid 也有很大的差异,不利于统一设置加权倍率。因此,我们在百分位空间进行加权,这里我们采用简单的线性加权,即:如下图所示:相比于,是根据在线实时的“虚拟出价”进行加权的,是完全实时自适应的。举个例子,比如我们归一化参数更新不及时或者计算有偏差,导致变换后的打分分布是 的均匀分布,对于 函数来说,会在离线粗估的 PTR 的基础上添加较大的倍数,存在爆量的风险,而对于函数 来说则不存在这样问题。3.4 梯度裁剪在 PID 反馈调控算法中,如果步长太大,调控容易出现大幅抖动,如果太小反馈调整的反应速度又太慢。一种常见的做法是静态梯度裁剪。假设限制相邻两次调整的对118|大规模约束优化偶调整最大距离为,通过 PID 算法计算出下一次百分位空间的对偶因子的值为,则下一次百分位对偶变量更新值为:这种做法的一个缺点是,对偶因子在不同的百分位位置调整,带来的波动其实是不一样的。如百分位对偶从 0.9 调整到 0.8,参竞率(PR)可以从 0.1 增加到 0.2 出现翻倍现象;百分位对偶从 0.2 调整到 0.1,PR 则仅从 0.8 增加到 0.9,几乎没有变化。上述只分析了百分位对偶调整对于参竞率的影响,此外,百分位对偶的调整还会影响到 PTR 和 WR。以下推导基于广告出现缺量情况:根据反馈算法 将往下调。假设该广告的召回率、打分分布、在线竞价环境在这期间没有发生变化,会发生以下变化:会增加。竞价环境不变,下调对偶会提升 bid,top1 排序概率变大;会增大。随着下调提高加权倍率;也会增大。下 0 底价过滤的比例也会降低。假设我们广告 在第 次周期中的真实消耗是,期望消耗是,则释放速度可义为:理想的调控结果是让 轮的消耗速度为 1。上面分析了 WR、PTR 和 PR 都会增加,由于竞价环境是未知的,增加倍率无法计算,但是如果 增加到了 倍,那么广告在轮的释放速度肯定就超过 1 了,这就是我们调整范围的下限。定义函数:实际求解时,可以通过蒙特卡洛重要性采样的方法进行积分计算。具体做法是:随机在有颜色区域的轴上打 1000 个点得到平均高度,乘以宽度就即为。然后用二分查找法找到 的下限:下图表示函数:119|大规模约束优化在线上实际使用时,我们采用的是静态 动态梯度裁剪的方法双管齐下来控制风险:3.5 可变步长梯度裁剪只是限制了更新的上限和下限,实际的更新的步长也有较大的优化空间。直觉上,越靠近 1,PR 波动越大,此时步长应该越小;反之越靠近 0,PR 波动越小,不平滑的风险也更小,步长也应该设置更大。这个直觉上的判断,可以通过数学推导得到一个可变更新步长,详情可以查阅我们发表在 AAAI24 的论文:Percen-tile Risk-Constrained Budget Pacing for Guaranteed Display Advertising in Online Optimization(https:/arxiv.org/abs/2312.06174,点击阅读原文)。3.6 止血控制以上所有的策略,都是基于梯度更新实现的。梯度更新有一个较大的问题是,当线上已经发生“爆量”情况,往往需要多次更新才能控制“险情”,这时候小时预算往往已经消耗完毕。针对这种情况,我们采用比例调控的方式,额外增加一个通用率进行及时止血,把广告的释放速度控制在 2 倍,既能防止损失进一步扩大,也能让对偶因子朝着正确的梯度方向进行逐步调整,止血调控的通过率计算公式为:所以最终的的 Pacing,由两个概率通过模块串行组成:120|大规模约束优化3.7 冷启问题在广告刚上线的几分钟,止血通过率可以设置成 10%进行小流量试探,防止对偶初始化不准确导致不平滑现象。3.8 流量倾斜在合约业务里,往往还有很多业务需求需要对部分流量进行加权投放,如通投广告主中需要对广告主圈选的人群进行流量倾斜、部分资源位流量倾斜等,可以从两方面进行干预:Pacing 对需要倾斜的流量进行通过倍率加权,以增加 PTR;Bid 环节对需要倾斜的流量进行出价加权,以增加 PR 和 WR。如果流量倾斜需要达到某个目标,则加权因子需要通过反馈调节链路进行调整。3.9 整体流程总结起来,Pacing 算法的流程如下:1)设置超参数 全局参数:安全百分位阈值 ,步长,静态梯度裁剪;广告参数:预算,定向人群大小,止血冷启动通过率。2)离线计算 对于每个广告:根据供需比计算基础通过率;计算分位对偶初始值;根据广告优化目标的类型,通过历史日志统计对应目标类型的归一化参数(包括 boxcox 参数、均值、标准差)。3)在线决策 对于召回的广告列表:用 RTP DNN 模型预估分数;将打分转换到百分位空间;121|大规模约束优化 将百分位对偶 通过后向变换成原空间对偶;计算原空间出价 和百分位空间出价;0 底价过滤;通过、和 计算通过率;计算最终 Pacing 通过率;以 的概率保留广告;按照原空间出价 排序;选取 Top 1 返回。4)近线调控 每隔两分钟进行一次近线调控;计算上次调控的释放速度;根据 PID 算法(或动态步长算法),计算本次百分位空间的对偶值;通过蒙特卡洛重要性采样,计算动态梯度裁剪的上下界;进行静态 动态梯度裁剪,得到更新后的百分位对偶;根据释放速度,通过止血调控更新公式,得到止血通过率;将 和 推送到线上,进行下一轮在线决策。4.业务效果互动合约广告对平滑投放要求较高,算法侧经过一段时间的迭代和优化,逐步形成了以上基于百分位风险约束的 Pacing 策略,并通过了日常投放、双十一大促等各方面考验。在日常互动商业上场景上,我们对出价加权进行了消融实验,相比于无出价加权策略,收藏加购购买率 及 吸粉入会率均有所提升,平滑释放和效果提升达到了较好的平衡。5.总结本文提出一种适用于合约保量广告的预算平滑 Pacing 算法,该算法通过对偶出价因子的百分位位置联动调控 Pacing,兼容保量分配机制的同时,有效控制了预算释放过快的风险,并且最大程度兼顾了投放效果的提升。实验表明,该方案使平滑释放和效果提升达到了较好的平衡。122|大规模约束优化参考文献1 Budget pacing for targeted online advertisements at linkedin.KDD 20142 Dual mirror descent for online allocation problems.PMLR 20203 Clustering with Bregman divergences.JMLR 20054 Shale:an efficient algorithm for allocation of guaranteed display advertising.KDD 20125 The Box-Cox transformation technique:a review6 Smart pacing for effective online ad campaign optimization.KDD 20157 An Adaptive Unified Allocation Framework for Guaranteed Display Advertising.WSDM 2022123|智能创意开源|阿里妈妈技术开源 FLUX 图像修复及蒸馏加速模型鹏徙、晓旗 1.概述阿里妈妈智能创作与 AI 应用团队近期开源了两项 FLUX 文生图模型的的实用配套模型。Black Forest Lab 的 FLUX 1 文生图模型具有更高的生成画面质量和指令遵循能力,一经推出便受到业界广泛关注,也有很多优秀的控制插件和 Lora 微调模型陆续跟进。但是,通过修复(Inpainting)进行可控生成的插件还未有公开可用的模型,另一方面 FLUX 12B 的参数量会带来显著的推理时耗和计算开销。我们针对这一行业需求进行了相关探索,开源了两个基于 FLUX(FLUX.1-dev)的配套模型:ControlNet 图像修复模型 以及 8 步加速的 Turbo 模型。更进一步,两个模型可互相兼容配合使用,达到更快的修复生图。两项开源模型收到了社区积极反馈,在 HuggingFace 社区居于趋势榜前列。本文介绍基于 FLUX 的 ControlNet 修复模型及蒸馏加速模型的设计思路,欢迎阅读交流和试用反馈。FLUX 修复 ControlNet 主页(已更新至 Beta 版本):Huggingface 地址:https:/huggingface.co/alimama-creative/FLUX.1-dev-ControlNet-Inpainting-Beta ModelScope 地址:https:/ 步加速 LoRA 主页(Alpha 版本):Huggingface 地址:https:/huggingface.co/alimama-creative/FLUX.1-Turbo-Alpha智能创意124|智能创意 ModelScope 地址:https:/ 2024.10.162.图像修复 ControlNet 模型图像修复(Image Inpainting)对图像的指定区域根据指令进行重新生成。在创意设计领域,设计师可以利用该模型快速修复或改变图像中的特定元素;在个人照片编辑领域,普通用户可以轻松去除照片中不想要的元素或添加新的内容。毫不夸张地说,图像修复的 ControlNet 是 FLUX 基础模型用于图像可控生成的关键插件,同时相较于其他控制条件(线稿、姿势、深度图等)有较高的训练难度,对模型在丰富场景中的泛化能力、预测合理性和稳定性有较高要求。因此,我们从 FLUX 模型采用的 DiT 模型结构和 Flow Matching 2 训练机制出发,在嵌入的 ControlNet 模型结构和训练流程方面进行尝试。125|智能创意FLUX 图像修复 ControlNet 整体使用流程2.1 ControlNet 模型结构探索社区普遍使用的 Unet ControlNet 3(图 a),直接迁移到 DiT 架构上需要将前一半的特征加到后一半上面。不同于传统的基于 Unet 的文生图结构,DiT 的文生图模型由一系列的 Transformer Block 堆叠而成,没有显式的 Encoder-Decoder 结构,因此直接迁移效果不好。我们在同样是 DiT 框架的 SD3 Inpainting 上实验发现,更多控制层数的 Full 结构相较于 Half 与 Interleave 结构收敛更快。由于训练时显存限126|智能创意制,FLUX 的 Inpainting 采用 Interleave(图 c)结构进行训练,在模型收敛效果和显存&计算量取得平衡。2.2 由粗到细的多阶段训练从公开的图文对数据集和内部数据集过滤出千万量级数据用于训练,并对其中的图片通过多模态大模型进行长 Caption 重打标。我们先在 768 分辨率进行训练得到Alpha 版本,然后在 1024 分辨率进行继续训练得到 Beta 版本。相比于 Alpha 版本相比,Beta 图像修复模型提升了以下特性:1)从 768 图像分辨率升级到 1024:能够直接处理和生成 1024x1024 分辨率的图像,无需额外的放大步骤,提供更高质量和更详细的输出结果。得益于多通道 VAE的强大重构能力,生成的结果中非重绘区域依然能高保真复原。2)增强细节生成:经过微调以捕捉和重现修复区域的更精细细节。3)改进提示词控制:减少额外的控制信号对 FLUX.1 底模能力的影响,使模型对生成内容提供更精确的控制。2.3 修复效果对比我们对比 Diffusers 官方开源的基于 SDXL 的 Inpainting 模型 4,FLUX-Inpaint-ing 模型继承了 FLUX 更好基础能力,在指令跟随、文字生成、画面效果方面都有突出优势,其中最新的 Beta 版相比一个月前的 Alpha 版效果有进一步提升。以下是对比结果(均没有进行原图贴回操作):127|智能创意128|智能创意与其他扩散模型一样,直接使用 Inpainting 模型仍需进行多步迭代推理(28 步)才能达到比较满意的结果,为加快推理速度,我们进行了加速扩散方法的尝试。3.蒸馏加速模型扩散模型由于需要多步去噪的推理生成方式,使得图片生成速度缓慢,计算资源需求高。尤其是对于 FLUX 模型来讲,其高达 12B 的参数量,在实际使用中具有较大困难。针对推理加速这个问题,已经有不少优秀的工作在 SD1.5 或 SDXL 上进行了降低采样步数的相关研究,但是对于 Flux 的相关加速工作还较少。由此,阿里妈妈智能创作与 AI 应用团队探索训练出了一个 8 步蒸馏模型,使得 FLUX 在 8 步的采样步数下,接近原本 FLUX 30 步左右推理的效果,我们的模型对于修复也适配良好,能够在接近原修复质量的同时实现更快的推理。3.1 技术介绍我们采用改进的一致性蒸馏算法 5,并使用了对抗训练来提升蒸馏的效果。对于对抗训练所需的判别器模型,我们设计了一种多头的判别器模型,在固定原始 FLUX 的 Transformer 的权重,在每一层 Transformer Block 后接一个可训练的由几层 MLP 构成的 Head,如图所示。判别器的输出由所有 Head 的均值决定,这样的 Head 设计,充分利用了 FLUX Transformer 的不同层级特征,能够更加有效的监督蒸馏后的效果。Turbo 蒸馏加速训练流程图129|智能创意3.2 效果&加速对比我们在文生图任务上进行了尝试,对比原始 FLUX.1-dev 28 步的结果,我们 8 步 LoRA 加速后的结果几乎逼近原始结果。可以看到,我们的模型在通用场景、人像场景、电商场景都取得了不错的效果。4.图像修复叠加蒸馏加速我们的加速模型配合修复模型能够在接近原始修复效果的情况下实现更快的修复速度。在 H20 机器,使用 T5xxl-fp16 结合 FLUX.1-dev-fp8 模型进行测试,在 true_cfg 设置为 1 的情况下,原始 30step 需要约 26s,叠加加速模型后只需要约8s,推理速度提升了约三倍,效果损失微小。130|智能创意5.总结本文介绍了阿里妈妈技术团队基于 FLUX 开发的 Controlnet 修复模型和蒸馏加速模型,该项工作填补了社区空白并提升了 FLUX 的实用性和效率。未来,我们将着力提高复杂纹理和结构的理解生成能力,增加多尺寸支持,探索 4 步生图的加速方案。我们相信,持续创新将使 FLUX 在 AI 创意生成等众多领域发挥更大潜力。也期待通过社区的力量,共同加速模型能力的迭代,发现更多应用场景,创造更多可能。引用1 https:/ Lipman Y,Chen R T Q,Ben-Hamu H,et al.Flow matching for generative modelingJ.arXiv preprint arXiv:2210.02747,2022.3 Zhang L,Rao A,Agrawala M.Adding conditional control to text-to-image diffusion modelsC/Proceedings of the IEEE/CVF International Conference on Computer Vision.2023:3836-3847.4 https:/huggingface.co/diffusers/stable-diffusion-xl-1.0-inpainting-0.15 Luo S,Tan Y,Huang L,et al.Latent consistency models:Synthesizing high-resolution images with few-step inferenceJ.arXiv preprint arXiv:2310.04378,2023.131|智能创意开源|筑基砥柱:EcomXL-万相实验室 AIGC电商基础模型 顾知、岁星、天扉、佳玏、允行一、背景随着生成式技术浪潮的兴起,Stable Diffusion 结合 Controlnet 等控制能力在电商场景得到了广泛的应用,其中制作一张优秀的商品主图(亦或是广告的创意图,以下简称商品图)对商品的点击转化有着重要影响,商家往往需要投入不少时间和资金成本。如何通过 AIGC 能力来帮助商家节省成本、提高制作效率和投放效果是阿里妈妈万相实验室的初衷。随着 2023 年 7 月 SDXL 文生图模型的发布,其生成结果相比 SD1.5 在语义表达和美观度上都有显著提升。但模型参数规模的大幅增长也带来了在训练和推理上的挑战。我们围绕 SDXL 模型进行了多角度效果优化以及推理加速优化,并且将其应用于万相实验室图像生成任务中,实现了全量上线。生成结果的视觉质量以及业务指标都有不错提升。部分相关工作沉淀到开源项目 EcomXL(hugging-face-ecomxl-controlnet)和 SLAM(Sub-path Linear Approximation Model,huggingface-slam),欢迎交流&提出建议。HuggingFace 项目链接(复制链接到浏览器访问):EcomXL:https:/huggingface.co/collections/alimama-creative/ecomxl-con-trolnet-662f1f0dac05b4f7c20fcde6SLAM:https:/huggingface.co/collections/alimama-creative/slam-662f1dd31d5c8cd0b3acb0e0本篇工作更多从 SDXL 模型应用视角,阐述将其落地到规模化图像生成系统中遇到的效果和推理速度问题。在 AIGC 图像生成中,如何实现对生成结果更加可控请参考另一篇团队工作百变背景:万相实验室 AIGC 电商图片可控生成技术。二、万相实验室简介阿里妈妈万相实验室(https:/)是面向商家/广告主建设的 Al 132|智能创意Native 商品图片生成工具。它提供商品展示图片和服饰展示图片两项基本服务,支持通过丰富的虚拟模特、背景氛围实现商品的生动展示。平台内置海量商品预设背景描述可供选择和再次创作,商品的布局和大小可以精细调节,画面可以增加背景元素组合,虚拟模特的发型肤色身材搭配着装均可选择。面向电商 ToB 的场景应用,我们可以将淘宝平台商品分为普通刚性商品和柔性服饰,前者是外观相对固定的商品,后者是外观多变且与人物交互的服饰。具体在以下几个方面体现对其生成效果的更高要求:(1)美观和真实的人像生成(2)电商风格的背景生成(3)自然贴切的商品与背景融合效果(4)不同场景不同时延的服务能力。对应这些问题,我们提出面向电商场景的 EcomXL 系列工作,旨在在对社区 SDXL 的基础上实现更佳人物和背景绘画效果、更佳的 Controlnet 控制能力以及快速 3 秒电商生图方案。三、EcomXL 文生图模型3.1 问题定义尽管 SDXL 模型与 SD1.5 相比,在语义理解和视觉美感方面进步显著,但是在电商场景中应用对人像颜值和真实性,以及对电商风格背景的多样性提出更高的要求,因此人像不够美不够真、背景不够贴近电商场景是效果上的主要挑战。其次,在电商图像生成中,往往耦合了生成控制(例如:Controlnet/Lora),基础模型的变化进一步带来和生态适配性的问题。133|智能创意3.2 模型优化我们基于社区开源的数据以及内部数据,收集了千万规模的高质量人像和背景数据,用于补充 SDXL 模型在电商生成图像的质量。现有的一些工作如 Dalle3 1,pixart 2,EMU 3等指出,详细准确的图像描述和高美观图像的筛选对模型最终的效果至关重要。因此,我们制定了机筛加人筛的数据筛选策略,并运用多模态大模型对其进行精细文本标签打标,在少量数据上进行了人工标签修正。以下是数据示意:134|智能创意在具体的基础模型迭代中,我们提出了一个两阶段模型微调方法,通过模型微调和模型融合使得 EcomXL 在适配电商场景的同时,可以较好的保持 SDXL 优秀的语义理解能力,同时保持对社区生态的兼容性。3.2.1 模型微调-去噪步数加权的蒸馏法全参数模型微调带来的挑战是语义退化以及链路适配的问题。相比于基础模型本身通过亿级别的图文对训练,在少量数据上直接进行微调,虽然在微调样本上表现良好,但是泛化性下降,特别是体现在语义退化上。其次,全参数微调也会下降社区Controlnet 和微调后基础模型的适配性。为缓解上述问题,我们前期探索了部分参数微调、可插拔的 Lora 等等方案,在生成效果和后期迭代便利上都遇到不少挑战。我们提出了一种基于去噪步数加权的蒸馏方法,参考过往学者工作有将信噪比 SNR(signal-to-noise ratio)应用于扩散模型加速采样 4 和加速训练 5 的有效性,我们使用时间步数 t 的函数 作为加权权重,从训练约束的角度对 SDXL 模型进行微调。该方法在去噪损失函数 的基础上加入了一个蒸馏损失,并通过一个参数 来控制对总损失函数的贡献度。去噪前期,的值较小,较小,蒸馏损失函数主导总损失函数,使微调模型预测噪声 对齐语义良好的原始模型;去噪声后期,SNR 增加,蒸馏损失权重不断减小,预测图片分布逐渐对齐微调数据集。其中,扩散过程中 t 步的噪声,和 为去噪过程中微调模型和原始模型分别预测的 t 步的噪声。为超参数,用于调节蒸馏强度。其背后的思考是,去噪过程为 coarse-to-fine 的过程,初期主要生成的是整体的轮廓与布局,而后期则重点生成细节信息。如人像场景中,去噪前期模型生成身体/发型/背景的大致轮廓,去噪后期则生成面部、服饰等细节。我们的微调任务往往重在后期视觉细节的优化,而尽量保持前期语义理解。135|智能创意3.2.2 模型融合-分层加权融合为进一步提升微调模型对原始模型社区生态的兼容性,我们采用了模型融合策略,在构建 SDXL 的影响矩阵基础上,秉持“最大收益-最小改动”原则来进行新老模型的分层融合,在最小改动原始模型权重的基础上,把微调模型优势注入其中。模型融合公式如下:其中,,和 分别表示融合模型、基础模型和微调模型的第 层的权重。为第 层的融合系数。虽然模型融合作为社区解决小样本微调导致过拟合问题的常规手段,但现阶段社区尚缺乏 SDXL 对生图效果的影响矩阵。对此,为实现更精细融合,我们先对其影响矩阵进行总结。首先根据 SDXL UNet 结构将层进行归并划分为如上所述 19 个最小融合单位。随后,通过控制变量法探讨各个层对于生图效果的影响。以人像优化为例,我们将模型 1 的权重用模型 2 的对应层权重替换来探寻对于人脸生成影响较大的层。在随后的模型融合中,我们仅对人脸影响较大的层进行权重的加权融合,而其他层维持旧模型的权重。控制变量法的部分可视化结果如下,可见 UNet 深层(如 IN08、M00、OUT01)相较于浅层(如 IN04)对人脸具有更大影响。136|智能创意3.2.3 对比效果EcomXL 在适配电商生图的同时,较大程度地保留了原模型的固有优势,其与原始SDXL 模型在直接图像生成的效果对比如下:137|智能创意四、EcomXL-ControlNetEcomXL 还处于在文生图阶段进行基础 t2i 模型的优化,实际在用户对主体抠图之后还会进行多个控制网络 Controlnet 的联合生成。联合生成的目标是既能够保持前景真实、又要背景足够丰富、还要前后景良好的融入效果。使用社区开源的 SDXL inpainting/softedge Controlnet,在大规模测试之后,我们发现了不少效果上的问题。总结起来可以分为三类:(1)搭配商品图的背景生成;(2)服饰控制下的肢体生成;(3)边缘控制下的元素生成。为解决以上问题,我们针对电商场景,从淘宝收集了千万级高质量商品数据,利用多模态大模型对其打标,同时进行了实例级别分割、边缘提取等预处理操作。在 此 基 础 上,训 练 了 电 商 版 SDXL 版 Inpainting/Softedge Controlnet,称 作EcomXL-ControlNet。4.1 Inpainting ControlnetInpainting ControlNet 的作用是进行图像补全:根据图像的已知前景图像,控制基础模型生成其余部分的图像。社区普遍使用随机 Mask 遮挡图像训练 Inpainting ControlNet,使网络学习通用的图像补全能力。而在电商场景下,图像的已知前景通常为商品本身,具有完整的结构,同时待补全的部分通常为背景与模特肢体。我们希望模型能够在根据已知前景图像补全背景的同时,避免对商品本身进行不必要的扩展,降低商品边缘异常等问题的概率。同时,我们还希望模型可以在图像的已知前景为模特、服饰时,补全缺失的人体结构,缓解肢体无法生成与肢体畸形的概率。因138|智能创意此,我们提出了两阶段的 Inpainting ControlNet 训练方案:第一阶段:基于通用数据使用随机 Mask 训练。第二阶段:基于电商数据使用实例 Mask 微调,提高了前景维持、背景搭配、肢体生成的能力。4.2 Softedge ControlNetSoftedge ControlNet 的作用是进行边缘控制:根据 Softedge 边缘图像,控制基础模型生成边缘一致的图像。在电商场景中,Softedge ControlNet 除了用来控制商品边缘外,还有着控制搭配元素生成的作用。我们使用了千万级别的高美观度数据训训练了 Softedge ControlNet,数据来源包括开源和内部数据集、淘宝电商数据等。相比社区模型在边缘控制,边缘发光等问题上都有了明显的改善。此外,我们使用hed、pidinet、pidisafe 等常用的 edge 预处理器混合使用的方式进行训练,对不同预处理器都有很好的适应能力。五、EcomXL 下 3 秒快速出图EcomXL 在推理耗时以及显存开销都有大幅增长,特别是更长的推理时间对客户体验带来挑战,跟进到社区有关 LCM 一致性模型的相关工作。我们提出了一种新的推理加速模型 SLAM(Sub-path Linear Approximation Model),可将推理从 25 步降低至 4 步,同时相比社区 LCM 在相同步数下取得更好生成效果。该工作已整理成论文:https:/arxiv.org/abs/2404.13903,并已上线到万相实验室。139|智能创意5.1 一致性模型 SLAMLCM 通过缩小相邻两个点间的映射误差来逐渐达到一致性,但这也引入了较大的累积误差,导致其一步生图时细节丢失较多,通常需要更多的推理步数来提升效果。针对这一问题,我们提出了子路径线性近似模型 SLAM(Sub-path Linear Approximation Model)。SLAM 为所有相邻点构建了线性子路径,并通过在该路径上的随机线性插值采样来完成连续的渐进式误差估计,使得整个学习过程更加平滑。其流程如下图所示:由于 SLAM 优化了相邻点间的映射误差,所以其完整去噪映射过程的累积误差也得以降低,从而提高了低步数下的生成质量。如下 SLAM 和 LCM 方法的指标对比,SLAM 在 2 步的效果与 LCM 在 4 步的效果相当。如右侧示意图,SLAM 的线条和纹理较 LCM 更清晰,生成细节更准确。5.2 灵感推荐结合 EcomXL 和 SLAM 的快速生图能力,万相实验室提供了全新的“灵感推荐”功能。在日常并发负载下,实现 3 秒内完成生成推理过程,叠加预处理和风控后处理,整体用户体验时间缩短到 5 秒内。从而助力客户更高效地尝试不同的生成风格。140|智能创意六、业务效果评估6.1 评估方法为有效评估 EcomXL 对于业务最终效果的影响,我们将其与线上的 Ecom1.5 进行了离线和在线的对比。其中,离线对比以视觉可用率、1 vs.1 胜率作为评估指标;在线对比以线上采纳率为评估指标,来最直观反映用户对于生图结果的满意程度。视觉可用率:从模特语义属性和肢体畸形、商品抠图边缘和异常延展、背景构图逻辑和语义触发等角度评估生成图片的可用度。1 vs.1 胜率:采用成对图像盲测的测评方式,多位设计师通过个人专业角度投票选出其中更美观的一张。从而计算 Ecom1.5 和 EcomXL 的各自胜率。在线采纳率:万相实验室一次生图请求产生 4 张不同种子点图像,在图像的粒度进行模型的打散,计算每个模型下载率=下载图片数量/生成图片数量。6.2 线上效果相较于线上的 Ecom1.5,EcomXL 在视觉可用率( 5pt)、1 vs.1 胜率( 2.8pt)和线上采纳率( 2pt)均显著提升,因此,已经作为主模型装配到了阿里妈妈万相实验室。两者更多对比效果如下:141|智能创意七、总结我们从人物/电商风格生成、控制能力配套以及推理提速多个角度分析了 SDXL 应用在电商场景的不足,在进行优化后整理了一套综合解决方案 EcomXL(hugging-face-ecomxl,huggingface-slam),该方案已全量上线到万相实验室。期待未来能够朝着给客户提供秒级实时、逼真灵动的生成效果的目标,与业界同行一起努力探索更优秀的 AIGC 图像生成算法。HuggingFace 项目链接(复制链接到浏览器访问):EcomXL:https:/huggingface.co/collections/alimama-creative/ecomxl-662f1f0dac05b4f7c20fcde6SLAM:https:/huggingface.co/collections/alimama-creative/slam-662f1dd31d5c8cd0b3acb0e0参考文献1 Betker J,Goh G,Jing L,et al.Improving image generation with better captionsJ.Computer Science.https:/ Chen J,Yu J,Ge C,et al.PixArt-:Fast Training of Diffusion Transformer for Photorealistic Text-to-Image SynthesisJ.arXiv preprint arXiv:2310.00426,2023.3 Dai X,Hou J,Ma C Y,et al.Emu:Enhancing image generation models using 142|智能创意photogenic needles in a haystackJ.arXiv preprint arXiv:2309.15807,2023.4 Salimans T,Ho J.Progressive distillation for fast sampling of diffusion modelsJ.arXiv preprint arXiv:2202.00512,2022.5 Hang T,Gu S,Li C,et al.Efficient diffusion training via min-snr weighting strategyJ.arXiv preprint arXiv:2303.09556,2023.143|智能创意懂你,更懂电商:阿里妈妈推出淘宝星辰视频生成大模型及图生视频应用 阿里妈妈技术【淘宝星辰】是由阿里妈妈基于自研的淘宝星辰视频生成大模型推出的视频 AIGC工具。【淘宝星辰 图生视频】工具已重磅上线,并对淘宝天猫商家正式开放!体验地址:https:/ 扫码阅读原文 查看视频效果144|智能创意一、淘宝星辰:懂你,更懂电商!依靠先进的自研大模型、海量的电商数据、丰富的设计语言和业内领先的营销经验,【淘宝星辰 图生视频】工具在电商视频生成中展现出以下核心优势:更懂商品的展示手法:基于丰富的电商数据和设计经验,自动识别并应用最适合不同类别商品的展示手法。从产品细节的精准呈现到整体风格的统一协调,确保每一件商品都能以最佳方式展示。更强的多语种语义遵循能力:深度理解参考图片和多语种指令(中/英),精准捕捉文本指令中的关键动作信息,确保生成视频与用户意图高度契合。合理的物理和动作规律:严格遵循物理规律和动作规范,确保画面流畅自然,避免出现不符合现实的画面效果,提升视频的真实感和专业度。稳定的人物、商品和装饰保持:无论是人脸、商品、还是文字、贴纸等装饰元素,始终保持清晰、完整、无抖动或变形,提升视觉一致性。二、淘宝星辰视频生成大模型在主流 AIGC 背景下,视频生成早已不是单纯的生成算法优化和应用,而是一个更加复杂的、系统性的算法工程,其中人、数据、模型、算力是最核心的四个因素。在 2024 年 3 月,我们基于 Unet Diffusion Model 路线研发并上线了阿瞳木动效视频,实现了视频 AIGC 在电商场景的首次应用落地,在业内产生了一定的传播度和影响力。但是,由于技术路线、数据等多个因素的限制,阿瞳木动效视频在画面稳定性、内容可控性、目标与动作丰富性等关键要素上,仍然存在较大的进步空间。从去年 3 月至今,我们在视频 AIGC 方向上坚定地持续投入。通过算法、数据、工程等众多团队的密切协作,我们完成了面向生成任务的数据飞轮、自研 3D VAE、自研淘宝星辰视频生成大模型(包括 Tbstar-T2V、Tbstar-I2V、Tbstar-V2V 等)等多个关键模块和模型从 0 到 1 的建设。目前,Tbstar-I2V 大模型已经应用于【淘宝星辰 图生视频】工具中,为用户提供更懂电商的图生视频功能。145|智能创意淘宝星辰视频生成大模型三、更懂电商的图生视频3.1 操作便捷仅需输入一张静态图片,淘宝星辰可根据对图片的理解直接生成视频,也可遵循用户输入的文本描述生成视频,一键生成高质量的 5 秒视频。【淘宝星辰 图生视频】工具146|智能创意3.2 更懂商品的展示手法以更懂电商的方式展示服饰和非服饰商品,尤其是对模特动作的流畅性和专业性提升显著。prompt:一个模特脸上带着酷酷的表情展示衣服147|智能创意prompt:模特拿着咖啡,走向镜头,展示衣服prompt:悬浮的气泡和水滴飘动prompt:商品不动,植物随风摇动,云雾移动148|智能创意3.3 更强的多语种语义遵循能力深度理解参考图片,支持中英输入,精准捕捉文本指令中的关键动作信息,确保生成视频与用户意图高度契合。prompt:模特拿手机挡着脸,对镜自拍展示衣服prompt:男生把手搭在女生肩膀上,两人靠在一起149|智能创意3.4 专业的光影效果根据参考图片和用户,推理光线变化,生成电影质感的光影效果。prompt:一个女人的脸部特写,创造出柔和的阴影和高光prompt:光线缓慢移动,创造出动态的阴影,背景保持不变,突出了人物面部和装饰的微妙变化150|智能创意3.5 稳定的人物、商品和装饰保持尤其针对电商图片中常见的文字、贴纸等装饰元素,始终保持清晰、完整、无抖动或变形,提升视觉一致性。prompt:一个女模特对着镜头展示衣服prompt:镜头后退,女模特走向镜头,展示衣服151|智能创意四、高品质低成本的原生化应用结合解说视频、模版视频等后期剪辑类工具,实现高品质、原生化电商视频的低成本智造,应用至主流电商场景,以及泛娱乐场景。应用 1:商品主图视频供给单张商品主图一键生成主图视频。单张主图 vs 主图视频152|智能创意应用 2:卖点吸睛视频根据多张模特图分别生成视频片段,采用模版视频方式制作商品短视频,添加转场、特效和文字,快速生成吸睛的产品展示视频。153|智能创意应用 3:种草内容视频根据多张商品图分别生成视频片段,采用剪辑视频方式制作商品短视频,配备解说、字幕等,生成商品种草视频。154|智能创意应用 4:服饰一体化解决方案“模特图”或“平铺图” 虚拟模特,都能轻松生成多样化服饰视频。不同 SKU 平铺图|虚拟模特穿搭图|多 SKU 服饰视频155|智能创意应用 5:虚拟试穿视频根据用户虚拟试穿图片一键生成虚拟试穿视频,模拟服饰的真实上身效果。用户虚拟试穿图用户虚拟试穿视频156|智能创意应用 6:UGC 场景视频化UGC 图片一键转为视频,提升视频供给,例如评价、买家秀、逛逛等。应用 7:泛娱乐场景AIGC 时代可以不活但不能没活儿 prompt:超级英雄和恐龙在沙滩上慢慢散步,背景是城市的天际线157|智能创意乘风破浪,川流入海 LLM 在阿里妈妈智能文案的应用 次况 1.引言在现代广告系统中,文案是不可或缺的一部分,几乎参与了广告素材的各个地方。随着 NLP 技术的极速发展,广告主逐渐学会并习惯使用文案生成工具直接或者间接的参与到广告的制作中,这为 NLP 技术在广告场景的应用提供了巨大的潜力和机会。阿里妈妈智能创作与 AI 应用团队在广告文案方面做了长期的工作,并积累的一定的技术能力。图 1:智能文案应用场景举例2022 年底,ChatGPT 的横空出世,为 NLP 技术的发展的应用打开了新的局面。面临大模型的时代潮流,是否使用大模型、怎么样使用大模型、怎么样更好的使用大模型、大模型能给广告文案生成带来哪些变化,是团队亟需探索、研究和尝试回答的问题。本文从业务背景出发,尝试通过分析大模型在智能文案上的应用,对上述问题进行探索和分析。首先我们从智能文案面向的业务出发,讨论智能文案生成业务面对的困难及大模型可能带来的提升。然后总结了在面对如雨后春笋般涌出的中文大模型时的选型过程和方法。在怎么样更好的使用大模型方面,我们主要从数据源和训练方法进行了讨论。在大模型落地到广告智能文案生成后,给业务带来了一定的提效。最后,在使用大模型的过程中,我们发现了一些可能的问题,并尝试对未来的发展进行展望。158|智能创意2.模型的选择2.1 模型那么大,我想试试看大语言模型在 NLP 方面的强大能力和巨大潜力已经为大家所公认,但是这是否意味着所有的自然语言处理任务都应该使用大语言模型来处理呢?答案显然是否定的,不管是从开发成本还是服务成本上来说,大语言模型的花费都是巨大的。大模型的落地显然要充分考虑到应用场景的特点后进行选择和决定。从阿里妈妈智能文案创意业务的角度来看,主要面临着以下几个挑战:图 2:广告智能文案业务1.文案种类要求多。智能文案面向直通车、展示、外投、工具等多种服务场景,每个场景都有其特定的文案种类和风格要求,加上上下游各种文案预处理和后处理模型,文案支持涉及的模型池巨大。包含从传统的 NLP 算法到大规模神经网络算法的各种类型,从分类到生成的各种任务,开发时间从几年前到几个月前。这耗费了前人无数心血,结合众多的业务逻辑的文案服务,在很好的支持了现有文案生成服务之外,也带来较大的维护成本,后续的开发和迭代相对困难。分久必合,一个功能强大的、能同时支持多个文案种类的模型,会给算法和模型的维护、开发迭代、升级改进、服务扩展等都带来收益。2.文案内容要求丰富。作为智能文案,大多数服务的最终出口是生成和商品相关的创意文案,这对文案的创造性有很强的需求。一个能够根据商品信息生成更具创意的文案,自然会提升广告的投放效果。大模型有着强大的基础写作能力和创意能力,在广泛的世界知识的基础上进行创意生成,可以极大的扩展创意的丰富度。159|智能创意3.新兴创意业务的需求。随着短视频潮流的席卷而来,对广告创意也有了进一步的需求。在图文创意的基础上,视频类创意的需求逐步增加。面对从看文案到听文案的转变,从短文案到长文案的需求,文案创意需要提升文案服务能力,服务更多的新兴业务,支持新兴需求。大模型在这方面同样有着很强的潜力。基于上面的考虑,我们选择使用大模型来对现有的文案种类进行统一收口和支持,降低服务的支持维护和开发更新的难度。同时利用大模型强大的写作能力,提升文案创意的丰富度,扩展文案创意的新表现形式,满足更多场景的文案需求。2.2 模型那么多,我用哪一个在过去的一年里,大模型的迭代速度和相关工作爆发式的增长,可供选择的底模玲琅满目。面对鱼龙混杂的庞大的开源大模型库,选择和业务适配的大模型就是一个亟待解决的问题。评价指标为了对比和选择模型,首先需要确定评价指标。基于广告文案创意的业务背景,我们将评价指标首先分为客观和主观。客观指标主要包括模型对于输出的控制能力,例如能否满足字数要求、能否满足输出格式要求、能否区分不同业务的文案等。客观指标基于指标定义制定评测流程即可。图 3:指标分类图160|智能创意主观指标参考人对广告文案的判断标准,总结人对优质文案的喜好,分为了文案的流畅度、文案的优美度、和商品信息的对应关系等。主观指标的评测相对比较复杂,原则上来说应该通过细化评价维度和标准、众包人工评测来完成。但是人工评测方法成本高、周期长,对模型的迭代不友好。业内另一种相对成熟的评测方式是使用更强大的模型进行评测,例如 GPT 系列模型。通过人工标注和 GPT 标注结果进行对比我们发现,GPT 和人工标注结果的趋势基本相似,且 GPT 在标注上更加的一致。因此最终选用 GPT 作为评价标注,对比两个模型的输出进行选择得到模型胜率,作为模型的评分。在前期的测评中我们发现,GPT 存在较为明显的“端水”现象,且存在于多个指标的内和外。在一个指标内,除非两个文案有明显的大的差别,否则 GPT 倾向于打平,导致最终的打分区分度不足。而在多个指标之内,GPT 会自然的倾向于在不同指标之间维持平衡,在一个指标上的上升往往会伴随着另一个指标的下降。为了解决上面两个问题,我们通过调整 prompt,指定 GPT 做互斥评价,在两个文案中必须选择一个。同时多个指标通过不同的 prompt 分别进行打分,避免指标之间的互相影响。模型系列的选择参考社区的下载量和评论等,我们首先将选择范围限定在 LLaMA 的中文版、Baich-uan 系列、ChatGLM 系列和 QWen 系列等。具体的模型背景在此不再赘述。LLaMA-Alpaca-Chinese、Openbuddy-LLaMA2 等以 LLaMA 系列模型为基础的中文模型,对原始词表进行扩展,从而支持更多的中文字符。同时使用中文数据进行 CT 和 SFT,使得模型获得在中文上的指令跟随能力。Baichuan、ChatGLM、QWen 等是原生的中文大模型。我们首先测试了直接使用 prompt 进行 zero-shot 的文案生成。通过精心设计prompt,模型的回答满足了一定的流畅度和优美度的要求,对于文案风格的需求也可以在一定程度上满足。但是对于字数限制、格式需求、更加精细的文案需求,通用的大模型距离可用还有一定的差距。因此我们收集了一批广告文案生成的文本数据,经过简单的 SFT 之后,再对模型的能力进行评测。在客观指标方面,包括文案输出格式、文案数量控制、文案字数控制上,各个模型的表现都相对较好,能够输出符合要求的文案格式,文案数量控制的准确率都超过了97%。在文案字数控制上,Openbuddy-LLaMA2 表现相对较差,输出文案长度不161|智能创意在合理的范围内的超过 3.5%,其次是 ChatGLM、Baichuan,QWen 在字数控制上表现最好。值得注意的是,原生的中文大模型都显著的好于 LLaMA 的中文版,但中文大模型之间的差距较小。有趣的现象出现在主观指标上。Baichuan 和 ChatGLM 像是浪漫的诗人遇到了严谨的学者,在文案的流畅、优美等方面,Baichuan 都表现出了明显的优势,发挥了丰富的想象力,但是商品的准确率略差。QWen1 虽然在流畅度和商品准确方面好于Baichuan,在优美度上也是落了下风。LLaMA 的中文版相对来说表现最差,在所有指标上均没有显出明显优势。在后续的持续迭代中,我们也注意到,随着开源模型的不断改进,同一系列模型的效果也会有明显的提升。例如 QWen1.5 模型(QWen 模型的最新版本),相比Baichuan 系列、QWen1、ChatGLM 系列等模型,QWen1.5 模型的效果在客观指标上基本持平,但在所有的主观指标上均有明显的提升。考虑到广告智能文案的业务特点,我们最终选择了各方面都更加优秀的 QWen1.5 模型作为底模。模型参数的选择除了不同的底模,模型的参数量也是我们需要考虑的因素。从直觉上来说,bigger is better,但是在具体的业务落地中,更多的参数会带来更大的资源需求和更长的 RT。我们尝试了 6B-14B 的中小规模的模型,并用上述的评估方法进行选择。在客观指标上,更大的模型确实会带来更好的效果。同一系列的模型,增大模型规模可以一定程度的提升模型的控制能力,QWen 系列的 14B 模型比 7B 模型,在文案字数控制能力上有了一定的提升,字数波动的范围也更小。但是在主观指标上,更大的模型并没有带来明显的性能提升。我们猜测,对于固定种类的文案生成任务,我们的文案类别尚没有达到小规模模型的上限。同时考虑到对计算资源的需求,14B 模型相比 7B 模型存在质变,14B 模型需要经过量化才能在单卡 A10 提供服务,而 7B 模型通常可以在 FP16 下载入。更小的显存占用,也可以通过 batch 的方法显著的提升平均文案生成速度。因此我们最终选择了QWen1.5-7B 的模型提供服务。162|智能创意3.模型训练3.1 数据准备为了实现大模型在广告文案场景的落地,高质量、多样化的数据是重中之重。得益于团队长久以来的工作,我们积累了大批量的数据,难点主要在于数据清洗。图 4:数据准备纯文本数据的清洗相对比较直接。我们基于业务场景需要,定义了多种文案类型及其特点,包括长短文案的字数、输出格式等,使用多样化的规则对海量数据进行清洗,并基于商品类目覆盖、输出字数覆盖、输出数量覆盖等多样性标准进行了筛选和过滤,最终形成了纯文本的训练数据。此外,由于文案还被用于视频解说等场景,对文案的口语化、吸睛开头、各种有趣形象的描述也有了进一步的要求。基于此,我们增加了高质量的视频解说数据,以增强模型的口语化能力,并产出更吸引人的高质量的文案。我们从线上的高质量视频数据出发,通过 ASR、OCR 增强和修复等方法,获得了高质量多样化的口语化文案数据。最后,利用更强大的大模型进行数据生成也是一种重要的获取数据的手段。针对新兴的、没有存量数据或难以获取存量数据的文案需求,我们根据文案的特点和要求,使用更强大的大模型,例如 GPT4 等,作为生成器,通过 prompt 工程和 answer 163|智能创意engineering,生成了高质量的数据,增强的较小规模模型的生成能力。同时,为了尽可能的保留模型原始的指令跟随能力,避免模型在业务数据上过度训练,完全拟合成为业务特点模型,我们还收集了通用的指令跟随数据集,以供在训练中进行数据混合。3.2 训练过程为了更好的对大语言模型进行微调,众多的微调方法被开发出来,例如 Prompt Tuning、Prefix Tuning、P-Tuning、LoRA 等,deepspeed 和 ZeRO 等 优 化模型显存占用和模型并行的方法也极大的降低了微调大模型的难度。我们尝试了P-Tuning、LoRA、全参数微调后,最终选择了全参数微调作为主要的训练方法。4.效果大模型的使用,为广告智能文案业务打开了新的局面。一方面,我们可以接受更大量的文本信息的输入,从商品的标题、属性,到商品详情页的文本,大模型强大的理解能力,为我们打开了输入的大门。另一方面,大模型能够生成更加高质量的文案,完成对原有文案的替换和升级,打开了文案优选的候选池,打破了原有文案生成的能力边界,让智能文案生成的可能性和发展方向更加的多元。我们的文案生成大模型,集成了多种类型的文案生成能力,并对外提供统一的服务。图 5:智能文案生成流程164|智能创意4.1 原有文案的升级和替换基于大语言模型,我们对原有的文案生成能力进行了统一的升级和替换。针对原有文案生成能力分布在多个模型的问题,我们使用统一的大模型进行了替换,并使用不同的 prompt 进行能力的激发和提供服务,提升了文案服务的易维护性和易用性。在悉语文案生成工具中的通用场景文案生成功能中,我们提供的 4 种 10 条文案均出自同一个模型,生成的文案相比原有文案质量高、表述多样。流量实验证明,我们的新文案相对老文案,用户的采纳率有明显提升。图 6:悉语智能文案工具改进效果对比通过例子也可以看出,新模型提供的相同类别文案可以描述商品的不同的特点,更加多样化。长文案摆脱了过于模式化的表达,增强的文案的吸引力。在外投场景中,受限于原有模型的生成能力,为商品生成的外投标题相对比较单一,且存在较多的 bad case,例如商品和标题关联性弱等问题,导致需要人工复核,文案生成成本高且效率低,线上覆盖率很低。我们使用大模型生成了多种长度、多种风格的外投标题,使得外投标题更加易读且提现商品特点,极大的提升了智能文案的覆盖率,支持了多个外投场景的落地。4.2 原有业务的升级原有业务,例如直通车、外投等,受限于文案生成能力,对外输出文案以原始的商品名称和模式化相对严重的数据统计类文案为主,文案的可读性和吸引度都不高。在大165|智能创意模型强大的文案生成能力的加持下,我们根据业务特点,生成了表达通顺、多样化、有吸引力的文案。在直通车场景中,我们主要扩展了多种表述风格的商品摘要。通过挖掘商品信息输入大模型中,生成了描述商品卖点的、风格化的商品摘要,例如浮夸风、科普风等。流量实验表明,浮夸风和科普风均有相当的提效。将风格化摘要文案加入文案优选池后,显著提升了广告效果。图 7:直通车摘要改进效果在混剪工具中,受限于原有模型的长文案生成能力,剪辑得到的视频仅使用背景音乐,而缺乏商品解说。绘剪工作同样如此。我们将大模型生成的长文案引入混剪和绘剪中,支持设计亮点、卖点讲解、网红推荐、买家体验、凡尔赛文学、大促优惠等风格的文案解说,扩展了视频生成能力,为广告主提供了更全面的广告内容。166|智能创意图 8:智能文案引入绘剪和混剪4.3 新业务的扩展和探索更准、更好、更吸睛的文案生成在基础的文案生成能力已经得到较大的满足后,我们将目光放在了高质量文案的生成方面。相比于简单的、平铺直叙的产品解说,有着精致的开头、形象化的表达、极强的感染力和号召力的视频文案无疑更能得到广告主和消费者的青睐。同时,优质文案的生成,也对文案的可控性有了更强的需求,控制精准的、广告主深度参与的文案生成也是一个很重要的命题。基于此,我们对模型的口语化水平、高质量开场白、形象化描述、文案可控性等进行了增强训练。我们筛选了高质量的商品解说视频,通过ASR 获取其文案,并通过 OCR、文本分类、大模型等对文案进行订正和关键信息提取,同时使用重放策略,加强输出和输出之间的连续,增强可控性。基于上面的改进,我们对视频文案进行了升级,使得生成文案更适合视频解说,且更加的高质量。结合团队积累的视频相关技术,为广告主提供了高质量的多模态创意。更可解释、可合理的关键词关键词是广告召回阶段重要的一环,联系了人、货、词。原有的关键词来源相对局限,和商品强相关而与用户意图联系不强。借助于大模型长上下文的信息总结能力,我们从用户意图和更广泛的商品信息中,提取了关键词,实现了对关键词的升级和更新。大模型生成的关键词,在来源上,从标题扩展到了商品属性、商品详情页等;从语义上,是
2024NEW ENERGY NEXUS中国影响报告为100%创造100%清洁能源的可持续发展的世界 2EXCEL加速营2024特别版-创享计划NEX候融科技加速营LG新能源寻找创新新势LG新能源电池挑战赛2024TERA-Award智慧能源创新赛蚂蚁集团研究院 X NEX中国项回顾PPROGRAM REVIEW0202鸣谢THANK YOU PARTNERS!0404 录全年亮点年度创新企业-盈利开源象数据平台上线NEX中国携营企业地量共同推OpenEarthTwin-碳衡科技 发布个向中微企业的碳服务普惠融项“碳数贷”-华茂能联 四川省2024年“专精特新中企业”-江智能 选2023年江苏潜在独兽企业榜单-正式签约!NEX中国成为港深创科园批合作伙伴-系列活动精彩不断!NEX中国成为届上海候周合作伙伴-对话南周末:绿贸易壁垒下出海的机遇与挑战-关注年需求,为绿转型汇聚新量业态构建ECOSYSTEM ENGAGEMENT0303-NEX亮相进博会:搭建全球创新与合作桥梁关于我们NEX中国战略向年度回顾YEAR IN REVIEW0101NEX中国业务板块1 2年度回顾2024New Energy Nexus中国影响报告候动减缓和适应候变化对乎所有17项可持续发展标都是必要或者有益的经济适的清洁能源确保所有都能获得负担得起的、可靠的、可持续的现代能源我们的作与联合国可持续发展标(Sustainable DevelopmentGoals,简称SDGs)紧密相连,特别是SDG7经济适的清洁能源,以及SDG13候动。New Energy Nexus(NEX)作为家国际创新服务平台,直致于推动全球能源转型。回望过去余年,我们通过系列项为众创新企业及企业家提供持,并与其携起建设清洁能源态,实际动加速应对全球候变化的进程。NEX中国作为这使命在中国的延伸,扎根本,为地政府、园区、中企业提供业务需求匹配与咨询服务,以科技创新促进能源转型和碳中和标的实现。通过识别与评估具有规模化潜的能源转型解决案,NEX中国整合资源,搭建线上线下合作平台,促进能源企业、科研机构、政府部和投资者之间的深互动和合作。关于我们202持的创新企业创新企业有性层领导318聚焦赛道可再能源、氢能、储能、新能源汽、碳管理、能源数字化、候融科技、Web3102对接中国电池企业海外业务数量创新企业与企业的试点项合作5重点运营项53组织创新企业赴欧洲和中东参与国际峰会及圆桌讨论5创新企业被提名参与国内外奖项评选2024年,我们持续赋能:2024New Energy Nexus中国影响报告4062016年以来我们持了家创新企业在减碳的路上我们持续前进600万吨累计减少氧化碳直接排放量测算标准:NEX中国所持的部分创新企业提供的数据加总,涉及的业包括光伏、储能、氢能等,数据依据温室体核算体系核算2024New Energy Nexus中国影响报告累计减少氧化碳间接排放量2,120万吨测算标准:NEX中国所持的部分创新企业提供的数据加总,涉及的业包括候融科技、碳管理,数据依据绿信贷项节能减排量测算指引核算7,300万元2024年撬动的资体量测算标准:创新企业在营加速营前和营后的新增融资额2024New Energy Nexus中国影响报告2024年,我们进步深化了“进中国,向世界”(China In,China Out)的战略,继续以上海为点为国内的合作伙伴引进国际流标准的创新机制与服务,同时扮演好中国清洁能源创新在国际舞台绽放的桥梁与催化剂。2025年,通过链接全球300多个创新者络资源,我们将着协助创新企业的绿出海,践通过持技术创新改善候变化的使命,在新的国际格局下,提供更切实的服务。进中国向世界持中国清洁能源解决案在全球扩展,确保标准的合规性。分享中国绿转型经验,帮助全球南国家采纳有效解决案,推动可持续发展。中国与国际清洁能源创新者之间的桥梁与催化剂。赋能全球清洁能源态系统,助创新企业解决案规模化落地。促进跨境合作,加速清洁技术的商业化进程。搭建全球领先的创新机制和全链条服务体系,推动技术和资源的有效对接。引进国内外清洁技术在中国落地,助本地态实现能源转型。扮演链接中国与世界能源转型的桥梁“进中国,向世界”(China In,China Out)战略路径NEX中国战略向肖洁New Energy Nexus 中国 总经理专注于前沿技术,通过赋能创新企业成和技术创新落地,帮助企业优化产和供应链,减少碳迹并提效率。通过连接企业与创新解决案,加速脱碳进程,促进价值链共同成,为可持续未来提供可复制的实践路径。通过产业对接服务,为中企业提供对话平台,为创新技术解决案公司提供技术验证和推机会,拓展市场渠道。通过促进跨化合作,提升中国清洁能源技术的全球影响,推动国际合作。通过赋能创新企业,进步深度链接清洁能源态系统,推动本地能源转型。扎根本,搭建态,以科技创新促进地政府、园区、中企业的能源转型需求和碳中和标的实现。拥有全球络和业专家团队,全球视野,提供定制化研究报告及尽职调查服务,助企业把握业动态和市场资源。为企业、地政府和机构识别机会、应对挑战,保持市场领先。NEX中国业务板块2024New Energy Nexus中国影响报告产业对接企业创新调研及咨询创新态策略传播通过多样化的叙事式,传播中国绿低碳转型的故事,促进候变化等关键问题上的国际合作,展中国在清洁技术创新的领导。2 2项回顾2024New Energy Nexus中国影响报告1加速营特别版-创享计划EXCEL2候融科技加速营NEX3新能源寻找创新新势LG5智慧能源创新赛TERA-Award重点项20244新能源电池挑战赛LG20246中国蚂蚁集团研究院 X NEX2024New Energy Nexus中国影响报告影响覆盖亚、欧、美三洲3创新态产业对接110 专业活动场次7校友企业选1,000 企业影响次由NEX和清华四川能源互联研究院联合主办的EXCEL加速营,成以来持续专注于推动能源候领域创新公司产业化发展,招募持来全球的科技创新公司在能源候向加速成。2024年EXCEL加速营联合清华学电机系校友会发布“创享计划”,为中型企业、科技创新型企业和投资界校友们提供交流合作平台,为校友个和企业发展提供帮助和持,在建设新型电系统,打造新型能源体系,实现双碳标的过程中贡献清华量。点击回顾:解锁候创新机遇,EXCEL加速营邀你同加速!国内家在能源候领域专注于推动创新公司产业化发展的加速营 加速营 特别版 -创享计划EXCEL20242024New Energy Nexus中国影响报告2,000部分营企业促使业氧化碳间接减排量1,000部分营企业年营业收点击回顾:候融科技加速营开营亮点内容点击回顾:绿创想 数智未来2024 NEX智启低碳三科技创新2024候融科技加速营营企业国内家专注于候融科技领域的加速营NEX候融科技加速营主要服务于融科技企业,致于推动融科技创新公司在候领域的产业化发展,依托产业公司的需求,提供系列持服务,包括技术优化、产业对接和市场拓展等。两年期间,加速营招募28家创新公司,累计持42位创新企业家。2024年,NEX中国和三绿洲智赵巷园区合作再升级,共同举办了“绿创想数智未来2024 NEX智启低碳三科技创新”活动,再次将焦点对准候融议题。候融科技加速营 NEX创新态产业对接14营企业数量2家万万吨2024New Energy Nexus中国影响报告该项由LG新能源与NEX中国携发起,围绕动电池、电池管理系统(BMS)、储能(ESS)三个重点向寻找合作机会,旨在为共同探索中国储能领域与动电池市场的更多可能。在七个的项历程中,LG新能源在NEX中国协助下接触众多中国动电池与储能企业,筛选部分企业深交流并达成初步合作意向。除此之外项还聚焦相关领域研究并产出业报告,深探索中国电池技术发展和市场趋势。点击回顾:LG新能源寻找创新新势电池管理系统(BMS)动电池储能(ESS)重点关注向项进程250 LG新能源触达中国动电池与储能领域的企业数量13家企业进步交流136家企业初步达成合作意向6筛选试多轮沟通研报告产出3篇针对中国动电池市场的研报告3助探索中国电池市场 新能源寻找创新新势LG企业创新产业对接研究咨询32024New Energy Nexus中国影响报告2优胜企业数量该项由LG新能源与NEX携发起,旨在加速全球范围内新兴电池技术和商业模式的采。NEX作为项的管理者和推动者,在全球范围内招募了超过140家创新企业报名参与。通过严格筛选,共有19家企业围试阶段,并与LG新能源展开深讨论创新技术及合作潜。经过最终评选,来美国的Iontra和挪威的Evyon脱颖出,两家企业分别获得3万美元奖。未来,他们还将与LG新能源合作,推动创新项落地,实现技术的进步突破。点击回顾:寻找新代电池技术的创新者向全球,催化电池技术创新新能源电池挑战赛LG202419围试企业数量141招募企业数量创新态产业对接4Jeff GranatoIontra创始IontraIontra是家总部位于美国的电池充电技术公司,其技术适于所有商锂离电池,能够帮助设备制造商为客提供性能更优、安全性更的解决案。Iontra计划于2026年底推出专为电池充电设计的微控制器单元(IONTIC MCU),为消费电设备的制造商提供可规模应的站式解决案。2024New Energy Nexus中国影响报告2024 LG新能源电池挑战赛获奖企业Iontra最近完成了C轮融资,这不仅证明了我们技术的巨市场潜,也为公司下阶段的快速增提供了有持。接下来,客将在个内推出搭载Iontra 技术的产品,同时,我们专为充电设计的 MCU 样品将于2025年供客试。感谢NEX提供的帮助,他们响应及时、考虑周全,使得我们和LG新能源的沟通常顺利。Iontra的充电控制解决案独具特,并已获得专利保护。该技术基于电动学理论,能够深了解电池状态,优化电流传输,实现更效的锂嵌过程,从有效减少充电过程中可能导致电池损坏的多种机制。通过效充电和寒冷天下的稳定表现,提升电池效率并加速电动普及。通过优化产艺和延电池寿命,有效减少设备制造量,提升储能效率以降低更换频率和减少废弃产品,减少垃圾填埋和废弃物;同时有效降低CO2排放。Iontra的解决案对清洁能源领域的影响获胜感“Iontra 很荣幸参与2024 LG新能源电池挑战赛,LG新能源作为电池领域的领导者直是Iontra希望合作的对象。此次挑战不仅让Iontra展了创新技术,也加强了与 LG新能源和 NEX团队的合作关系。Iontra的技术除了能够提升电池供电产品的充电性能,还可泛应于电池价值链的多个环节,包括预成型、质量控制(QA/QC)和电池筛选等。未来3到5年,Iontra 将从最初的固件授权业务扩展到定制化 IONTIC MCU 的规模销售。”“240吨减少氧化碳排放量EvyonEvyon 的使命是通过结合先进的电池智能技术和再利业化流程,最化电动汽电池的价值。Evyon 的专有硬件和电池云态系统能够将废旧电动汽电池转化为价值、低碳迹的电池储能系统,以满多个细分市场快速增的需求。2024New Energy Nexus中国影响报告2024 LG新能源电池挑战赛获奖企业Jrgen ErdalEvyon创始从在 2020 年创 Evyon 以来,我们的标直是证明电动汽电池的再利不仅能够成为种环保的选择,还能在经济上具备可持续性。获得像 LG新能源这样世界领先品牌的认可和持,标志着我们向这标迈出了极为重要的步。我们感激 New Energy Nexus 提供的机会,并期待与 LG新能源开展后续合作。Evyon 开发了能够将电动汽电池模块转化为安全且经过认证的技术、流程和业务关系。这其中包括 Evyon 主研发的Battery Cloud 电池云基础设施,它不仅在电池进“第命”后仍能实时监控系统状态,从确保效和可靠的运。Evyon解决案对清洁能源领域的影响获胜感“LG新能源希望发掘并持推动电池业发展的企业和技术,这愿景与 Evyon的使命和愿景度契合。最终,通过电池挑战赛的试和筛选,Evyon 成功围决赛,并将与 LG新能源合作,验证基于 LG新能源汽电池模块的规模固定式储能产品的可性。与像 LG新能源这样的领先电芯及模块制造商直接合作,Evyon 不仅能够通过与顶尖专家协作加速技术开发,还能确保期获取电池模块的供应保障。如果个试点项取得成功,Evyon的标分明确:基于 LG新能源再利电池模块,扩展规模固定储能解决案。要标是率先在欧洲范围内推此解决案,之后再考虑拓展其他地区。”“2024New Energy Nexus中国影响报告2023-2024年第三届NEX中国协助赛完成海外简介会从全球招募到质量项其中海外项占76%赛设置百万美元奖,旨在全球范围内寻找并持零碳科技创新项,推动绿能源发展。NEX中国作为持伙伴和赛已携过四年,全持赛招募和宣传,助链接全球资源。第四届赛正在热招募中,2024年赛聚焦可再能源、储能及能源转化、CCUS技术、绿燃料及氢能、能源智能化以及智慧城市六赛道,现在关注报名,就有机会冲击百万美元奖!点击回顾:TERA-Award智慧能源创新赛第四届赛热招募中现在扫码报名冲击百万美元奖智慧能源创新赛TERA-Award50个1场百万美元奖持零碳科技创新创新态产业对接52024New Energy Nexus中国影响报告 向光奖年度学术研究奖2024 TOP10NEX中国通过每季度提供12份业洞报告,聚焦新能源与电、跨境碳管理、AI与可持续发展等主题,并结合业分析、案例研究和专家访谈,提供质量研究持。此外,项还通过引荐相关企业和机构,促进深度合作,助蚂蚁集团在可持续发展、科技创新及影响投资领域深化专业知识,探索业务增的新机遇。截2024年底,项已交付两份“AI与电市场”专题报告,并举办两次内部分享会,吸引近百参与。以专业知识助可持续发展,开拓业务增机遇Web3与低碳发展作者:陈钰什、赵亚夫、邓茜之、朴实、吴雅玲、李泽琨本报告由NEX与蚂蚁集团研究院合作完成,旨在探索Web3技术对低碳转型的影响。研究过程中,NEX以其在候融科技领域的业影响和专业能为基础,为蚂蚁集团研究院提供了前沿技术的知识储备和持,以赋能蚂蚁集团的战略投资、产品开发、国际合作等团队。报告荣获2024向光奖年度TOP 10学术研究奖。蚂蚁集团研究院 中国X NEX研究咨询6双轨转型的应案例3 2业态构建2024New Energy Nexus中国影响报告2024年,我们也在持续扩影响.41NEX中国组织、参与的活动数量69,000 活动覆盖关注低碳的观众数7举办Cheers!系列社群活动3NEX中国及三家候融科技加速营企业就跨境碳管理的问题接受了来南周末的采访230 链接的态合作伙伴8参与或组织的政企交流会2,100,000 年度曝光量活动涉及跨境碳管理、企业转型、AI X Climate等前沿话题并获得了来上海银、中国商银、超级蟹蟹等机构的持2024New Energy Nexus中国影响报告Cheers!Thursday AI X Climate系列社群活动NEX中国参与GITEX展会NEX中国组织主题瓶对话科技x可持续=XBNEF X NEX中国2024候科技创新之夜NEX中国参与S创展会NEX国际代表聚上海,参访蔚来汽NEX席财务官Christina Borsum受邀参加2024国际能源可持续发展论坛2024New Energy Nexus中国影响报告盈利开源象数据平台上线2签约港深创科园3成为上海候周批合作伙伴4对话南周末5年度亮点2024关注年需求61亮相进博会2024New Energy Nexus中国影响报告1加州、兰州-上海项对接会点击回顾:聚焦进博会|从出海到海,NEX考察团解锁跨国合作新机遇中国国际进博览会(CIIE)作为全球个以进为主题的国家级展会,汇聚了全球商业领袖和创新者,今年更是获得了全超亿次的曝光量。其中创新孵化专区集中展了34个国家和地区的360个创新项,助中企业和初创公司的国际化发展。期间,NEX携旧湾区委员会(Bay Area Council),组织了“CIIE 中美访问代表参访团”,带领美国企业家代表团来华,深产业,为中外企业合作搭建起了沟通桥梁。NEX全球席执官亨利范埃根(Henri van Eeghen)先也受邀来到上海,与本地及国际合作伙伴进深交流,并带来了NEX在全球范围内的创新洞与实践案例。NEX 亮相进博会:搭建全球创新与合作桥梁Cheers!CIIE进博会加州馆开幕仪式上海市交委组织企业实地参访NEX全球席执官Henri van Eeghen受邀参加 第四届智能交通上海论坛带来主题分享2024New Energy Nexus中国影响报告扫描维码即试盈利开源象数据平台上线?中国携营企业地量共同推点击回顾:键查询各类象数据!开放数字地球OpenEarthTwin上线2024年,NEX候融科技加速营持的企业地量上线了开放数字地球 OpenEarthTwin平台,平台将各类开源象数据进聚合,以API和可视化的式为国内提供数据。作为个多机构合作的盈利项,该平台覆盖了新能源、农业、然灾害预测等多个业,持全球量开源的预测,包括象模型预测。OpenET已经整合了包括ECMWF,NOAA,DWD,CMA,UK Met Office等多个国家的开源全球模式数据。未来,OpenET会有更多的模型上线,例如国产的模型Fengwu、Fuxi等,为提供更权威的数据服务。作为项的共同推者,NEX中国将继续发挥在链接全球资源和促进候融科技创新的优势,为OpenEarthTwin平台带来更多的合作机会和技术持,帮助平台扩全球影响与应。NEXOpenEarthTwin22024New Energy Nexus中国影响报告点击回顾:NEX中国与港深创科园达成合作协议 中国成为港深创科园批合作伙伴2024年4,港深创科园合作伙伴启动仪式于港特别政区政府楼会议厅顺利举。港特别政区官李家超携港府官员出席开幕式,致开幕辞。在政官李家超、署理财政司司伟纶,以及创新科技及业局局孙东教授证下,NEX中国与阿巴巴创业者基(AEF)、北京学、中国移动港、联想集团、清华学、中关村创、曾集团等约60家国内外企业、机构、校作为批合作伙伴出席了启动仪式。NEXNEX作为清洁能源加速器在持创新企业发展有着丰富的经验,也直将推动清洁能源态的创新发展作为的使命。在中国市场我们积极响应“3060”双碳标策略,持续采取“China In,China Out(进中国,出中国)”的战略,并在多个清洁能源赛道推进加速营项、级别访问代表团以及各类态活动。我们期待与港深创科园深合作,未来在才流、物流、资流、数据流等配套服务上为更多创新企业提供切实便利,进步推动“中国企业出去、海外企业引进来”的期战略。32024New Energy Nexus中国影响报告点击回顾:回顾NEX候融科技加速营开营亮点内容点击回顾:智能如何助应对候变化?听听咖们怎么说 中国成为届上海候周合作伙伴我们于2024年425携态伙伴举办了“2024候融科技加速营开营”以及“候周共庆夜Cheers!Climate Week”活动,分别亮相在上海候周的“候融公园”和“候社群公园”环节,共同参与并助绿低碳态交流。当天有160余位来政府、融机构与企业、创新企业以及态合作伙伴的专业参与。第站:2024年4252024NEX候融科技加速营开营-新营员代表与颁奖嘉宾NEX第三站:2024年12122024候创新活动就候科技焦点COP29旗舰专题报告解读与发布;除此之外,还围绕AI在能源电系统、国际绿贸易壁垒以及绿融和普惠融的融合设置了三个平论坛展开深度对话。活动共吸引了70余位业嘉宾及专业观众出席,现场就如何应对全球候变化挑战展开了热烈探讨。Cheers!Climate Week-何超欣发由复旦学管理学院与上海候周联合举办“科技驱动绿发展”论坛于2024年619举办,旨在探讨如何通过科技创新推动绿可持续发展,以实现环境友好与经济增的双赢局。NEX中国作为ESG共建社群之也参与其中。第站:2024年619点击回顾:“科技驱动绿发展”论坛开启,NEX邀你加对话NEX参与圆桌对话点击回顾:“绿创想 数智未来”NEX创新回顾42024New Energy Nexus中国影响报告对话南周末:绿贸易壁垒下出海的机遇与挑战碳衡科技CEO 彦翔:绿低碳有望成为中国制造业的核优势,成为企业出海的新名。尽管绿贸易壁垒带来挑战,但也促使企业提升环保标准,实现绿转型,从在国际市场上更具竞争。NEX候融科技加速营项经理:NEX通过举办候融科技加速营,为候融科技的创新企业提供持,这些企业正在利云计算、数据和智能等技术段,提碳管理的效率并降低成本。中国企业在绿贸易壁垒的压下,正逐步提升的环保标准和国际竞争,NEX中国在这转型过程中将全推动能源领域创新、持中企业发展。蔚碳科技联合创始 嬴超:不少中国企业,尤其是中型企业 临 欧 盟 碳 边 境 调 节 机 制(CBAM)等国外政策的现状:缺乏基本认识,也不知如何应对。但是前,多数企业还没感到切肤之“痛”。碳益科技CEO 陈碳迹的计算是道极其复杂的数学题,尤其对于整个供应链来说,这会对链主企业和各级供应商都产影响,尤其是供应链上的中企业,他们通常缺乏够的资源和能来应对这挑战,因此处境更加艰难。点击回顾:算碳,减碳,绿壁垒来了,如何帮助企业出海?2024年6,NEX中国及发起的候融科技加速营的营企业蔚碳科技、碳衡科技以及碳益科技,就中国企业在出海时对绿贸易壁垒时的挑战与机遇,接受了来南周末的采访。52024New Energy Nexus中国影响报告为绿转型汇聚新量NEX中国直关注年发展,希望能汇聚更多新量加速向清洁可持续的未来迈进。2024年,我们向中外学群体组织了四场活动,邀请到了余位业专家、创新企业创始,就绿产业发展趋势、相关实践案例以及就业与职业发展等主题为学群体带来了精彩分享。校联合系列讲座讲座由NEX中国主办,西南财经学融学院联合主办,旨在扩候融科技在年中的影响,引导更多年学参与到绿转型中来。讲座由NEX候融科技加速营持的企业家碳衡科技CEO彦翔以及蔚碳科技的CTO嬴超主讲。两场活动吸引了近300位校学线上参与。绿途启航?候职业交流会2024年9,NEX成功在线上举办了“绿途启航:候职业交流会”,活动邀请到了来咨询、资管机构以及创新企业的四位资深嘉宾,通过企业宣讲、职业规划分享及现场答疑的式,为学分享了从业经验和招聘信息。活动吸引了百余位国内外优秀学报名参与,家起学习、探讨候领域职业前景,收获颇丰。新加坡年访学交流会2024年12,由NEX中国联合新加坡加速器Reactor主办的新加坡年群体交流活动在上海开展,活动聚焦清洁能源话题。由NEX中国和苏州中鑫新能源有限公司战略与控负责分别分享了国内清洁能源初创态建设与业的发展现状。活动吸引了来新加坡国学、南洋理学、新加坡管理学以及菲律宾Ateneo学的20余位师参与,他们拥有商科、科、史等多元化的专业背景,对新能源业的发展和未来应表现出浓厚兴趣,现场讨论热烈。点击回顾:NEX中国携苏州中鑫聚焦新加坡能源市场点击回顾:绿途启航候职业交流会62024New Energy Nexus中国影响报告碳衡科技华茂能联江智能123年度创新企业20242024New Energy Nexus中国影响报告点击回顾:专访碳衡科技CEO彦翔:发挥科技 融的量,破局中微企业降碳“困境”NEX候融科技加速营2023年营企业、荣誉营友作为家绿低碳服务平台型企业,碳衡科技通过提供碳核算、碳信息披露及绿融服务,助企业实现绿转型。“碳数贷”是公司与中国建设银合作的创新融项,专为中微企业设计,通过提供低息贷款持企业在碳核算、技术升级和清洁能源采购等的资需求。该项不仅帮助企业获得国际认证,增强其在全球市场的竞争,也为企业打开了国际市场的。未来,碳衡科技计划将“碳数贷”服务模式复制推,满企业在低碳转型中的多元化需求。该项在2024 NEX候融科技加速营开营进了正式发布,这也是碳衡科技作为加速营荣誉企业的阶段性成果展。发布个向中微企业的碳服务普惠融项?“碳数贷”通过加NEX候融科技加速营,碳衡科技有机会和更多态合作伙伴对接,也能更深地理解业发展趋势和客需求。依托NEX的泛络和丰富资源,碳衡科技也在不断扩影响,加速其在绿融领域的成和发展。碳衡科技12024New Energy Nexus中国影响报告点击回顾:专访华茂能联COO谢洹:如何块“能源海绵”推动电系统转型?2023年EXCEL加速营营企业华茂能联是家专注于分布式能源管理和虚拟电的创新型电系统公司,致于通过其创新技术提电系统的灵活性、可靠性和经济性。公司的主要产品包括虚拟电和微电解决案,通过数字化技术和智能算法实现电的全监控和优化,同时结合智能充电桩、储能调控设备等硬件,实现分布式资源的精准调控。华茂能联的研发团队占超过80%,拥有30余项专利,其DR Epic产品系列管理着超过50亿的电资源,展现了公司在科技创新和电系统管理的雄厚实。华茂能联虚拟电应案例EXCEL加速营直助华茂能联成,为其提供了国际化视野和全能建设的平台。加加速营以来,华茂能联在NEX中国的持下,不仅稳步前,还积极探索更阔的发展空间,为全球能源转型贡献中国创新量。华茂能联四川省 年“专精特新中企业”202422024New Energy Nexus中国影响报告点击回顾:清新访谈庞海天:深度阐释边缘计算技术,助能源产业创新发展作为电边缘智能领域的积极创新者,江智能2018年成以来,以边缘计算为核,结合智能算法,挖掘物联数据中的价值,持续赋能电能源业数智化转型升级。公司业务聚焦于智能巡检和负荷调控两核产品线。智能巡检系统已在电变电站、新能源电站、机和光伏场站等多个场景实现落地应,通过远程智能巡视系统,实现对设备的实时监控和维护。负荷调控产品则针对源荷储体化趋势,通过调控终端优化配电负荷,提升电调节能。此外,公司还参与了国设备部的技术标准讨论,展现了其在业内的技术领导。截前,江智能累计完成5轮数亿元融资。公司也在积极探索出海,跟随南瑞公司或中电装备公司等合作伙伴,将产品部署到巴西、中东等地区,以及在南进新型电系统的部署,以解决当地电和配电问题,提升光伏利率,降低综合电成本。选 年江苏潜在独兽企业榜单2023年EXCEL加速营营企业、2024年EXCEL加速营特别版“创享计划”江智能CEO庞海天接受采访江智能作为2024年EXCEL加速营特别版“创享计划”的批营企业,深度参与了由创享计划发起的各项产业发展、技术转化、投资对接等活动,实现了企业的全位发展。江智能202334 2鸣谢AVPNBottleDreamClimindGITEXImpact Hub ShanghaiReactorSGSThe Lantau GroupUrbanLabYGT宝信软件超级蟹蟹三绿洲智赵巷地量电享科技复旦学管理学院复旦 MBA低碳清洁能源俱乐部港深创科园国际顶尖孵化器会华为数据中汲川传播接科创晶科能源旧湾区委员会昆杜克学LG新能源落基研究所绿融60论坛蚂蚁集团研究院妙盈科技南周末能源基会我们真诚地感谢您在2024年的时间和慷慨的持感谢您成为NEX中国态的员励我们推动中国和全球的清洁能源转型鸣谢彭博新能源财经浦东益科循环双碳公益中清华学清华四川能源互联研究院S创中国西派可思绿化中商道纵横上海电中央研究院上海交通委员会上海科威国际技术转移中上海候周上海银社会企业与影响投资论坛施耐德电苏州中鑫新能源Tera-Award 碳汭未来智慧能源创新赛碳衡科技淘碳郎蔚来汽蔚碳科技西南财经学亚逊云科技亚洲柏林峰会益社正泰国际智谱AI中国国际进博览局中国国际间组织合作促进会中国商银临港新区中国建设银上海分中国能源研究会中国普惠融研究院中国汽程学会2024New Energy Nexus中国影响报告为100%创造100%清洁能源的可持续发展的世界欢迎通过以下平台检索 New Energy Nexus 关注我们,获取前沿清洁能源资讯!
专题:礼遇自然,守护生物多样之美1服务“一带一路”可持续发展报告Sustainability Report on Serving the Construction of the Belt and Ro.
欧洲航空 环境报告 2025执行摘要和建议2欧洲航空环境报告 2025执行摘要事实证明,这十年果然对气候变化具有决定性作用。2023 年和 2024 年,世界各地的气温频频再创新高,随之而来的气候变化.
梅赛德斯-奔驰集团中国可持续发展蓝皮书 2023-2024目录03 梅赛德斯-奔驰集团中国管理层致辞07 梅赛德斯-奔驰介绍08 梅赛德斯-奔驰集团中国介绍10 可持续发展商业战略11 梅赛德斯-奔驰.
益海嘉里金龙鱼益海嘉里金龙鱼食品集团股份有限公司2050净零目标及路线图董事长致辞022050净零目标及行动路径04价值链碳足迹PAGE 07基准年排放量PAGE 09减排行动PAGE 11价值链减碳.
垛喹2024酒俱马戴参 遐2024酒豸扑垛喹钡痄桤饼聪缵朝豸驳赕津峻朝允酒痄蓟篇赞聪缵朝允碰喹耢豸垛喹倾奘俯钡耀扦馆阴露穆败鹃允地倒沱贝喹篆允地匈j蛳豸蓖俱膝蹄桐珉芙蓟喹耢允享莲豸门陲咯穸碰喹耢败鹃朝.
影响力报告目录环境治理员工和社区产品和安全010204032.1取代化石燃料1.1我们的使命4.1为可持续能源发展的未来培养人才3.1让电动车更加经济实惠2.2产品的碳排放影响1.2概述3.2畅享出行.
-1-2024 年年12月月16日日第第43期期总第总第669 期期2024 年美国小企业问题与优先事项年美国小企业问题与优先事项【译者按】【译者按】全美独立企业联盟自 1982 年开始编制 小企业问.
企业绿色化转型方法论企业绿色化转型方法论研究研究报告报告(2022024 4 年年)中国信息通信研究院信息化与工业化融合研究所2024年12月版权声明版权声明本报告版权属于中国信息通信研究院,并受法律.
12目录目录目录.2关于公司.4业绩表现.4发展历程.4ESG相关荣誉.4管理层致辞.6汇聚科技创新成果,打造美好智慧之家,共赢可持续未来.6发展战略.8可持续发展.9党建引领.10深化“领航工程”,.
建发股份碳中和白皮书WHITE PAPER TOGETHER TO A NET ZERO FUTURE专业 共进 生生不息建发股份碳中和白皮书WHITE PAPER TOGETHER TO A NET.
?DIRECTORYDIRECTORY?41?65?01?06?34?03?12.67g/kWh?100%?72?
北 京 师 范 大 学 公 司 治 理 与 企 业 发 展 研 究 中 心中国公司治理 50 人论坛()No.23(2024)内容简介高明华 等中国公司治理 50 人论坛第五届主题论坛(第十八届中国公.
12022领英赋能中国企业全球化LinkedIn Talent Solutions for Chinese Enterprises Going Global人才解决方案2 1中国企业全球化正当时 1.
罗兰贝格:预见2025:中国行业趋势报告(77页).pdf
腾讯研究院:2025年AI图景解码50关键词(64页).pdf
AI人工智能基地:2025DeepSeek爆火详细报告(71页).pdf
甲子光年:2025年DeepSeeK开启AI算法变革元年报告(16页).pdf
火山引擎&IDC:2025大模型应用落地白皮书(74页).pdf
增长黑盒:2025消费趋势及增长策略洞察报告(87页).pdf
埃森哲:未来生活趋势2025(96页).pdf
智源研究院:2025十大AI技术趋势报告(25页).pdf
腾讯研究院:2025年AI转型的进展洞察报告(32页).pdf
罗振宇2025跨年演讲:时间的朋友【完整PDF】(236页).pdf
wei**n_... 升级为至尊VIP wei**n_... 升级为标准VIP 186**40... 升级为高级VIP 189**50... 升级为高级VIP 公**... 升级为标准VIP 138**54... 升级为高级VIP wei**n_... 升级为标准VIP 159**56... 升级为至尊VIP wei**n_... 升级为高级VIP 139**57... 升级为至尊VIP 156**69... 升级为标准VIP 139**57... 升级为高级VIP wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP 156**49... 升级为高级VIP 186**10... 升级为标准VIP wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP wei**n_... 升级为至尊VIP 186**97... 升级为至尊VIP 186**83... 升级为至尊VIP 周**... 升级为至尊VIP 152**96... 升级为至尊VIP wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP wei**n_... 升级为至尊VIP 139**08... 升级为至尊VIP 137**35... 升级为至尊VIP wei**n_... 升级为高级VIP wei**n_... 升级为至尊VIP wei**n_... 升级为标准VIP 186**09... 升级为高级VIP 178**87... 升级为至尊VIP wei**n_... 升级为至尊VIP wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP wei**n_... 升级为高级VIP wei**n_... 升级为高级VIP wei**n_... 升级为标准VIP 139**81... 升级为至尊VIP wei**n_... 升级为至尊VIP wei**n_... 升级为标准VIP 178**82... 升级为至尊VIP 178**82... 升级为高级VIP 183**20... 升级为至尊VIP wei**n_... 升级为标准VIP wei**n_... 升级为至尊VIP Yo**so 升级为至尊VIP wei**n_... 升级为高级VIP 139**24... 升级为至尊VIP 134**29... 升级为至尊VIP Vi**an... 升级为标准VIP wei**n_... 升级为高级VIP 189**92... 升级为至尊VIP 134**70... 升级为至尊VIP 188**77... 升级为至尊VIP wei**n_... 升级为标准VIP 138**68... 升级为至尊VIP wei**n_... 升级为至尊VIP wei**n_... 升级为至尊VIP 136**58... 升级为高级VIP 188**53... 升级为至尊VIP wei**n_... 升级为标准VIP wei**n_... 升级为至尊VIP 131**39... 升级为标准VIP wei**n_... 升级为至尊VIP wei**n_... 升级为至尊VIP wei**n_... 升级为标准VIP 185**04... 升级为高级VIP 186**97... 升级为高级VIP wei**n_... 升级为至尊VIP 185**74... 升级为至尊VIP wei**n_... 升级为至尊VIP Zh**七... 升级为至尊VIP 139**03... 升级为至尊VIP 湖**... 升级为至尊VIP 159**15... 升级为至尊VIP 153**11... 升级为至尊VIP wei**n_... 升级为至尊VIP 135**89... 升级为至尊VIP 135**30... 升级为标准VIP wei**n_... 升级为高级VIP wei**n_... 升级为至尊VIP wei**n_... 升级为标准VIP 第** 升级为高级VIP 138**50... 升级为标准VIP wei**n_... 升级为至尊VIP wei**n_... 升级为高级VIP wei**n_... 升级为高级VIP 177**88... 升级为至尊VIP 杨坤 升级为至尊VIP 有**... 升级为至尊VIP 健**... 升级为至尊VIP 181**38... 升级为至尊VIP 181**38... 升级为标准VIP 139**07... 升级为高级VIP wei**n_... 升级为高级VIP wei**n_... 升级为高级VIP wei**n_... 升级为至尊VIP wei**n_... 升级为至尊VIP |