1、DataFunSummit#2023模型与搜索告满意度-凤巢设计与实践演讲人 叶超 百度 资深算法工程师01搜索广告满意度02DNN-ERNIE03PROMPT 的应用04AIGC与想象力目录 CONTENTDataFunSummit#202301搜索广告满意度搜索广告场景还原商业广告搜索满意度商业搜索满意度是满足搜索引擎产品要求,结合商业搜索广告个性化特点,从浏览到点后、服务后行为的全面评估。商业搜索满意度=大搜搜索满意度 and 用户行为交互机器评价 and 商业后验服务质量商业广告搜索满意度商业搜索满意度是满足搜索引擎产品要求,结合商业搜索广告个性化特点,从浏览到点后、服务后行为的全面评
2、估。商业搜索满意度=大搜搜索满意度 and 用户行为交互机器评价 and 商业后验服务质量本期关注DataFunSummit#202302DNN-ERNIE背景 典型的广告点击率预估模型DNN onlineinput layerDNN embedding 海量用户行为日志 离散特征连续化 eg:userid-userid embedding 产出 sparse table:大规模词表 线上点击率预估模型 训练底层复用sparse table 产出 dense table:顶层MLP 矩阵技术迁移 大规模DNN建模相关性Embedding tasks are just like”DNN embe
3、dding”DNN-ERNIE 是不是直接把文本输入模型就可以了?DNN-ERNIE 是不是直接把文本输入模型就可以了?目标:实现彻底、完全的 ERNIE 在线化,既要准,又要快DNN-ERNIE 是不是直接把文本输入模型就可以了?目标:实现彻底、完全的 ERNIE 在线化,既要准,又要快技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力搜索相关性最强特征-标题非页面粒度例如:某电商3000多万营销页标题都一样:“APP下载,超多好货等你来”广告有复杂的点击率优化特质,用户点击信号无法代表相关性 信号失效“通配符-【品牌】电脑办公_正品低价_品质优选”必
4、须深入落地页进行长文本建模营销页图片多、碎片化、主题零散,语料噪声高DNN-ERNIE 是不是直接把文本输入模型就可以了?目标:实现彻底、完全的 ERNIE 在线化,既要准,又要快技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力重点举措:常规解法:新硬件 -GPU 蒸馏萃取-128D2H2L 模型剪枝-顶层优化 DNN-ERNIE 是不是直接把文本输入模型就可以了?目标:实现彻底、完全的 ERNIE 在线化,既要准,又要快技术挑战:深入高噪声落地页内容挖掘,克服长文本建模带来的语义理解挑战,与性能平方级增长压力重点举措:常规解法:新硬件 -GPU 蒸馏
5、萃取-128D2H2L 模型剪枝-顶层优化 提效举措:离散核心词集合输入与序列模型适配 多层级Token 化设计 与凤巢能力结合离散核心词集合输入与序列模型适配优化思路与效果背景与问题策略效果(AUC)核心词重要性稳定倒排baseline移除 pos embedding落地页侧 shuffle 输入按照页面顺序还原鲁棒性效果:积分梯度示意before:after:问题的本质是思考 pos embedding 的作用:1.ERNIE 可否退化为词袋模型?2.核心词稳定倒排是不是一种可以被学习的 LM 语法?3.有没有更好的输入方式?业务挑战:落地页侧为长文本,600-1500汉字信息量,多次人工
6、评估,落地页还原度可用需要 140汉字信息量,压缩比率低,性能挑战巨大,必须采取核心词集合输入基线:按照一般的思路,我们以核心词重要性稳定倒排作为模型输入问题:语义片段破坏严重:连续语段会因为重要性倒排而出现语义破坏核心词排序算法与模型耦合严重,预估鲁棒性差:模型对于头部核心词敏感,中部、尾部感知弱,核心词排序算法与模型学习出现耦合(见右图 before)线上quota利用率低:线上quota由于模型与头部核心词耦合,后续的计算浪费严重,未能充分利用算力数据:“北京到上海的机票”重要度排序核心词:“机票”“上海”“北京”Tokenization 优化|消歧抗噪,提速增效策略细节与效果问题1 字