刘洋《QQ浏览器视频搜索中的多模态技术》.pdf

编号:157228 PDF 21页 4.96MB 下载积分:VIP专享
下载报告请您先登录!

刘洋《QQ浏览器视频搜索中的多模态技术》.pdf

1、腾讯腾讯QQQQ浏览器视频搜索浏览器视频搜索中的多模态技术中的多模态技术Jelmeliu(刘洋)-腾讯QB视频搜索负责人主题目录1.背景介绍 1.QQ浏览器视频搜索介绍2.多模态技术的位置与重要性3.面临技术挑战2.技术分享1.封面视觉匹配2.视频内容帧3.OCR/ASR引入4.多模态融合3.后续技术展望QQ浏览器视频搜索场景 QQ浏览器每天承接数以亿计的搜索请求。其中50%的请求下都有视频结果。承接QQ浏览器、搜狗搜索下的搜索流量。视频搜索新挑战 视频生产、视频消费已成为趋势。传统基于图文网页的搜索技术面临新的挑战。跨模态检索、多模态理解成为必需。视频封面作为丰富的视觉呈现,对用户有很大的吸

2、引力,同时视频帧也蕴含巨大的信息,并且视频还有封面OCR文本、字幕文本等有信息增益的特征。视频搜索架构图 视频搜索与通用搜索引擎一样复杂,同时还具有自身的特性。多模态技术应用在在召回、理解、排序各个阶段。精排阶段以query&视频封面/视频内容帧/视频感知域/视频融合态匹配为主。多模态信号在搜索排序中权重非常大,同时多模态模型逐步呈现出大参数量模型的趋势。视频多模态技术整体框架 数据层:使用了视频不同模态的多种信号域。表征层:不同范式下不同模型的多种维度表征。匹配层:有双流、单流、半交互等不同方式计算query-视频的匹配度。应用层:生效在精排业务,以及多模态向量召回业务。视频精排重要特征信号

3、 接下来将围绕视频搜索精排中几个重要的跨模态信号来阐述:Query-视频封面跨模态匹配Query-视频内容帧跨模态匹配Query-视频感知域跨模态匹配Query-视频融合域匹配它们都是生效到精排线上,在排序模型中起到非常重要的影响。Query-视频封面 视频封面是视频资源最重要的摘要:传统文本匹配存在的局限性。展现结果的面积大、视觉元素吸引度强,封面对吸引用户点击有着至关重要的影响。初期我们采用基于卷积的ResNet方式,后升级为基于attention的MAE。开源图像数据集和实际视频搜索封面有很大差异,引入业务数据的预训练,在离线业务封面测试集上PNR指标有显著的提升(提升39%)Query

4、-视频封面 Image-Encoder和Text-Encoder分别以mask方式去建模恢复token,其实并未真正解决跨模态向量空间的映射问题。CLIP对比学习的方式实现了两者的统一。CLIP ChineseCLIP QA-CLIP 训练范式的升级:通过引入大规模的业务数据(标题-封面)进行Post-Pretrain,点击样本(query-封面)和人工标注相关性样本(query-封面)等多个阶段的训练手段,更好地让模型适配业务场景。多模态蒸馏技术的探索和实践 受限于线上GPU资源和成本的约束,query侧12层模型难以直接在线部署,于是我们探索针对多模态匹配场景的蒸馏方案。方案一(两阶段训练

5、和蒸馏方案):首先训练大模型,效果收敛后冻住大模型参数,蒸馏小模型;蒸馏阶段的Loss包含与文本小模型和图片表征的对比学习损失和文本表征蒸馏损失。方案二(蒸训一体的方案):训练大模型和蒸馏小模型的过程同时进行,这里的Loss为两个尺寸的文本模型表征和图片表征的对比学习损失和文本表征蒸馏损失。蒸馏损失相比两阶段蒸馏方案在封面测试集和排序测试集上分别减少2.22%和1.03%。Query-视频内容帧 搜索结果摘要相关不代表真实内容相关,需要重点关注内容相关性,提升用户对视频的长点和消费时长。V1早期版本-X3D:视频帧模态表征模型为X3D,输入多个连续的视频帧,通过卷积核进行特征提取,得到视频帧模

6、态的表征,在空间、时间、宽度和深度上沿多个网络轴扩展,同时具备参数轻量级、高时空分辨率的优点。V2版本-Video-Swin-Transformer:将Conv算子的滑窗机制和Transformer的自注意力机制进行结合,能够实现Transformer全局表征能力的同时兼具训练参数量和训练效率的优势。Query-视频融合态 不同模态之间信息的互补特性,通常多模态融合能取得较单模态更好的效果。在视频搜索业务中多模态融合技术体现在两个方面:视频感知域融合:我们将视频感知定义为用户点击播放视频前能看到视频展现结果的所有信息。它是用户点击消费视频的前提,因此我们

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(刘洋《QQ浏览器视频搜索中的多模态技术》.pdf)为本站 (stock) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠