1、腾讯内容理解中的时序行为检测技术介绍,赵小彤 腾讯 算法工程师,|,目录 CONTENT,|,|,内容理解,Content Understanding,|,什么是内容理解?腾讯内容中台每日会产生大量文字、图片、视频、语音等内容信息,为了能够让相关应用在保证内容合规的前提下快速、合理的使用到其中高质量的内容信息,需要大量的相关机器学习模型可以自动化的针对不同业务需求产生对应的结果,从而进一步的挖掘现有数据的潜力以及业务价值,提升业务竞争力,内容理解,Content Understanding,|,什么是内容理解?腾讯内容中台每日会产生大量文字、图片、视频、语音等内容信息,为了能够让相关应用在保证
2、内容合规的前提下快速、合理的使用到其中高质量的内容信息,需要大量的相关机器学习模型可以自动化的针对不同业务需求产生对应的结果,从而进一步的挖掘现有数据的潜力以及业务价值,提升业务竞争力,内容理解,Content Understanding,|,内容理解的应用质量保证动态以及专项管控音视频及图像中娱乐炒作、伪科学、导流、画面问题、恶意推广等相关问题,保证相关内容的高质量相关技术:多标签分类、多模态内容理解等推荐系统针对用户的观看、浏览、购买等偏好进行对应图文、视频、商品等的推荐相关技术:多标签分类、图文匹配等检索系统针对用户提供的文本、图片等信息,在现有数据中快速精准的进行相关内容的检索、匹配,
3、以满足使用者检索需求相关技术:图文、视文检索、特征对齐等音视频创作/新闻撰写针对文字、图像、视频、音频、虚拟人等内容,基于给定的格式或者风格,并通过用户提供的描述进行相关内容的自动化生成,显著降低相关内容生成的门槛相关技术:AIGC、镜头拆分等,内容理解,Content Understanding,|,内容理解相关机器学习技术Label Classification/Generation针对输入的图像、文本、音频进行对应标签的分类或者生成Text-to-Image/Video Retrieval针对输入的文本,输出现有数据中匹配度最高的图片或视频Image/Video Caption针对输入的
4、图片或视频,输出描述该图片或视频的文本Visual/Video Question Answering针对输入的图片或视频,以及对应的问题输出该问题的答案AI Generated Content(AIGC)基于用户的一段描述,自动生成对应的文本、图像、视频、音频等内容Visual Grounding/Object Detection针对输入的图片和用户描述,输出该描述涉及物体的标定框ASR/OCR针对输入的音频或图片,输出其中包含的文本内容,|,行为检测,Applications,|,“行为”,作为最能体现图像内容及其价值的属性之一,是否能快速准确的通过模型对一段图像内容中所发生的的行为进行检测
5、,也即成为了能否有效进行内容理解的关键任务“行为检测技术”作为内容理解中标签分类以及标签生成中的子任务之一,其承担着对于图像内容动态特征的有效理解,行为检测,Overview,|,定义:给定一段视频输入,返回其中发生行为的起始帧、结束帧,以及行为类别行为检测作为标签分类的子任务,已成为视频内容理解中最重要的下游任务之一,考虑到现有业务中,不论是内容质量或者视频匹配检索,均与其中发生的行为紧密相关,由此,构建一个高准且鲁棒的行为检测器成为了视频理解的关键同时,经过行为检测任务训练好的行为特征可以作为多模态特征之一,有效应用于如视频预训练等特征表征任务中,进一步增强其中特征的时序信息,行为检测,R
6、elated Works,|,Segment-based representation作为现在最常用的行为检测方法,类似于现在流行的物体检测方法,当前时序行为检测主要有三种使用行为片段的方式:1.作为锚点,2.作为中间结果,3.作为最终预测结果作为锚点的表征方式主要应用于anchor-based架构,这类方法采用时序滑动窗口或者预选区域生成的结果作为锚点作为中间结果是当前行为检测最常用的方法,均匀采样或者时序池化被用于从这些中间片段结果中最终提取出行为特征P-GCN在局部行为片段中使用最大池化操作得到潜在的行为特征 G-TAD将行为片段以区域形式进行均匀池化从而实现潜在行为特征抽取AFSD在行