《2020年终大会-计算机视觉:11-5.pdf》由会员分享,可在线阅读,更多相关《2020年终大会-计算机视觉:11-5.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、多媒体内容理解在美图社区的 应实践 付超 分享纲 多媒体内容理解 短视频分类 视频指纹 OCR 总结 多媒体内容理解 多媒体内容理解 短视频分类 短视频分类在社区的应场景 基于标签的召回搜索相关推荐排序模型特征用户画像 短视频的特点 随意性多样性单一性 不平均性多元性个性 时效性实时性结构性 模型选择 多模态尝试 分类模型:NextVlad 均匀取300帧 特征提取:efficientnet-b3 音频特征提取:VGGish 文本特征提取:Bert 改进NextVlad 多模态尝试 93%的时间都消耗在图片特 征提取 精度相差不大 流程复杂 下载下载 1% 视频特征视频特征 93% 音频特征音
2、频特征 4% 文本特征文本特征 2% 分类分类 0% 多模态多模态TSMGSM 特征提取(ms)81565656 推理时间(ms)86623031 准确率90.2%86.3%89.6% 舞蹈类别对比 舞蹈类别: 爵士舞韩舞街舞手势舞古典舞 肚皮舞拉丁舞民族舞少儿舞钢管舞 芭蕾舞鬼步舞广场舞宅舞 Nextvlad pipeline 耗时对比 单模态视频分类模型 C3D 一般性能都不好,而且由于涉及大量的参数和计算量 TSN 每帧取均值,缺乏时间编码能力 GST 在分离的通道,2D和3D卷积并行模拟空间和时空相互作用 TSM 使通道在时间上固定前移或者后移 GSM 特征选择能力和数据路由能力的时空
3、间特征模块 视频分类模型GSM GSM(Gate-Shift Module)模块 GSM是对几种现有方法的概括: 当gating = 0时,退化为TSN 当gating = 1时,收敛到TSM GSM放在卷积数较少的分支上 GSM优化点 增加128位全连接层 增加网络深度 效果:提升2% 优化采样 解决数据不均匀问题 例: 视频:64帧,间隔:8帧 效果:最多可以提升20% GSM VS TSM TSM GSM TSM VS GSM性能对比 GSM准确率提升8.81% GSM召回率提升27.63% 二次标签预测 目标 进一步提升召回率 结果 准确率基本不变 整体召回率提升 11% 视频指纹 视频指纹难点 改变视频时长 添加水印、 logo和文字 修改分辨率 改变视频内容 我们的解决方案 特殊的数据增强方法 中心加权&特征聚合 二次校验 视频指纹Pipeline 特征提取 Center Ke