《AI多媒体技术在内容审核场景实践探索_马金龙.pdf》由会员分享,可在线阅读,更多相关《AI多媒体技术在内容审核场景实践探索_马金龙.pdf(34页珍藏版)》请在三个皮匠报告上搜索。
1、AI多媒体技术在内容审核场景实践探索马金龙 趣丸科技(TT语音)马金龙 多年媒体算法开发经验,涉及音视频图像文本,负责过音频前后端处理,弱网优化,音视频质量提升,智能内容安全审核“T网”,内容理解“T悟”等大型项目。曾作为“灵声讯”创始人,参与智能媒体技术自媒体运营和推广。个人介绍内容审核目前现状与挑战01AI多媒体技术实践之路02智能内容审核平台案例03AIGC内容风控实践04未来展望051.内容审核目前现状与挑战政府监管越来越严用户内容层出不穷违规种类繁杂AIGC内容不可控现状挑战【实时性】需要紧跟政府管控要求【准确性】对花样变体不漏杀不误杀【多样性】违规种类需不同算法解决【未知性】AIG
2、C生成内容不确定且存在知识“幻觉”2.AI多媒体技术实践之路自建 OR 第三方?具备数据血源追踪、问题实时监控、技术辅助运营等风控能力可管可控极速响应生态保障针对安全,时效等方面推出高响应审核,让内容审核安全高效通过机审结果多样化处置、账号违规处置等多种手段,保障平台生态安全高效定制推出特殊时期/突发事件的相关定制化,快速响应国家政府的紧急要求2.AI多媒体技术实践之路自建优势:T网 是一个通过人工智能的算法打造一站式内容安全机器审核的平台,帮助公司审核团队实现语音,文本,图像,小视频等风险管控的能力。对于此项目的目的可总结如下:贯彻国家网信办有关网络内容安全的各项规定低成本高效率的加强内容风
3、险管控构建智能审核技术护城河,为公司内容生态保驾护航探索内容审核新方法,践行公司的社会责任2.AI多媒体技术实践之路2.1 语音识别2.2 NLP文本审核2.3 多模态识别2.4 音频事件检测2.5 小语种识别2.6 歌曲识别2.7 声纹识别2.8 违规图像识别2.1 ASR-技术方案技术目标用户产生的语音数据输入ASR模型,模型输出该语音的文字内容,以供下一环节NLP检查是否包含违规词,或违规内容。模型总体逻辑使用深度学习模型Transformer/Conformer(如图中Shared Encoder)提取输入音频中的特征使用CTC解码得到若干候选文本。图1.T网-ASR端对端方案2.1
4、ASR架构Efficient ConformerConvolution neural networks和transformers models组合Efficient Conformer设计结合量化剪枝和蒸馏技术,压缩模型大小提供CPU和GPU,支持高吞吐量识别图3.ASR中Efficient conformer技术方案图2.T网-ASR支持的功能2.1 ASR-效果图4 T网-ASR优化后的推理速度图5.ASR 测试报告(CER)和模型大小2.2 NLP算法总体框架图6.T网-NLP总体框架NLP算法模型:Prompt 算法文本表情复杂表示的多模态识别算法关键词挖掘算法Bert 算法AIGC
5、语料生成算法Fasttext 算法2.2 NLP内容审核的困难与挑战变体关键词的多样化文字与表情包的结合的复杂表达文字与字母或字母缩写结合的复杂表达特定场景语料不足与稀疏性特定关键词词的隐晦表达正常词与关键词相同,但不同上下文上语义不同纯文本审核面临的问题与挑战:构建文本表情字母多模态识别系统异常关键词大数据监测系统多层次语义分析系统构建变体关键词挖掘系统AIGC语料生成系统我们的成功案例:2.2 NLP内容审核-效果呈现图7.NLP关键词挖掘示意图图8.NLP文本审核效果违规标签精确率辱骂94.45%色情95.03%涉政91.31%广告90.96%违禁92.98%2.2 文本未成年人识别关键
6、词匹配分析框架,支持多种匹配方式、多种过滤条件,并支持自定义特殊标记,及支持特定动作行为,将未成年人识别实现模组化的流程分析。未成年识别精确率99%+;图9.T网文本未成年人审核技术框架模态模态2.3 多模态算法原理项目背景单模态审核特征不全面,多模态结合语气和语义信息可提高处罚有效率。人工审核量级大,需要对不同类型的违规进行灵活处置。建模算法Transformer 跨模态多头注意力机制;随机森林;图10.Transformer 跨模态多头注意力机制图11.随机森林2.3 多模态高准召回模型指标多模态算法上线处罚有效率为99%+;如右图,每日占总机审违规样本约17%;模型价值提高对违规样本的召