当前位置:首页 > 报告详情

内容安全中的多模态模型训练实践-陈德健.pdf

上传人: 2*** 编号:127393 2023-05-01 17页 1.23MB

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要探讨了内容安全领域中多模态模型训练的实践。作者陈德健,AI算法架构师,毕业于北京大学计算机系,曾就职于网易,参与商业智能、广告算法的研究与落地,2018年加入BIGO,主要从事AI技术的研究与应用。 文章指出,多模态研究的技术驱动力包括图像、语音、文字和用户行为等,而业务驱动力则包括短视频、直播、IM、语音房、语音交友、企业服务等。针对内容安全挑战,如全球化、面向企业客户的地域性、多样性以及时效性,作者提出了基于大量业务标注数据进行domain adaption和few-shot learning的方法。具体来说,第一阶段是审核场景优化,通过与CLIP预训模型进行特征维度匹配和域任务拟合,训练出符合审核场景的Image Encoder;第二阶段是客户场景定制化,根据客户新增场景进行定制化调优,通过计算图像和文本之间的cosine loss,实现快速优化。 作者以某东南亚产品的客户为例,展示了优化周期短、推送比低的效果。经过优化,某些标签细类的召回率得到了显著提升,如刀枪武器从58%提升到91%,动物色情从28%提升到95%等。 总体来说,文章提出了针对内容安全场景的多模态模型训练方法,并在实践中取得了良好效果。未来,多模态预训模型在内容理解、多模态推荐等领域有更广泛的应用前景,但仍需解决一些问题,如抽象概念上的识别效果、小目标识别以及文本模板的选择等。
"多模态模型如何提升内容安全?" "如何利用AI技术保障全球内容安全?" "图像-文本多模态研究面临哪些挑战?"
客服
商务合作
小程序
服务号
折叠