1、多模态预训练技术及在电商领域的应用严明阿里巴巴 达摩院 高级算法专家2022.07.30|01多模态技术研究背景03多模态电商场景应用02AliceMind多模态预训练技术04总结与展望目录|01多模态技术研究背景多模态技术背景?文本生成图像?DALLE 2ImagenVQA图文视觉问答?VQA数据集常见问题?视频问答Video QA?|02AliceMind多模态预训练技术多模态预训练取得显著进展2019202020212022多模态算法挑战多模态语言模型:打造图文任务核心底座,广泛应用于图文理解、生成等任务,大幅减少图文多模态场景的开发成本挑战:如何进行高效准确地视觉语义特征表示Regio
2、n/Grid/Patch如何设计有效的多模态信息深度融合机制/结构(文本:high-level语义,图片:low-level语义)多模态预训练(统一多模态理解和生成)时效性(端到端)融合机制(自适应)如何更好地建模图片文档的二维坐标信息以及区域box-level结构化信息(富文本图片结构化理解)AliceMind-MMU整体技术框架多模态结构化知识融入?StructuralLM?有效地跨模态特征融合?Learning toAttend?多样性特征表示和建模?StructBERT?region?grid?patch?端到端视觉语义增强的多模态预训练 E2E-VLP?E2E-VLP:End-to-
3、End Vision-Language Pre-training Enhanced by Visual Learning,ACL 2021 Oral基于跨层融合的高效多模态预训练 mPLUG?mPLUG:Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections,Arxiv?VQA Challenge 2021?Achieving Human Parity on Visual Question Answering,https:/arxiv.org/pdf/2111.08896.pdf.VQA
4、Case Study AliceMind-MMU v.s.HumanRelational ReasoningAliceMind理解位置关系、对比关系、排除关系Common Sense KnowledgeAliceMind熟悉日常生活知识(天气、颜色、食物、地理等)Visual RecognitionAliceMind熟练记忆和识别,比如动物种类、花纹风格等VQA Case Study AliceMind-MMU v.s.HumanObject CountingAliceMind可以简单计数,大于10的时候效果比较差Textual RecognitionAliceMind还不能很好的理解和推理O
5、CR文本|03多模态电商场景应用多模态电商场景应用总图?智能客服多源异构多模态问答?知识库文本/文档图文/视频问题分类/匹配(最开始)机器阅读(MRC)(2017 2018)多模态问答(VQA)(2019 2022)智能客服商品详情页VQA?智能客服商品详情页VQAVQA?智能客服商品详情页VQA?Q:拉链长什么样子?Q:有商品背面的图吗?Q:什么面料?(没有文字描述)(第一张图图文并茂,信息量更大)(没有文字描述)技术挑战 图片切分?技术方案 多模态预训练底座统一支持?OCR?Query?OCR?Bounding Box?StructBERT?用户问题图片1文本图片2文本图片1图像图片2图像
6、Transformer是否合并图片图片分类标签问题-图片匹配度多模态预训练下游统一任务形式智能客服视频问答?主图视频Q:这套化妆品咋用?智能客服视频问答?=?=?=?Video-Text Matching(多粒度对比学习)X-CLIP:End-to-End Multi-grained Contrastive Learning for Video-Text Retrieval,ACM MM 2022多模态商品理解结构化?多模态商品理解结构化 商品类目预测?技术方案 商品类目预测 预训练 Visual Encoder(