3-2 Zero 和 R2D2：大规模汉语跨语域基准和视觉语言框架.pdf-在线下载-三个皮匠报告

1、邓亚峰碳硅智慧创始人&CEOZero and R2D2:A Large-scale Chinese Cross-modal Benchmark and A Vision-Language Framework|1目录n 背景n 中文图文跨模态数据集-Zeron2个预训练数据集n5个下游任务数据集n 图文跨模态预训练框架-R2D2nPre-Ranking+Ranking框架nTarget-guided Distillation+Feature-guided Distillationn 实验结果n 业务落地n 总结|2目录n 背景n 中文图文跨模态数据集Zeron2个预训练数据集n5个下游任务数

2、据集n 图文跨模态预训练框架R2D2nPre-Ranking+Ranking框架nTarget-guided Distillation+Feature-guided Distillationn 实验结果n 业务落地n 总结|3图文跨模态表示应用场景|query：一只白色的小羊4CLIP|结果5DALLE-2|6基于CLIP的改进工作（双塔模型）现有的中文图文跨模态模型，包括最有影响力的WenLan、Wukong等，普遍以CLIP作为基础，通过对比学习构建双塔模型该类双塔模型分别在独立的图像和文本语义空间提取特征，难以构建图文间的细粒度关系WenLanWukong|7多模态模型框架：单塔vs双

3、塔|单塔模型（UNITER、OSCAR、阿里M6等）主要优点：能够学到图文数据细粒度特征上的关联，表示能力更强主要缺点：计算量大，特别是对于图文检索问题，对每个输入，都需要在线与候选集中所有候选构建数据对，并经过模型做相似度计算，无法离线计算对训练数据要求更高，要求图文对间有较强关联双塔模型（CLIP、Wenlan、Pangu等）主要优点：计算量小，可以提前提取候选数据的特征，对每个输入，只需要计算输入数据经过模型后的特征，与候选库中特征的相似度对训练图文对数据的关联程度要求略低主要缺点：主要关注图文整体的匹配，细粒度特征关联不足，表示能力差于单塔模型8目录n 背景n 中文图文跨模态数据

4、集-Zeron2个预训练数据集n5个下游任务数据集n 图文跨模态预训练框架-R2D2nPre-Ranking+Ranking框架nTarget-guided Distillation+Feature-guided Distillationn 实验结果n 业务落地n 总结|9领域需要一个公平完整的统一Benchmark 借助大规模训练语料库（如英语），大多数视觉语言预训练模型被证明对下游任务有益然而中文视觉语言数据集很少，并且存在各种局限性如何构建一个完整、公平且具有高质量文本描述的中文跨模态基准成为一个亟需解决的问题视觉语言预训练大模型下游任务图文互检图像/文本生成视觉问答视觉推理等等我

5、们提出了一个大规模中文跨模态基准数据集 Zero，它包含了两个被称为 Zero-Corpus 的预训练数据集和五个下游任务数据集，一定程度上填补了中文图文跨模态领域数据集的空白|10数据集自动构建|一个黑人男子穿着背心站在赛场上强相关数据标记困难，人工标注成本高，周期长全站百亿搜索行为数据图文低质数据清洗，获得高质量（query，图像）对用户query行为分布分析大规模训练数据:2.5亿量级文本-图像匹配数据 1 2 3 4数据清洗方案Two zebras雅鲁藏布大峡谷方案优势：数据规模大：2.5亿样本符合真实场景：真实用户QUERY+全网图片低成本：无需人工标注强相关数据例子：11中文图文跨

6、模态数据集-Zero Zero跨模态数据集：2个预训练数据集+5个下游任务数据集（网站：https:/ of the five fissure wonders)Content:奉节地缝亦称天井峡地缝，全长有37公里，最大深度有229米，而最窄处仅2米、而峡谷高度达900米，形成气势宏伟的“一线天”，被岩溶专家称作“世界喀斯特峡谷奇中之稀”。峡谷上段较为开阔，但愈往下愈狭窄，上部宽10至30米，谷底宽仅1至30米，悬崖最深处达300米(Fengjie fissure,also known as Tianjingxia fissure,has a total length of 37 kilome