当前位置:首页 > 报告详情

冷大炜-多模态大模型LMM与细粒度开放世界目标检测.pdf

上传人: 哆哆 编号:630912 2025-04-19 58页 13.11MB

1、冷大炜 360人工智能研究院视觉方向负责人目前带领研究院视觉团队在多模态大模型,视觉AIGC,跨模态图文学习,开放世界目标检测,开放词表视频分析,AIoT等方向进行前沿探索和工业落地工作。演讲主题:多模态大模型LMM与细粒度开放世界目标检测多模态大模型LMM 与细粒度开放世界目标检测冷大炜 360人工智能研究院人工智能研究院简介q 人工智能研究院 360人工智能研究院成立于2015年,目前隶属于技术中台,下辖两个研发Team:CV方向的视觉引擎和NLP方向的认知引擎,核心成员和团队多次荣获 AI 相关比赛冠军/提名奖项,发表顶会、顶刊论文数十篇。业务落地方面,研究院提供智能安全大数据、互联网信

2、息分发、企业数字化、AIoT等 360 集团全量业务场景支持,支持千万级硬件设备,亿级用户。q 视觉引擎 视觉引擎是研究院CV方向的研发主体,21年开始聚焦在“多模态+跨模态学习”以及“大模型+zero/few shot学习”方向,在中文图文跨模态学习、开放世界目标检测、开放词表视频分析、AIGC图像生成以及多模态大模型等领域展开研究。2360 AI Research研发主线大模型+zero/few shot多模态+跨模态3业务覆盖大模型积累视觉引擎贡献了其中的5/75 视觉-语言跨模态学习 开放世界目标检测OVD 多模态大模型LMM 细粒度开放世界目标检测12346什么是大模型大参数大算力大

3、数据7什么是大模型大数据大参数大算力8大模型算法视觉-语言跨模态学习 Vision-language cross modal learning,亦称为VLP(Vision-Language Pretrain)、VLM(Vision-Language Model),代表性的工作是20年OpenAI的CLIP,开启和引领了CV多模态研究的大模型时代Li,Yingming,Ming Yang,and Zhongfei Zhang.Multi-view representation learning:A survey from shallow methods to deep methods.arXiv

4、 preprint arXiv:1610.01206 1(2016).9视觉-语言跨模态学习Radford,Alec,Jong Wook Kim,Chris Hallacy,Aditya Ramesh,Gabriel Goh,Sandhini Agarwal,Girish Sastry et al.Learning transferable visual models from natural language supervision.In International conference on machine learning,pp.8748-8763.PMLR,2021.100.4B1.8

5、B5B5BCLIP20ALIGN21BASIC22DFN23Data Size视觉-语言跨模态学习中文图文跨模态模型 R2D2 图文跨模态学习带来的基于内容的图文互检能力对于互联网搜索来说具有非常重要的落地价值,来自于360搜索的实际业务需求非常强烈。360搜索:使用跨模态模型之前的搜索结果360搜索:使用跨模态模型之后的搜索结果视觉-语言跨模态学习中文图文跨模态模型 R2D22300万训练数据,在中文图文检索任务上达到SOTAXie,Chunyu,et al.Zero and R2D2:A large-scale Chinese cross-modal benchmark and A vis

6、ion-language framework.arXiv preprint arXiv:2205.03860(2022).双塔base+单塔head的混合模式专门针对数据噪声设计的momentum-updated encoder和masked input+soft label双蒸馏视觉-语言跨模态学习原始的互联网图文对,caption的描述通常并不连贯,呈现关键词堆叠+无关词噪声夹杂的现象视觉-语言跨模态学习中文图文跨模态模型 R2D2伴随着算法和模型,我们一同开源了对应的图文跨模态数据集Zero,包含2.5亿中文图文对数据基于用户点击CTR筛选,数据质量更高https:/2300万3000万

word格式文档无特别注明外均可编辑修改,预览文件经过压缩,下载原文更清晰!
三个皮匠报告文库所有资源均是客户上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作商用。
本文主要介绍了多模态大模型LMM(Large Multimodal Model)的发展现状和360人工智能研究院在多模态大模型领域的研究进展。 1. 多模态大模型LMM旨在解决纯文本语言模型LLM只能理解文本输入的先天缺陷,赋予大模型对多模态信息混合输入的理解和处理能力。 2. 目前多模态大模型LMM的研发路线主要有原生多模态路线和单模态专家缝合路线。原生多模态路线训练成本高,缝合路线可以复用各单模态领域的已有成果,训练成本较低。 3. 360人工智能研究院在多模态大模型领域的研究进展包括: - 2023年5月开源的SEEChat(后更名为360VL),属于第一代LMM,主要聚焦在模态对齐的原型验证上。 - 2023年底发布的360VL 3.0,属于第二代LMM,在图像对话/问答能力基础上,提供对图像中目标位置的开放世界检测能力。 - 360VL 3.0在MMMU/MMBench上,在开源模型中排名第一,证明了其在细粒度开放世界目标检测上的能力。 4. 未来多模态LMM将成为NLP和CV领域深度融合后的大模型,在通用能力上将覆盖当前非专业领域的绝大部分需求。
细粒度开放世界目标检测如何实现? 多模态大模型LMM如何提升目标检测能力? 360VL 3.0在细粒度开放世界目标检测上取得了哪些进展?
客服
商务合作
小程序
服务号
折叠