报告预览

冷大炜-多模态大模型LMM与细粒度开放世界目标检测.pdf

编号：630912

PDF 58页 13.11MB 下载积分：VIP专享

下载报告请您先登录！

冷大炜-多模态大模型LMM与细粒度开放世界目标检测.pdf

1、冷大炜 360人工智能研究院视觉方向负责人目前带领研究院视觉团队在多模态大模型，视觉AIGC，跨模态图文学习，开放世界目标检测，开放词表视频分析，AIoT等方向进行前沿探索和工业落地工作。演讲主题：多模态大模型LMM与细粒度开放世界目标检测多模态大模型LMM 与细粒度开放世界目标检测冷大炜 360人工智能研究院人工智能研究院简介q 人工智能研究院 360人工智能研究院成立于2015年，目前隶属于技术中台，下辖两个研发Team:CV方向的视觉引擎和NLP方向的认知引擎，核心成员和团队多次荣获 AI 相关比赛冠军/提名奖项，发表顶会、顶刊论文数十篇。业务落地方面，研究院提供智能安全大数据、互联网信

2、息分发、企业数字化、AIoT等 360 集团全量业务场景支持，支持千万级硬件设备，亿级用户。q 视觉引擎视觉引擎是研究院CV方向的研发主体，21年开始聚焦在“多模态+跨模态学习”以及“大模型+zero/few shot学习”方向，在中文图文跨模态学习、开放世界目标检测、开放词表视频分析、AIGC图像生成以及多模态大模型等领域展开研究。2360 AI Research研发主线大模型+zero/few shot多模态+跨模态3业务覆盖大模型积累视觉引擎贡献了其中的5/75 视觉-语言跨模态学习开放世界目标检测OVD 多模态大模型LMM 细粒度开放世界目标检测12346什么是大模型大参数大算力大

3、数据7什么是大模型大数据大参数大算力8大模型算法视觉-语言跨模态学习 Vision-language cross modal learning，亦称为VLP（Vision-Language Pretrain）、VLM（Vision-Language Model），代表性的工作是20年OpenAI的CLIP，开启和引领了CV多模态研究的大模型时代Li,Yingming,Ming Yang,and Zhongfei Zhang.Multi-view representation learning:A survey from shallow methods to deep methods.arXiv

4、 preprint arXiv:1610.01206 1(2016).9视觉-语言跨模态学习Radford,Alec,Jong Wook Kim,Chris Hallacy,Aditya Ramesh,Gabriel Goh,Sandhini Agarwal,Girish Sastry et al.Learning transferable visual models from natural language supervision.In International conference on machine learning,pp.8748-8763.PMLR,2021.100.4B1.8

5、B5B5BCLIP20ALIGN21BASIC22DFN23Data Size视觉-语言跨模态学习中文图文跨模态模型 R2D2 图文跨模态学习带来的基于内容的图文互检能力对于互联网搜索来说具有非常重要的落地价值，来自于360搜索的实际业务需求非常强烈。360搜索：使用跨模态模型之前的搜索结果360搜索：使用跨模态模型之后的搜索结果视觉-语言跨模态学习中文图文跨模态模型 R2D22300万训练数据，在中文图文检索任务上达到SOTAXie,Chunyu,et al.Zero and R2D2:A large-scale Chinese cross-modal benchmark and A vis

6、ion-language framework.arXiv preprint arXiv:2205.03860(2022).双塔base+单塔head的混合模式专门针对数据噪声设计的momentum-updated encoder和masked input+soft label双蒸馏视觉-语言跨模态学习原始的互联网图文对，caption的描述通常并不连贯，呈现关键词堆叠+无关词噪声夹杂的现象视觉-语言跨模态学习中文图文跨模态模型 R2D2伴随着算法和模型，我们一同开源了对应的图文跨模态数据集Zero，包含2.5亿中文图文对数据基于用户点击CTR筛选，数据质量更高https:/2300万3000万

友情提示

1、下载报告失败解决办法
2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。
3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

本文（冷大炜-多模态大模型LMM与细粒度开放世界目标检测.pdf）为本站（哆哆）主动上传，三个皮匠报告文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三个皮匠报告文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。