谢春宇_多模态大模型：开放世界理解.pdf

上传人：张**

编号：177549

2024-10-01

PDF 49页 6.29MB

《谢春宇_多模态大模型：开放世界理解.pdf》由会员分享，可在线阅读，更多相关《谢春宇_多模态大模型：开放世界理解.pdf（49页珍藏版）》请在三个皮匠报告上搜索。

1、DataFunSummitDataFunSummit#20242024多模态大模型：开放世界理解谢春宇/360多模态团队负责人背景图文多模态大模型 360多模态大模型探索业务落地实践1234什么是大模型大参数大算力大数据什么是大模型大数据大参数大算力背景q人工智能AGI，我们需要什么？ChatGPT的发布标志着自然语言处理技术迈入了一个全新的阶段。自2022年底亮相以来，它凭借其惊人的语言生成能力，迅速成为AI领域的焦点。ChatGPT能够进行连贯、深度的对话，甚至创作诗歌、撰写文章，展现出了前所未有的创造力和理解力。这一突破不仅激发了公众对于AI技术的兴趣，还加速了科技界对通用人工智能

2、（AGI）的研究步伐。在教育、写作、娱乐等多个领域，ChatGPT的应用潜力正在被不断挖掘。教育工作者利用它辅助教学，作家借助它激发灵感，企业则将其融入客户服务，提高了效率与体验。同时，ChatGPT也引发了关于AI伦理、隐私保护及就业市场变革的广泛讨论，促使社会各界思考如何在享受AI红利的同时，建立相应的监管框架，确保技术的健康发展。总之，ChatGPT的出现不仅是技术上的革新，更是对人类社会未来发展路径的一次深刻启示。背景q人工智能AGI，我们需要什么？GPT4做为新一代的GPT模型增加了对视觉模态输入的支持，这意味着它能够理解图像并进行相应的自然语言生成增加了多模态能力的GPT4也带来了

3、应用层面的更多可能GPT-4V增强的视觉能力分析和理解图像内容，提供描述、识别对象，甚至解释场景根据图像生成创意文本格式翻译图像中的文本，强大的OCR能力GPT-4O具备原生多模态能力支持文本、音频、图像任意组合性能提升，更快的响应速度背景q视觉能力是通用人工智能AGI需必备的基础能力人类智能本身高度依赖于视觉感知理解世界情境感知交互能力学习能力识别物体预测运动视觉-语言跨模态学习 Vision-language cross modal learning，亦称为VLP（Vision-Language Pretrain）、VLM（Vision-Language Model），代表性的工作是20年

4、OpenAI的CLIP，开启和引领了CV多模态研究的大模型时代Li,Yingming,Ming Yang,and Zhongfei Zhang.Multi-view representation learning:A survey from shallow methods to deep methods.arXiv preprint arXiv:1610.012061(2016).视觉-语言跨模态学习Radford,Alec,Jong Wook Kim,Chris Hallacy,Aditya Ramesh,Gabriel Goh,Sandhini Agarwal,Girish Sastry

5、et al.Learning transferable visual models from natural language supervision.InInternational conference on machine learning,pp.8748-8763.PMLR,2021.0.4B1.8B5B5BCLIP20ALIGN21BASIC22DFN23Data Size视觉-语言跨模态学习中文图文跨模态模型 R2D2图文跨模态学习带来的基于内容的图文互检能力对于互联网搜索来说具有非常重要的落地价值，来自于360搜索的实际业务需求非常强烈。360搜索：使用跨模态模型之前的搜索结果36

6、0搜索：使用跨模态模型之后的搜索结果视觉-语言跨模态学习中文图文跨模态模型 R2D22300万训练数据，在中文图文检索任务上达到SOTA双塔base+单塔head的混合模式专门针对数据噪声设计的momentum-updated encoder和masked input+soft label双蒸馏1 Xie Chunyu,et al.CCMB:A Large-scale Chinese Cross-modal BenchmarkC/Proceedings of the 31st ACM International Conference on Multimedia.2023:4219-4227.视

谢春宇_多模态大模型：开放世界理解.pdf

相关报告