1、2 0 2 3 年深度行业分析研究报告CYfWvZqWeXvXsVlYuWyX8OaOaQtRqQpNtQiNoPnMiNoMmPbRqRoQxNsOxPuOmOqP 1 技术原理:图像理解+视觉生成持续发展,助力多模态能力提升 2.1 GPT-4 Turbo:多模态能力增强,使用成本降低 2.2 GPTs:加入Agents战场,与开发者共享收益 目 录 2.3 Assistant API:解决API开发者痛点,拓展OpenAI收入来源 1.1 图像理解能力提升:三大视觉学习方法 1.2 视觉生成:多模态内容理解和生成的闭环 3.1 算力&存力端:流量激增+多模态生成拉大算力缺口,同时带动存力
2、需求 2 当前变化:GPT4-Turbo模型优化,GPTs生态加速繁荣 3 未来影响:算力&存力亟需扩容,AI应用潜力无限,垂类数据或成关键 3.2 应用端:强化垂类属性&满足长尾需求,数量有望实现快速增长 3.3 数据端:专业数据或成关键,重视垂类数据留存及知识产权价值 2 1 技术原理:图像理解+视觉生成持续发展,助力多模态能力提升 章 节 小 结 技术原理 图像理解 标签监督 文本到图像(T2I)视觉生成 基于文本的图像编辑 CLIP 语言-图像编辑 HiCLIP STAIR 资料来源:西南证券 仅图像自监督 ImageBind 视频Q&A应用 对比学习 非对比学习 遮盖图像建模 3 资
3、料来源:Efficient Self-supervised Vision Pretraining with Local Masked Reconstruction,西南证券整理 1.1 图像理解能力提升:三大视觉学习方法 为打造视觉大模型,建立高效视觉预训练体系以提升图像理解能力至关重要,这影响到从图像整体(如分类、图文检索、标注)到部分区域(如物体识别、短语定位)及到像素细节(如语义、实例、全景分割)的各项任务。通用视觉预训练方法主要可归纳为三大类。1)标签监督:此方法在每张图片都配有对应标签的数据集上进行训练,如图像分类中,一张狗的照片会对应“狗”的标签,模型的核心任务是准确预测此标签。2
4、)语言-图像监督:利用完整的文本描述来引导模型学习,使模型能够深入挖掘图像内容与文本语义间的关联。3)仅图像自监督:利用图像本身固有的结构和信息来学习有意义的表示,而不依赖于显式的人工注释标签。图像编码器图像编码器 Image Image EncoderEncoder 图像编码器图像编码器 Image Image EncoderEncoder 文字编码器文字编码器 TextText EncoderEncoder 图像编码器图像编码器 Image Image EncoderEncoder 图像编码器图像编码器 Image Image EncoderEncoder 图像图像 标签标签 图像图像 文
5、字文字 模型的目标是在给出模型的目标是在给出图片时正确预测标签图片时正确预测标签 (1 1)监督学习)监督学习 (2 2)语言语言-图像监督图像监督 (CLIPCLIP)(3 3)仅图像自监督仅图像自监督学习学习 图像图像 语言监督利用图像语言监督利用图像&完整的文本描完整的文本描述之间述之间关联关联来训练模型来训练模型 三大视觉学习方法 图像既作为输入又作为监督信号图像既作为输入又作为监督信号 4 资料来源:The History Began from AlexNet:A Comprehensive Survey on Deep Learning Approaches,西南证券整理 1.1.
6、1 图像理解能力提升:标签监督 监督式预训练已成为机器学习和计算机视觉领域的核心技术。在这种策略中,模型首先在大规模标注数据集上进行预训练,随后针对特定任务进行精细调整。这种方法充分利用了如ImageNet这样的大型人工标注数据集,为模型赋予了高度可迁移的视觉特征。其核心原理是将图像与预设的标签相对应,这些标签往往代表某一视觉物体。多年来,这种策略在各类视觉基础架构,如AlexNet、ResNet以及ViT的发展中都发挥了不可或缺的作用。监督式预训练为计算机视觉领域带来了革命性的进步,从基础的图像分类和物体检测,到更为高级的视觉问答和图像标注任务。受限于人工标注的高成本,这些模型所学习到的特征