《书生万象大模型的技术演进与应用探索-王文海.pdf》由会员分享,可在线阅读,更多相关《书生万象大模型的技术演进与应用探索-王文海.pdf(53页珍藏版)》请在三个皮匠报告上搜索。
1、书生书生 万象多模态大模型的万象多模态大模型的技术演进与应用探索技术演进与应用探索演讲人:王文海https:/ 4:1 李世乭德州扑克首次在多人复杂对局中超越人类2021人脸识别LFW识别率99%,超过人类20161000类,100万数据历史:“特定任务+大数据”取得巨大成功一个模型解决一个问题AlphaFold未来:“通用性”一个模型多种任务多种模态蛋白质结构预测准确率新高以视觉为核心的多模态大模型有望在众多领域带来AI生产力革命https:/ 12.MLP 23.MoE 31 Li J,Li D,Savarese S,et al.Blip-2:Bootstrapping language-
2、image pre-training with frozen image encoders and large language modelsC/International conference on machine learning.PMLR,2023:19730-19742.2 Liu H,Li C,Wu Q,et al.Visual instruction tuningJ.Advances in neural information processing systems,2024,36.3 Wang W,Lv Q,Yu W,et al.Cogvlm:Visual expert for p
3、retrained language modelsJ.arXivpreprint arXiv:2311.03079,2023.研究背景:大语言模型&多模态大模型多模态大模型研究背景1目目录大规模视觉语言模型对齐2强多模态模型构建3不止于语言输出:通专融合4InternVL:大规模视觉语言模型对齐传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展,亟需新的范式来推动其发展判别式预训练AlexNet、ResNet对比式预训练CLIP、ALIGN20122021与LLM参数量差距过大与LLM表征不一致训练数据单一、数据量小imageclassesvisionencodercontrastive
4、imagetextvisionencodertextencoderInternVL:大规模视觉语言模型对齐传统视觉/视觉-语言基础模型范式已落后于大语言模型的发展,亟需新的范式来推动其发展大模型时代判别式预训练AlexNet、ResNet对比式预训练CLIP、ALIGN201220212023与LLM参数量差距过大与LLM表征不一致训练数据单一、数据量小60亿参数视觉模型+1000亿参数语言模型渐进式对齐视觉基础模型和语言模型表征大规模、多来源图文多模态训练数据imageclassesvisionencodercontrastiveimagetextvisionencodertextencod
5、er渐进式对齐训练书生图文大模型-InternVLfeature aligningimagetextscaling upvisionencoderto 6B#paramslanguagemodel100Bgenerativeprompt 核心思想:扩大视觉基础模型并为通用视觉语言任务进行对齐设计1:扩大视觉模型至6B参数步骤1:固定 60 亿参数,网格搜索模型宽度、深度、MLP Ratio和Attention Head维度步骤2:使用CLIP 作为代理任务,找到在速度、准确性和稳定性之间取得平衡的模型https:/ ClassificationObject DetectionInstance
6、SegmentationSemantic SegmentationVisual Perception TasksImage ClassificationSemantic SegmentationImage-Text RetrievalText-Image RetrievalImage CaptioningVisual Question AnsweringMultimodal DialogueLike ViT-22BLike GPT-4VLike CLIPGeneric Vision-Language TasksImage ClassificationObject DetectionInstan
7、ce SegmentationSemantic SegmentationImage ClassificationSemantic SegmentationImage-Text RetrievalZero-Shot Image CLS.Image CaptioningVisual Question AnsweringMulti-Round DialogueInternVL:大规模视觉语言模型对齐在多种通用视觉语言任务上的取得了最好的性能,包括:1)视觉任务:图像/视频分类,语义分割;2)视觉-语言任务:图像/视频-文本检索,零样本图像分类;3)通用视觉问答:图像描述,视觉问答,多轮对话https
8、:/ TasksPixel-Level TasksImage 3InternViT-6B 1414仅用不到不到三分之一参数量,实现了与 ViT-22B 相当的性能对于视觉任务,InternVL的视觉编码器,即InternViT-6B,可以直接用作视觉主干网络https:/ and InternVL-G多语言的零样本图文检索评测https:/ Adapter-Zeroshot 多语言内容生成(UNet,Transformer)Language AdapterInternVL Text EncoderText Encoder/s(1)Overall ArchitectureDenoising Mo
9、delNoisy LatentOutput即插即用的为现有扩散模型增加多语言能力只需要英文数据训练,即可泛化到其他语言支持多种语言的混合输入,甚至是 emoji无需额外训练,即可兼容社区模型,如 ControlNet,LCM,LoRA 等https:/ Adapter-Zeroshot 多语言内容生成https:/ Model做额外训练DreamshaperRealistic VisionCartoonmix3D AnimationLoRA(Lego)ControlNetLCMSDXL TurboSDXL LightningMVDreamAnimateDiffInternVL+Language
10、 Adapter-Zeroshot 多语言内容生成https:/ 1.5:接近商用性能的开源多模态大模型https:/ 1.5:接近GPT-4V的开源多模态对话模型https:/ 1.5Grok-1.5VGPT-4VClaude-3 OpusGemini Pro 1.5MMMUMulti-discipline45.2%53.6%56.8%59.4%58.5%MathVistaMath53.5%52.8%49.9%50.5%52.1%AI2DDiagrams80.7%88.3%78.2%88.1%80.3%TextVQAText reading80.6%78.1%78.0%-73.5%Chart
11、QACharts83.8%76.1%78.5%80.8%81.3%DocVQADocuments90.9%85.6%88.4%89.3%86.5%RealWorldQAReal-world understanding66.0%68.7%61.4%49.8%67.5%InternVL 1.5:接近GPT-4V的开源多模态对话模型分辨率对性能的影响https:/ Law曲线,仅需原有的1/5的算力即可取得同等的效果在MMMU,MMBench等评测上比肩GPT-4o和Gemini Pro 1.5千亿参数模型海量带噪数据百亿参数模型高质量精选数据扩大模型筛选数据算力损失函数大模型+小数据高效对齐仅需2
12、0%算力资源,比肩顶级闭源多模态大模型小模型+大数据高效预训练书生书生 万象万象 InternVL 2.0:全方面提升https:/ 万象万象 InternVL 2.0:全方面提升更强的OCR能力:毛笔字+竖排+繁体https:/ NameVision PartLanguage PartHF LinkMS LinkDocumentInternVL2-1BInternViT-300M-448pxQwen2-0.5B-Instruct link link docInternVL2-2BInternViT-300M-448pxinternlm2-chat-1-8b link link docInte
13、rnVL2-4BInternViT-300M-448pxPhi-3-mini-128k-instruct link link docInternVL2-8BInternViT-300M-448pxinternlm2_5-7b-chat link link docInternVL2-26BInternViT-6B-448px-V1-5internlm2-chat-20b link link docInternVL2-40BInternViT-6B-448px-V1-5Nous-Hermes-2-Yi-34B link link docInternVL2-Llama3-76BInternViT-6B-448px-V1-5Hermes-2-Theta-Llama-3-70B link link docInternVL2-Pro APIWe welcome everyone to use our API for research.For better management,please submit(application form)/(申请表)to obtain free API access.InternOmni:Extending InternVL with Audio Modalityhttps:/ 2.0 在线试玩https:/