谢榛-行业多模态大模型训推加速落地思考.pdf

编号:186892 PDF 27页 7.53MB 下载积分:VIP专享
下载报告请您先登录!

谢榛-行业多模态大模型训推加速落地思考.pdf

1、行业多模态大模型训推加速落地思考演讲人:谢榛阿里云/行业多模态模型负责人,高级算法专家文字建议文字建议为保证文件兼容性,如无特殊情况,请勿使用其他艺术字体字体正文字号:12通常演示文稿业务汇报文件中的文本较多,12号的字体可以展现更多的内容;且演示文稿的使用场景为桌面端、受众年龄适中,为呈现更好的阅读体验,正文应慎重使用更大字号小标题:18字号标题字号:28使用专有的英文字体可以使版面更加美观,可以让强调的英文&数字细节显示更优美,经得起放大细看考虑到工作效率,非重要的文件无需考虑此项,而对文本中的英文数字单独设置字体。中文字体:微软雅黑英文&数字字体Arial善用格式刷,快速出效果TIPS:

2、*可以多使用8为尾数的字号,如:18、28、48、68,方便记忆,统一字号0101020203030404目录行业多模态模型迭代范式多模态训推加速技术总结展望多模态模型现状概述多模态模型现状概述tt多模态大模型多模态大模型是指在一个统一架构下,集成了多种不同类型数据处理能力的大型神经网络模型,能够同时处理多种数据模态大语言模型Qwen多模态理解Qwen-VL/Audio多模态生成万相/HunmanAIGC/CosyVoice参数:1.5B、7B、72B、xxxB架构:Densy、MoE长上下文窗口、代码、数学、多语言看见且看懂:动态分辨率、OCR增强、视觉内容解析听见且听懂:多语言理解、音乐鉴

3、赏、情感分析等能力绘声:高拟人化,具备不同音色与情绪绘色:图片和视频、人物和商品具备可控生成能力多模态内容理解支持图像、视频、语音等多种模态的内容理解多模态检索支持图搜图、文搜图等多种场景下,基于多模态知识库的检索。tt多模态知识加工支持富模态知识文档包含富文本、图片、表格、视频、音频等模态内容的解析、知识加工tt多模态内容生成文本描述生成图像,图像生成图像文本描述生成视频内容行业业务中,多模态能力典型需求场景行业业务中,多模态能力典型需求场景多模态大模型MLLM/VLM多模态典型能力live chatCode InterpreterOperate a Robotic ArmOperate a

4、 Mobile Phone多模态大模型MLLM/VLM适用场景能否开放感知对象是否需要明确运算资源要求实时性能否理解概念训练成本部署成本迭代扩展成本泛化性适用场景视觉(小)模型否需要低低高高否低低高弱应用场景固定、感知对象明确、运算资源有限、实时性要求高多模态大模型能能不需要不需要中高中低能能高高高高中低中低强强应用场景复杂开放、感知对象不固定、需要一定的概念理解、实时性要求不高核心优势:泛化性强、鲁棒性好、通用能力强且不依赖训练数据分布、能够处理难例多模态大模型基于通用的多模态-语言基础底座,多模态表征/统一任务编码,实现不同任务之间知识共享,泛化性好,能够应对复杂开放的应用场景。多模态大模

5、型多模态大模型VS单模态单模态(小小)模型模型多模态概述及架构发展A Survey on Multimodal Large Language ModelsA Survey of LLM多模态概述及架构发展2024.2-32024.62024.4-52024.82024.7MoE-LLaVAMoblieVLM V2LWMDeepSeek-VLMini-GeminiMM1LLaVA-Next,ALLaVA Gemini 1.52024.02.15Ferret-UIInternLM-XComposer2-4KHDGrok-1.5 VInternVL1.5ChameleonMeteorCuMo,Ovi

6、s GPT-4o2024.05.13ParrotGLM-4VVideoLLaMA2Phi-3-VisionLlava-NextInterleaveEVE,LongVA2024.9-10Cambrain-1Claude-3.5Sonnet2024.06.21InternLM-XComposer2.5InternVL2PaliGemmaLlava-Next VideoVILA2EVLMSOLO,IDA-VLM,MoME,SlowFast-LLaMA Llava-NextOneVisionMiniCPM-VmPLUG-Owl3MoMa TransFusionGrok-22024.08.13BLIP-

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(谢榛-行业多模态大模型训推加速落地思考.pdf)为本站 (learning) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
折叠