《多模态大模型在金融行业的实践和展望-周思霁.pdf》由会员分享,可在线阅读,更多相关《多模态大模型在金融行业的实践和展望-周思霁.pdf(36页珍藏版)》请在三个皮匠报告上搜索。
1、多模态大模型在金融行业的实践和展望火山引擎金融解决方案总监&金融大模型负责人/周思霁目录1.海内外多模态大模型发展趋势洞察2.多模态大模型技术深度解析3.机遇与挑战,金融多模态大模型场景落地展望海内外多模态大模型发展趋势洞察大模型对各行业的影响深远、并逐渐走向多模态大模型对各行业的影响深远、并逐渐走向多模态 文生文 文生图 文生视频多模态是大模型落地发展的必经之路多模态是大模型落地发展的必经之路多模态协同更符合人类感知与表达方式多模态协同更符合人类感知与表达方式“看、听、说、读看、听、说、读”多模态数据无处不在,且加速增长多模态数据无处不在,且加速增长“据高通思科统计,据高通思科统计,2022
2、2022年,视频流量占消费互联网总流量的年,视频流量占消费互联网总流量的82%82%。”当我们在说多模态大模型时,我们在说什么?当我们在说多模态大模型时,我们在说什么?Sources:Gemini:A Family of Highly Capable Multimodal Models海内外多模态应用示例海内外多模态应用示例GPT-4VGPT-4VGeminiGeminiClaude3Claude3RunwayRunwayPicaPicaSunoSunoReminiRemini多模态理解多模态理解以Google Gemini为例,原生多模态模型能够无缝理解和推理各种形式的输入,包括文本、图像、
3、视频、音频和代码等。文生图文生图DALL-E 3适用领域:生成高分辨率、细节丰富的图像 支持复杂多主题提示,适合制作概念艺术和插画应用场景:游戏和动画制作中的概念设计 产品设计和建筑可视化 科研和教育领域的图像生成适用领域:生成富有艺术性和创意的图像 支持多种艺术风格,如写实、抽象等应用场景:艺术创作和插画设计 广告和营销视觉内容制作 个人艺术爱好者的创作工具适用领域:擅长理解和呈现复杂文本描述 生成具有创意和想象力的图像应用场景:新闻和媒体图像生成 儿童读物和故事书插图 视觉艺术创作和实验文生视频文生视频高效逼真视频生成高效逼真视频生成:利用“扩散变换器”在视频时空补丁上高效生成逼真视频。智
4、能字幕扩展智能字幕扩展:GPT技术将用户提示扩展为详细字幕,提供丰富视频上下文。捕捉细节与动态捕捉细节与动态:大量数据集训练,精准捕捉视频细节和动态变化。视频质量全面领先视频质量全面领先:在视频质量、成像、美学及动态范围方面全面超越竞品。生成质量高:生成质量高:Runway的Gen-2模型在成像和美学质量上较为领先。AIAI魔法工具魔法工具 套件:套件:提供30多种AI工具,通过文本、图像或视频生成编辑内容。多功能生成编辑:多功能生成编辑:支持多种内容生成编辑,简化数字工作流程。实时协作设计:实时协作设计:支持团队实时协作,促进创意和多元视角融合。独特艺术风格:独特艺术风格:采用动画和程式化技
5、术,使其输出具有独特个性和吸引力。擅长营销向内容:擅长营销向内容:适合重视风格化和创造性的社交媒体、市场营销和娱乐领域。易于使用:易于使用:Pika平台用户友好,让不同技能水平的创作者都能轻松探索视频生成AIAI音乐生成音乐生成AI音乐生成模型suno在发布V3版本后火爆出圈,只需要输入简单的提示词,比如音乐主题、风格、流派、歌词、音色等,Suno就能快速生成一首长达2分钟的完整音乐多模态大模型技术深度解析Sources:A Survey on Multimodal Large Language Models,p2,Figure 1多模态技术演进曲线浅析多模态技术演进曲线浅析Sources:M
6、ultimodal Foundation Models:From Specialists to General-Purpose Assistants,p29,Figure 3.2典型的文本到图像生成模型概述(截止到典型的文本到图像生成模型概述(截止到20232023年年7 7月)月)视频生成模型与产品时间线(截止到视频生成模型与产品时间线(截止到20232023年年1212月)月)Sources:a16z 转引自新智元AI 视频年大爆发:Gen-2/Pika 成时代爆款,2023 年 AI 视频生成领域的现状全盘点,华创证券典型典型MLLMsMLLMs发展时间线(截止到发展时间线(截止到202