上海人工智能实验室：金融大模型应用评测报告-摘要版（2024）.pdf-三个皮匠报告

1、金融大模型金融大模型应用应用评测报告评测报告摘要版摘要版（20242024）上海人工智能实验室上海财经大学上海库帕思科技有限公司二零二四年十二月前前言言为进一步推动金融科技创新应用的落地，切实提升金融服务的智能化水平，降低企业数字化转型成本，并积极探索金融垂直领域大模型应用的新理念、新机制和新手段，上海人工智能实验室和上海财经大学根据上海人工智能协会和上海金融业联合会共同发布的金融大模型应用评测指南（T/SAIAS 0192024）团标，采用上海库帕思科技有限公司依照上述团标制定的评测数据集库帕思金融大模型评测数据集（2024 版），形成了金融大模型应用评测报告（2024）。目目录录一、金融一

2、、金融大模型应用大模型应用评测范式评测范式.1（一）评测对象范围.1（二）评测内容与方法.4（三）评测数据集.5（四）评测工具.6（五）综合评估分数.7二、二、金融大模型应用评测结果金融大模型应用评测结果.8三、三、金融大模型应用评测金融大模型应用评测总结总结.11说明说明.141金融大模型金融大模型应用应用评测报告评测报告 20242024（摘要版摘要版）一、金融一、金融大模型应用大模型应用评测范式评测范式（一）评测对象范围（一）评测对象范围本次测评对象包括国内外、开闭源、通用基模与金融垂模，共计 14 个主流大模型机构的 20 个模型。评测围绕金融行业的核心业务需求及大模型在金融场景中的适

3、配性，结合银行、证券、保险、基金等重点应用场景，形成“模型基础能力”、“金融安全与价值对齐能力”、“金融风险控制能力”、“金融专业认知能力”、“金融业务辅助拓展能力”5 大测评维度。具体详情参见表 1-1。表 1-1 参评模型清单机构模型类型简介OpenAIGPT-4o-20240806基模（多模态）GPT-4o-20240806 是OpenAI推出的高级多模态模型，能够接受包括文本、音频、图片和视频在内的任意组合输入，生成文本、音频和图片的任意组合输出。与现有模型相比，GPT-4o-20240806 在视觉和音频理解方面表现尤其出色。AnthropicClaude-3.5-Sonnet-20

4、240620基模（多模态）Claude-3.5-Sonnet-20240620 是Anthropic 发布的升级版，在推理、编码和数学能力方面表现尤其出色。谷歌Gemini-1.5-pro基模（多模态）Gemini-1.5-pro 是 Google DeepMind 发布的强大多模态模型，可处理各种推理任务。Gemini-1.5-pro 可以一次处理大量数据，包括 2 小时的视频、19 小时的音频、6 万行代码的代码库或2,000 页的文本。阶跃星辰/Step-2-16k基模Step-2-16k 是阶跃星辰发布的新一代2财跃星辰（语言）混合专家模型（MoE）架构大模型，参数规模突破万亿。模型性

5、能/体感/规划能力全面逼近国际主流大模型，满足用户在中/英文领域各种需求，体现了 Scaling Law 最前沿的成果。FinStep垂模（多模态）财跃星辰大模型 FinStep 拥有 1300 亿参数，具备多模态图文理解、128K 上下文窗口和深度智能能力，在 AIGC多模态内容生成、金融垂类知识问答、图表理解、工具计算等方面表现突出。腾讯Hunyuan-Turbo基模（语言）Hunyuan-Turbo 是由腾讯公司全链路自研的大模型，采用全新的混合专家模型结构，在高质量内容创作、数理逻辑、代码生成和多轮对话上性能表现卓越，处于业界领先水平。Hunyuan-Vision基模（多模态）Huny

6、uan-Vision 是腾讯发布的多模态大模型，支持图片生文，包括图片基础识别、图片内容创作、图片多轮对话、图片知识问答、图片分析推理、图片 OCR 等能力。阿里巴巴Qwen2.5-72B-Instruct基模（语言）Qwen2.5-72B-Instruct 是阿里巴巴开源的旗舰模型，支持高达 128K 的上下文长度，可生成最多 8K 内容。模型拥有强大的多语言能力，在指令跟随、理解结构化数据、生成结构化输出等方面表现突出。Qwen2-VL-72B基模（多模态）Qwen2-VL-72B 是阿里巴巴推出的多模态模型，72B 参数量，支持不同分辨率的图像输入，能够理解 20 分钟以上的长视频。字节

上海人工智能实验室：金融大模型应用评测报告-摘要版（2024）.pdf

相关报告