CONTENTS目 录01 概述1425133.1.安全挑战应对策略3.2.千帆平台安全保障框架5.1.基于混合云网络通过客户内网调用千帆大模型4.1.千帆平台安全4.2.千帆模型安全4.3.千帆数据.
2025-09-14
17页




5星级
大模型与边缘智算融合发展白皮书(2025 年)发布单位:中移智库中国通信学会边缘计算专业委员会编制单位:中国移动通信研究院前前言言本白皮书旨在针对大模型与边缘智算融合所面临的机遇与挑战,提出边缘智算的.
2025-09-04
34页




5星级
大语言模型中的事实性幻象中国人民大学 李军毅1背景2人工智能历史上最为强悍的“信息助手”背景3“解决”了很多传统方法的痛点问题背景 ChatGPT等大模型的问题 Knowledge Recency:大.
2025-09-04
45页




5星级
11中邮证券人工智能研究框架:大模型白热化,应用加速分化证券研究报告行业投资评级:强于大市维持陈涵泊/李佩京/王思中邮证券研究所 人工智能团队发布时间:2025-09-032投资要点大模型:加速多模态.
2025-09-04
31页




5星级
大模型赋能下一代AI防火墙安全能力再升级目录一、生成式人工智能时代来临,企业安全态势喜忧参半1.1 全球大模型市场快速发展1.2 大模型与网络安全结合带来新挑战和新机遇1.3 安全合规监管要求持续提升.
2025-09-01
35页




5星级
AI原生开启金融智能新未来 金 融 行 业 大 模 型 应 用 落 地 白 皮 书目录前言第一章:大模型开启金融行业全新智能时代1.1 大模型驱动金融机构全面加速智能化转型1.2 强推理和多模态、多个模型深度配合与内外部协同的智能体推动金融走向智能化1.3 金融领域正加速迈向基于AI原生的智能重构阶段第二章:从“单点探索”迈向“战略深化”:金融行业大模型落地面临多重挑战2.1 异构算力管理复杂,算力调度缺乏灵活性2.2 高质量数据价值难以挖掘,飞轮效应尚未形成2.3 通用模型难以满足复杂金融业务的应用需求2.4 智能体难以穿透金融系统的业务流程、运营复杂度高2.5 安全能力尚待体系化突破,金融机构多持审慎落地策略2.6 模型应用效果难以评估,金融机构对大模型的长期价值尚存顾虑2.7 业-技融合的敏捷组织尚未成熟,复合型人才稀缺第三章:从技术到场景:金融行业AI原生应用的的重构与破局之路3.1 金融领域呈现出通用场景向专精场景的演进趋势.AI原生能力重构体系化适配金融行业智能需求3.3 七大核心要素助力金融机构打造AI原生应用第四章:领先实践:金融机构大模型开发与应用案例4.1 某国有银行AI PaaS平台让零售业务迈入“秒级”时代4.2 重庆农商行依托百度智能云企业级金融AI中台,打造代码规范的最佳实践4.3 泰康保险集团股份有限公司AI综合解决方案大幅提升核保核赔自动化率4.4 银河证券大模型拓宽证券业务边界第五章:金融行业大模型落地建议:多方协同构建“战略-支撑-生态-监管”四位一体保障体系5.1 金融机构:构建“战略精准-执行适配-风控闭环”的系统能力5.2 技术服务商:提供“算力效能-平台易用-模型工程化-场景赋能”的全栈支撑5.3 产业生态:共建“标准统一-产学研协同-产业链联动”的协同体系 5.4 规范引领:强化“政策引导-工具迭代-标准牵头”第六章:关于百度智能云 金融行业“双智能 双引擎”方案6.1“双智能”应用层重构金融服务新体验6.2“双引擎”技术基座驱动智能应用的强大动力前言从“感知推理”到“自主进化”,算法技术突破进入深水区。2025年,大模型算法的核心跃迁是从“被动处理任务”转向“主动进化策略”,金融行业作为数据密集型和计算密集型的典型应用场景,迎来了深度变革的历史机遇。全球头部玩家通过算法创新直接解决金融场景的“长文本、高实时、强专业”痛点。OpenAI GPT-:强化“长文本因果推理”能力(支持10万token以上上下文),突破金融机构对“超长篇幅风控/投研文档”的处理瓶颈,Google Gemini.:升级“多模态动态交互”算法,实现“文本-图表-数据”的实时联动高盛用其构建“动态利率走势模型”。AlphaEvolve自主进化算法:通过“生成式策略优化(GSO)”实现模型自动迭代。国内,百度文心4.5和X系列模型、DeepSeekVR等大模型,正以多模态 长思维链推理 智能工具调用执行架构融合,实现“能思考、会落地”的大模型。金融行业拥有独特、高质量、大规模的行业数据,核心护城河已不再是“应用好某个开源模型”或“落地单一应用”,而是要构建“场景-算法-数据”的深度协同体系,构建知识壁垒 行业场景深度融合,训练出真正好用的Agent,实现核心业务场景AI原生化改造。从技术尝鲜到价值优先,“核心业务与AI的融合深度”已成为金融机构的核心竞争力。大模型凭借对非结构化数据向量化处理以及强大的意图理解和推理能力,在面向员工的场景中优势明显,如知识问答、内容生成(金融报告辅助撰写)、智能办公(投研资料汇总)等;在面向客户的业务场景中,尤其是对深入业务应用场景(信贷、风控、营销)以及对实时性要求较高的场景(实时反欺诈、秒级授信)中,目前面临准确率较低、延迟反馈等问题。专精模型结合金融合规规则库、动态风险因子库,并通过领域数据定制与任务特定优化(如反欺诈模型的算法重构),即可实现深度场景适配。需明确的是,通用大模型在金融专业领域存在天然短板:意图理解不准确、专业知识覆盖不足、问答准确率、幻觉率、可解释性均未达到金融场景的“生产级要求”,IDC认为,未来,为满足金融业务多样化要求,在复杂语义理解领域,大模型将持续发挥优势,专业业务领域将由专精模型提供服务,通用模型与专精模型协同管理与适配的AI解决方案将成为主流。从“技术组件”到“业务赋能平台”,大模型开发工具链降低金融机构的AI使用门槛。2025年,大模型工具的核心升级是“从技术导向转向业务导向”,通过低代码/无代码平台让金融机构快速构建“贴合自身业务的智能体”。金融机构对智能体进入核心业务等需求越来越旺盛,其在智能投研/投顾、信贷决策、风险管理等核心场景中将持续创造更多价值。持续迭代支持MCP/AA的智能体开发平台,以及SFT工具链、场景优化工具链,以满足金融机构的场景创新应用需求。同时在模型管理方面,IDC指出,2025年“通用模型 专精模型”的协同管理将成为主流,工具平台的核心价值是“降低金融机构的AI使用门槛”不再要求金融机构具备“顶级算法团队”,而是通过低代码、模块化工具,让业务人员也能“用AI解决业务问题”,工具从“技术组件”升级为“业务赋能的桥梁”。从“数据驱动”向“知识驱动”跃迁,数据飞轮已成为金融应用AI原生化关键要素唯有将零散数据转化为可复用的结构化知识,并形成“业务-数据-模型”的闭环,才能让大模型真正适配金融领域“高合规、高精准、高动态”的核心要求。金融机构的数据飞轮建设目标是通过打通全链路数据流,实现数据与业务的双向驱动。金融机构正在对金融数据按照敏感度分级,构建可信数据环境,满足合规要求;通过跨模态数据整合与关联分析,实现内外部数据协同,打破金融数据壁垒;构建高质量向量知识库、打造高价值知识工程与场景化数据沉淀来缓解高价值数据稀疏的现状。数据飞轮的构建将促进模型在知识广度、推理深度、领域专业性和鲁棒性等多维度实现系统性升级,使得金融智能系统能够快速响应业务需求变化。从通算向智算演进,规模化异构算力管理已成为大幅提升算力效率的核心路径。随着大模型向GPT-等万亿级参数演进,训练所需算力呈指数级增长,算力架构的“成本-能效平衡”能力愈发关键以异构计算集群、多芯混合训练为代表的方案,因能兼顾高性能与低成本,已成为企业应对超大规模模型算力需求的核心竞争力。针对不同参数量级的模型场景,需精准适配算力方案,实现“算力资源与业务需求”的最优匹配:百亿参数模型场景:单机单卡即可完成推理与微调任务,是性价比最优的选择,而更高算力密度、更大显存的算力机器,则在模型训练微调场景与复杂推理中更具效率优势。而在干亿/万亿参数模型场景,DP(数据并行) EP(专家并行)分离的大集群部署方案通过将数据拆分与专家层分工解耦,可成倍数提升算力利用效率,是突破超大规模模型“算力瓶颈”的必选路径。大模型开启金融行业全新智能时代第一章1.1 大模型驱动金融机构全面加速智能化转型政策层面,我国已给出了明确的指导意见。2024年1月,金融监管总局等七部门联合印发推动数字金融高质量发展行动方案,提出布局先进高效算力体系,强化模型和算法风险管理;2024年12月,我国金融监督管理总局印发了银行保险机构数据安全管理办法,为银行保险机构规范数据处理、保障数据安全、促进数据开发、完善监管效能等方面提供了全面、细致的规范标准;2025年7月31日召开的国务院常务会议,审议通过了关于深入实施“人工智能 ”行动的意见(以下简称意见)。“深入实施”标志着“人工智能 ”行动正式从政策倡导迈入规模化、商业化落地阶段。我国金融IT投入持续增加,根据IDC数据,2024年中国银行业IT投资规模达到1,693.15亿元,同比增长3.6%,预计在2028年将达到2,662.27亿元。2024年中国金融行业生成式AI投资规模为36.26亿元,预计到2028年投资规模为238.04亿元,增幅达到556.5%。图1 2024-2028中国金融行业生成式AI投资规模预测来源:IDC,单位:百万人民币 服务(含IT服务和商业服务)生成式AI应用生成式AI平台基础设施TOTAL在智能时代背景下,我国各类金融机构均加码大模型投入,且各有侧重。国有大行以自主可控为核心,优先保障算力底座自主建设,兼顾千亿级模型再训练与多智能体协同;股份制银行平衡算力成本,侧重模型场景化微调;区域性银行关注低成本算力租用、复用,追求“开箱即用”,保险机构重点关注决策模型与大模型模型配合使用,提升核保核赔效率;证券与基金公司低时延交易与智能投研,侧重高性能算力与金融蒸馏模型,通过AA与MCP协议构建生态。金融大模型开启了金融智能时代的新篇章。随着政策加码,金融大模型技术升级,应用场景的不断丰富,新旧智能时代转换的拐点将至,金融行业的全新智能时代将完成从“工具导向”到“超级生产力”的跨越。表1 不同规模金融机构对大模型的投入偏好与应用策略比较维度国有大行股份制银行区域性银行证券/基金保险典型代表国有六大行招商、中信、浦发、兴业等人保财险、太保财险城商行、农商行券商(中信、华泰、国泰君安等)核心诉求自主可控底座工具链优先核保核赔准确度提升,大小模型配合API调用开源模型低时延交易算力投入策略自建智算中心私有化部署算力,混合云私有化部署算力,提升高可靠性API直接租用银联或云厂商算力,或与总部共享算力自建GPU小集群 混合云参数规模偏好千亿规模以上模型 再训练-B中等规模-B视觉、LLM模型-B小模型B以上金融蒸馏模型数据体系建设全栈数据治理,场景导向的数据标准数据加密与高质量数据标注保单、票据多模态数据处理,核保知识图谱外部数据集,数据不出域投研数据融合,低时延交易数据智能体关注多智能体协同,与核心业务捆绑复杂场景智能编排核保智能体定制开发预置智能体模板,快速上线,降低技术门槛投研智能体1.2 强推理和多模态、多个模型深度配合与内外部协同的智能体推动金融走向智 能化IDC认为,“强推理 多模态”是当前人工智能技术发展的关键方向。仅仅“看懂”多模态数据并不足够,医疗和保险场景等复杂场景更需要较强的因果推理能力。例如:AI不仅要识别票据金额和项目,还要推断这些项目是否与患者诊断、治疗方案一致;在保险定损中,AI需要结合事故图像、维修价格体系、历史理赔数据,推理出最合理的赔付金额。“强推理 多模态”技术通过整合视觉、文本、空间等多维信息与高级逻辑推理能力,正深刻重构AI对物理世界的理解范式,从而满足其在复杂场景中的应用需求。“多个模型”深度配合是增强决策精准度、推动业务创新的关键。大模型适用于对语义理解和自然语言处理要求较高的场景,如智能客服、智能创作、智能营销等,提升深度推理与非结构化数据的处理效率;决策类的小模型专注于对结构化数据精准判别,在快速响应与细分专业场景中有天然优势。IDC认为,大小模型的深度配合,是满足金融机构对多样复杂场景中的模型应用需求、提升金融业务价值的重要方式。同时,通用模型与专精模型相互结合与灵活适配,也是降低模型运行成本,提升模型应用效果的重要策略。某保险公司多模态 强推理辅助智能理赔某保险公司推出基于多模态技术及强推理能力的“车险人伤智能定损机器人”,实现了伤情诊断与赔付标准的自动生成处理,仅需上传伤情照片与索赔材料,即可精准分析伤情、精准计算理赔金额,实现快速赔付,同时还可为伤者提供康复建议等人性化服务,极大提升了该类案件的理赔效率。自2024年3月正式上线启用以来,人伤智能定损机器人的单证分类及伤情识别准确率分别达到95.6%和88.3%。某股份制银行业务场景的AI化升级某股份制银行在财富等业务场景中率先部署AI智能助手,通过大语言模型的知识理解能力与小模型的数据处理优势深度结合,实现了服务模式的智能化升级,能够深度理解客户口头表述中的潜在需求,例如当客户提到“希望稳健增值”时,AI助手不仅能识别风险偏好,还能结合市场行情自动生成包含国债、同业存单等低波动产品的配置方案。该应用显著提升了客户经理的服务效率,使专业财富规划服务得以覆盖更广泛的客群。“内外部协同的智能体”将在复杂的金融业务场景中创造显著价值。内部智能体主要服务于金融机构内部运营,满足内部数据安全与合规要求;外部智能体聚焦零售与对公用户,为用户提供个性化服务,增强用户体验。内外部协同的智能体可以减少金融机构“内部业务闭环”与“外部生态联动”的割裂现象,通过内、外智能体的能力互补与流程协同,可以解决单一智能体难以覆盖复杂业务场景的痛点。某国有银行打造多智能体协同的智能研发体系某国有银行通过强化大模型软件工程长思维链、动态决策和意图理解能力,建成具备需求理解与拆分、方案设计、代码生成、问题修复以及IDE工具调用、命令执行功能的研发垂直领域智能体群,各智能体通过分布式决策、调用路由、知识共享等机制相互协作,形成一支高效AI研发团队,实现AI程序员根据需求自主生成原型工程代码的能力,为金融业务的创新带来突破。该项目的落地使得团队单位时间编码效率提升约23%,月人均完成需求项(feature)增长30%,仅编码环节24年增效价值4069.9万元。1.3 金融领域正加速迈向基于AI原生的智能重构阶段金融行业正在经历从工具赋能向智能重构的战略转型,AI不再仅仅是提升效率的辅助工具,而是成为重构业务模式和生产关系的核心驱动力。从用户需求来看,随着数字原生代成为主流客群和数字化渗透率的持续提升,用户对金融服务的期望发生了根本性转变。他们更加看重超个性化服务,期望获得一对一的个性化服务,而非标准化的产品推荐。而AI大模型在客服、产品推荐等场景的应用,显著提升了客户满意度与忠诚度。AI大模型能够理解用户特定场景下的金融需求,并提供恰如其分的支持。例如,当用户表达想给自己买养老金的需求时,AI能在几秒内生成相关方案。从行业发展来看,IDC认为,随着AI大模型所带来的技术底座重构、交互方式变革等在行业中的深化,AI原生应用已成为金融科技演进的核心方向。与传统金融应用中简单嵌入AI功能不同,AI原生应用是从设计之初就以AI为核心驱动而构建的系统,其每个组件和交互流程都深度整合了人工智能能力,形成了自我演进、持续优化的生态体系。从技术发展来看,一方面,多模态 强推理技术已成为提升AI原生能力的关键。智能体能够整合文本、图像、音频等多种数据类型,显著提升了客户服务精度和风险管理能力。另一方面,智能体架构的成熟是金融AI原生应用发展的关键突破。其作为一种能够自主感知环境、分析信息、做出决策并采取行动以实现特定目标的系统,使得金融服务从被动转向主动,其能够主动规划、分解任务并协调执行复杂金融操作,正重塑金融机构的运营模式和客户体验。广发证券通过易淘金APP的AI原生化升级,率先实现了从综合交易服务工具向全天候智能投资伙伴的跨越,开启了千人千面、所思即所得的智能服务新范式。IDC认为,服务模式重构是AI原生应用对金融行业最深刻的改变。传统金融服务依赖于标准化产品和人工服务,而AI原生应用使得超大规模个性化服务成为可能。从“单点探索”迈向“战略深化”金融行业大模型落地面临多重挑战第二章金融客户对金融行业大模型的关注在不同时期聚焦在不同领域,关注重心经历了算力基础设施、模型训练平台、模型参数规模、提示词工程、知识工程以及智能体运营等阶段,目前金融机构开始关注大模型数据标准、安全体系以及投入产出策略,在落地过程中面临着诸如算力难调用、数据飞轮难打造、模型与场景难适配、智能体与业务难以深度关联、安全合规体系不完善、ROI难衡量、人才难匹配等挑战。2.1 异构算力管理复杂,算力调度缺乏灵活性算力、模型作为数字时代新的操作系统、基础设施普惠化和平权化,面向AI原生应用的算力应用要求算力管理动态化适应不断变化业务场景需求、智能体和模型技术持续演化。因此对于银行典型AI应用开发、大模型训练开发、AI模型统一管理部门,需要构建兼容能力强、具备技术领先的大模型训推加速云原生机制的异构算力管理平台。随着大模型应用的展开,异构算力环境下管理复杂度剧增。一是异构AI框架之间存在技术壁垒,模型在不同框架间迁移转换时,需攻克兼容性问题并重新调试参数,转换成本居高不下;二是早期银行采用算力卡单卡独占的使用模式,当训练或运行的模型规模较小时,单卡算力无法被充分利用,算力资源浪费明显;三是千亿模型集中式部署的使用会带来高昂算力的使用,PD分离分布式成为千亿模型运用的最优方案。图2 大模型在金融领域落地挑战算力管理与调度难度大组织与人才存在短板模型落地效果难以评估安全能力有待提升智能体难以穿透业务流模型与场景适配难度大数据飞轮难以构建2.2 高质量数据价值难以挖掘,飞轮效应尚未形成高质量数据价值难以挖掘金融行业积累了大量具备高准确性、完整性与时效性的优质数据集,但在面向大模型落地应用时,其价值释放仍面临显著挑战。一方面,金融领域的高质量数据包含大量非结构化数据(如信贷申请材料、理赔影像、票据图片、客服通话录音等),这些数据因场景高度碎片化,需经复杂预处理(如OCR/ASR转写、实体对齐)才能构建统一语义表示,导致大模型训练与调优效率显著低于通用数据;另一方面,数据安全与隐私约束下的流通壁垒也限制了数据的共享和流通,这使得部分高质量数据无法在大模型的生态系统中得到充分的利用。因此,高质量数据的挖掘受限于数据处理难度与数据安全约束,导致其难以转化为支撑大模型应用的关键资源。数据飞轮尚未形成数据的采集、清洗、标注、回流及模型再训练需依赖强健的数据管道与算力支撑,然而当前多数机构仍存在高人工参与度问题,导致反馈迟滞,难以实现敏捷迭代。尽管金融机构已建立数据安全策略并开展验证性实践,但因数据合规要求(如未授权数据、金融安全数据与隐私数据需“数据不出域”管控),大模型在调用金融数据时面临多级隔离限制,致使“数据模型业务数据”的飞轮效应难以运转。表2 不同使用阶段金融机构在算力管理应用的挑战 算力部分需要适配多种芯片,确保OS、内核、驱动等端到端兼容性 存储部分要打通多类型存储链路,保障存储层的高性能和安全策略 大规模节点间网络架构不合理,导致不能满足低延迟高可靠的通信需求 干卡GPU长时间并发训练,频繁的硬件故障没有合理的容错机制保障,导致训练有效时长不高 复杂的异构芯片规格、多样的任务类型以及昂贵的基础设施,需要丰富的资源分配和调度策略 训练/推理存储加速技术储备不足,难以快速闭环整体生命周期 流量如何进行弹性容缩,监控推理场景CPU使用率或以定时的方式,按照流量监控的方式讲行伸缩,并规划训练任务的抢占使用挑战使用阶段异构算力管理训推一体 千亿模型PD分离如何快速部署,运维,容灾 多机缓存如何进行KV cache监控千亿模型PD分离大模型训练和推理加速表3 不同类型金融机构在数据领域面临的挑战 自建智算中心面临数据主权与全栈治理难题 千亿级模型再训练缺乏场景导向的数据标准 业界缺乏统一的大模型导向的数据治理标准 Prompt工程缺乏高质量标注数据 多模态数据需要统一处理框架 算力租用模式下数据出域风险 字段加密、多模态数据治理存在技术短板 非结构化数据(理赔影像)向量化能力 投研数据融合难度较高 量化交易低延时与数据一致性冲突 知识工程能力(知识图谱与交易策略)用户数据安全、数据质量与风控管理难题数据挑战金融机构国有大行消金/互金证券/基金保险区域性银行股份制银行2.3 通用模型难以满足复杂金融业务的应用需求通用模型缺乏对于金融业务的深度沉淀。金融业务对精确性的要求远大于通用模型的“概率性输出”。金融业务流程复杂,专业性较强,业务逻辑差异较大(信贷审批需要多系统跳转、银行风控与保险核保),金融业务的强专业属性超出了大模型的逻辑推理边界。因此模型并非缺乏金融知识,而是天然缺乏深度的金融业务沉淀能力,即需要充分掌握金融业务之间的关联,也需要明确金融细分领域的特有规则,这直接提升了通用模型应对复杂金融业务场景的难度。2.4 智能体难以穿透金融系统的业务流程、运营复杂度高智能体工作流与金融业务流程难以对接。智能体的核心优势在于打破系统壁垒,实现跨系统、跨数据、跨部门的业务流程整合与优化。然而,真正要发挥这一优势,就必须深度嵌入金融业务链条,对业务环节的先后逻辑、数据触发条件、风险监控点有高度的掌握。现有智能体对金融业务(信贷、风控、支付结算、理财、核保核赔等)的细粒度环节、行业特有规则、监管要求等缺乏组件调用能力,在嵌入业务工作流的设计能力上仍显不足。智能体运营复杂度较高。智能体的有效运行不仅依赖于稳定的模型性能,还依赖于运营人员具备多维度能力包括AI算法基础、工具调用与协同编排以及对金融业务的理解等。这要求运营团队不仅能掌握智能体调用与编排技术,还能将算法结果与业务目标对齐,包括对数据断点、模型偏差、任务中断等问题及时反馈与修正,复杂度较高。表4 通用模型与专精模型对比 参数规模大、开源模型支持API调用 通用性强、NLP与语义意义理解能力强 场景覆盖范围广 多模态数据融合度高 金融专业适配性不足,对信贷风控规则、投研算法、合规条款理解程度有限 模型幻觉与可解释性缺陷 实时反欺诈、低时延场景响应速度慢 非决策类、辅助类工作场景 金融专业度依赖较低的场景 量化、剪枝后部署在本地,低延时 参数小、再训练可针对场景优化 满足可解释性与安全要求 具备专业金融业务逻辑抽取能力 结构化数据精准分析与判别 可与金融业务系统深度集成融合 场景覆盖局限,难以迁移 复用率低,迭代成本高 数据依赖度高,需要高质量数据 工程化复杂度高,需要与金融业务深度融合并形成自动化流程 决策型、高价值业务场景 与业务深度融合的场景通用模型比较维度技术特征场景适配应用短板核心价值专精模型2.5 安全能力尚待体系化突破,金融机构多持审慎落地策略模型安全能力仍需加强。大模型在幻觉输出、黑盒不可解释性、版本漏洞与对抗攻击等方面仍存在显著风险,直接影响金融业务的稳定性、客户信息安全和系统性风险防控。当前亟待构建覆盖模型全生命周期的安全标准体系,并依托监管推动其强制落地,以实现更系统、可监督的安全治理。数据安全能力亟需强化。数据是金融机构构建业务差异化优势的核心资产,也是大模型应用与训练的基础。然而,业务数据需严格存储在行内系统、不可出境,这一要求与数据驱动创新的诉求形成内在张力。数据安全与业务竞争力实则为相互制约、又需协同推进的双重目标。在这一背景下,金融机构必须构建覆盖数据全生命周期的安全体系,建立完善可溯源、可审计的数据治理机制,涵盖采集、加密传输、存储管理、敏感信息分级、权限控制及操作日志审计等环节。尤其在保障交易数据的强一致性、实现信贷数据的穿透式验证、以及维持舆情数据的高时效性方面,需构建闭环式治理框架,在安全可控的前提下最大化数据价值,支撑业务差异化竞争。内容安全能力持续加固。金融领域中,模型生成的文本、代码、决策逻辑链等输出直接关联信贷审批、风险定价等核心业务,当前金融机构需围绕:内生安全设计、动态对抗演练、长推理链的可信性验证等方面进行加固,以降低业务决策偏差风险。应用安全能力需要深化。机构需要建立与金融业务强绑定的模型安全管理细则,包括:风控领域(利率/汇率/业务合规)、展业场景(保险/理财/交易反欺诈等)、会计审计等关键环节,实施根据业务场景流程设计的模型调用鉴权机制。行业标准深度适配仍需加强。除了满足大模型通用安全规范之外,还要深度适配金融行业数据不出域、高实时性以及金融合规的行业三大刚性要求,目前大模型与金融核心业务融合深度不足,尤其是对于风控类场景,需要提升模型与金融行业的深度适配能力。2.6 模型应用效果难以评估,金融机构对大模型的长期价值尚存顾虑大模型应用效果难以量化。大模型落地具有长期性与滞后性,金融机构对大模型的投入多为战略性布局,前期需要承担高成本,但直接回报(如新业务带来的营收增长)与间接回报(如运营效率提升、风险降低、用户体验优化)多体现在业务侧,而业务的多样性导致大模型的应用边界较为模糊,因此难以形成统一的测算模型。长期价值的不确定性加剧了金融机构的顾虑。大模型技术更新迭代快、监管环境变化频繁,使得大模型的长期投入面临被替代或被约束的风险。对于资本敏感、风险偏好较低的金融机构而言,如果短期回报不显著,长期收益又缺乏确定性,便容易产生观望甚至保守的投资态度。2.7 业-技融合的敏捷组织尚未成熟,复合型人才稀缺金融机构在推进大模型技术落地的过程中,除了面对技术攻坚与业务效果显性化等挑战之外,同时面临着深刻的组织与人才瓶颈。一方面,业务团队与技术团队之间仍存在着难以弥合的“理解壁垒”,业务部门作为最终使用方,更关注技术能否直接解决具体业务痛点,比如提升信贷审批效率或优化客户服务体验,他们通常以投资回报率和合规要求作为核心评估标准,期望获得立竿见影的科技赋能效果。而科技部门则更注重技术实现的可行性和系统兼容性,需要权衡算力成本、数据质量以及与传统系统的整合难度等。这种思维方式的差异导致双方在需求优先级上难以达成一致,业务部门可能低估数据治理、知识建设等基础工作的复杂性,科技部门则容易陷入技术完美主义的陷阱。更复杂的是,虽然业务部门掌握着验收决策权与评估权,但技术投入往往由科技预算承担,这种状况下,很容易出现“各说各话、各讲各事”的现象,而导致大模型场景用例的实际落地效果不如预期。此外,人才短缺的问题更为突出,既深谙金融业务逻辑又精通人工智能技术的复合型人才在行业内凤毛麟角,且现有的培养体系难以在短时间内填补这一人才缺口,导致金融机构在大模型应用上陷入“有技术无场景”或“有场景无技术”的两难境地。组织架构的固化与人才储备的不足,共同构成了制约金融机构智能化转型的隐性壁垒。从技术到场景金融行业AI原生应用的重构与破局之路第三章3.1 金融领域呈现出通用场景向专精场景的演进趋势金融行业大模型的业务场景落地已成为行业智能化转型的关键里程碑。在2023-2024年试点期,大模型多聚焦于单点场景技术验证,尚未形成规模化业务价值突破;伴随技术迭代与场景深化,当前大模型通过整合全域金融数据、深度挖掘细分场景需求,已完成从技术验证向深度金融属性业务渗透的质变,正式开启深度赋能金融核心领域的新阶段。根据金融行业大模型的技术复杂度(纵轴)与时间线(横轴),IDC将金融行业大模型的应用场景分为通用场景与专精场景。通用场景指的是技术门槛相对较低且具备跨行业复制性强的场景,涵盖智能写作、智能客服、智能办公和智能营销;专精场景是指需深度适配金融业务逻辑的场景,包括智能信评、智能审计、智能舆情分析、智能交易撮合、信贷自动化、个性化理财、智能投研、智能投顾等。随着技术成熟度的不断提升,大模型应用发展的重心正加速由通用基础领域向高价值业务领域的迁移。通用场景与专精场景对模型的能力要求、落地重点等方面的差异较大。通用场景的定位更加偏重非决策与辅助类业务,对金融知识的专业要求与模型精调需求相对较低,落地重点是工具链轻量化部署,适用于金融通用大模型;专精场景的定位更加偏重决策与高价值类业务,需要深度理解金融业务逻辑,落地重点是可解释性提升与智能体调用,适用于金融专精模型。图3 通用场景向专精场景演进高低高通用场景专精场景智能舆情分析智能审计高频量化交易实时反欺诈智能交易撮合智能尽调智能信评智能决策辅助智能合规信贷自动化智能投顾智能投研个性化理财智能营销智能办公智能写作智能客服技术贡献度表5 通用类场景与专精类场景对比非决策、辅助型:信息整理、客服、营销文案、舆情汇总等依赖推理,参数规模较大,优先降低幻觉而非完全消除对金融专业知识要求相对较低轻量化工具链(对接咨询、舆情、客服日志等)通用大模型决策型、高价值:授信定价、量化交易、合规风控等深度精调与再训练,可解释性要求高,量化、剪枝后部署在本地实现低延时推理需要对金融知识进行工程化管理并通过RAG持续优化业务场景数据应用,模型可解释性与智能体架构与业务深度匹配金融专精模型通用类场景比较维度业务定位模型推荐落地重点模型要求知识调用专精类场景根据IDC观察,金融行业大模型(token)调用量较大的场景主要集中对话交互类和内部运营类场景。例如,智能客服(如信用卡业务咨询、理财产品咨询)、智能投研、以及内部运营助手(如内部知识库问答、政策制度查询、智能陪练助手)等场景,这类场景对数据隐私及安全合规要求较低,且具有高频交互、数据密集型等特点。.AI原生能力重构体系化适配金融行业智能需求随着模型落地应用场景从通用型向专精型演进,此过程中不同类型、体量的金融机构对模型的差异化需求显著,因此需要针对性匹配建设思路。差异性主要聚焦于算力、数据、模型开发、智能体开发与应用以及场景适配五个层面,如国有大行在算力层面更加偏重自主可控,需要自建多芯算力集群;区域性银行更加关注算力成本,因此多采用算力租赁的方式;证券/基金公司更加关注投研模型与产业图谱动态更新;保险公司需要应对理赔高峰并实现保障条款生成零幻觉,提升核保效率等。满足各类金融机构的大模型落地需求的关键是对AI能力进行原生重构。非AI原生仅能实现业务局部优化,但具备AI原生应用的金融机构完成的是从算力、数据、模型到业务层面系统进化。基于各类金融机构的挑战,以及各类金融机构对大模型的差异化需求分析,我们提出了构建AI原生应用策略(AI native strategy)。AI原生应用是指围绕基础设施、数据体系、技术架构、模型应用与业务场景等环节,都以AI为核心,让每个环节架构在AI的价值发挥之上。只有当金融行业的算力、数据、模型与业务目标均围绕AI做原生级重构时,才能系统地解决诸如异构算力调度难度大、模型可解释性不佳、工程化难题难以解决、安全合规要求难以满足、投入产出策略不清晰、人才短缺等挑战。AI原生应用包括AI原生的基础设施、AI原生的数据平台、AI原生的模型平台、AI原生的智能体平台以及AI原生的金融场景适配五个层级。AI原生的计算基础设施AI原生算力基础设施的核心逻辑是“以AI工作负载为中心”:通过动态适配实现“算力与业务同频”,需搭建兼容多芯片(英伟达、国产芯片)、多AI框架(如TensorFlow、PyTorch、飞桨(PaddlePaddle)等),多参数场景(十亿到万亿)等异构算力管理平台,提升算力效率。针对百亿及以下模型,需单卡、单机实现训推一体,针对干亿参数模型的高算力需求,需采用PD/EP(数据并行 专家并行)分离的分布式部署方案通过将“数据拆分”与“专家层分工”解耦,成倍数提升算力利用效率,彻底解决“集中式部署成本高昂”的痛点。构建算力共享机制,图4 AI原生应用架构图金融场景适配Gen AI(含智能体)开发应用平台模型开发平台数据平台异构计算基础设施专业场景匹配专用模型场景落地难题攻克智能体开发模型精调模型自主可控大模型内容安全围栏金融数据算力云与一体机异构芯片高速网络存储企业级数据飞轮数据闭环多模型协同大模型内生安全审核安全测评工具链场景适配通用场景匹配泛化模型衍生品定价信贷决策实时反欺诈金融产品智能推荐金融报告解读金融文本写作智能客服模型幻觉控制决策可解释性实时推理稳定性伦理风险管控知识蒸馏强化学习场景映射低代码平台组件添加金融知识库金融专业词库MCPPrompt监控看板SFT监督式微调RLHF知识增强内容安全生成基座模型垂类模型场景模型开源基模模型算法层代码模型加密传输容器化隔离语料安全清洗合规校验数据源头管控实时风险检测意图识别审核分类拦截风险代答拦截敏感词过滤伦理护栏实时干预高质量精标数据财报研报论文期刊专业题库专业书籍其他金融数据多模态数据治理数据湖仓同步跨模态关联分析数据采集智能标注模型训练效果反馈公有云Stack专有云多芯适配弹性架构混合部署百舸一体机DeepSeek一体机昆仑芯昇腾海光DCURDMAInfiniBand缓存RapidFS对象存储BOS业务单元创新全员共创混合模型矩阵知识增强多元融合算力释放算力性能金融语料库一站式模型开发体系技术普惠提升业务价值让金融机构内部不同部门(如AI应用开发部、大模型训练团队、模型统一管理部门)及分支机构集约复用算力资源,降低小规模业务场景的算力投入成本,实现“基础设施普惠化”例如分支行的“本地化客户服务模型推理”无需单独采购算力,通过总行算力池共享即可满足需求;白天推理、晚上训练的潮汐算力弹性混部架构实现算力的分时复用。AI原生的数据平台Al原生数据平台是金融机构基于AI知识需求重构的数据底座,针对非结构化数据沉睡、数据链路断点、高质量数据供给不足等痛点,通过多模态识别与跨模态关联激活零散非结构化数据价值,依托RAG技术 高质量向量知识库打通“行业外部数据(宏观政策/行业案例) 机构内部客户数据(信贷/行为/交易)”链路,实现“数据-知识”转化以提升模型专业度,同时统一传统数据体系与大模型数据体系,沉淀可复用资产,最终推动机构从“数据驱动”升级为“知识驱动”,助力打造“数据越用越准、价值指数增长”的数据飞轮,成为释放大模型价值的核心数据燃料库与知识发动机。AI原生的模型开发平台AI原生的模型开发平台能够贯穿模型训练-微调-部署-安全-运维等环节,实现多个模型协同。AI原生的模型开发平台为金融机构提供完整的工具链与各类微调版本以及原生的上下文支持能力,金融机构可以根据业务需要构建专精 通用模型矩阵,提升模型复用能力,降低模型部署门槛。AI原生的智能体开发平台AI原生的智能体应用开发平台能够让金融机构快速构建出会思考、会执行、会进化的智能体,大幅降低对技术人员的依赖,这种技术普惠大幅降低了使用门槛。让不会写代码的业务人员能快速创建智能体应用。能够基于金融机构复杂的业务链条提供针对性的编排与搭建方案,也能为金融机构提供丰富的智能体模板,如为保险公司提供核保智能体提升智能核保与理赔效率,为证券/基金公司提供投研助手智能体提升分析师工作效率。AI原生的金融场景适配Al原生的金融场景包括通用与专精两类场景,不同场景适配不同模型,从而精准满足金融业务要求。如通用场景可以满足面向员工从提效到决策的全场景适配需求;专精场景适用于对准确率、时效性、专业度要求高的核心业务以及面向客户的专业领域。总之,金融机构的AI原生应用需要围绕异构算力管理调度、数据飞轮、通用与专精模型协同、智能体普惠以及金融场景深度适配五个层面展开,才能让金融机构能够真正享受大模型带来的指数级价值。3.3 七大核心要素助力金融机构打造AI原生应用对于金融客户而言,除了要关注AI原生应用的策略之外,在落地时还要掌握算力、数据、模型、智能体、安全合规、场景适配与组织人才七个核心要素,每个核心要素包括若干与之相关的二级能力指标。图5 AI原生应用构建的落地七要素!#$%&!#$%&()*! ,*-./0)*!1234567)*!89:;7)*!?;7)*!ABCD!EFBCD!GHIJKL9M!NHOPQR9M!ST2UVWX9M! ,YZ9M!9M! ,_9M!12*-./0aZ9M!12bc5defg9M!hi12jk9M!89:349M!89:;79M!89:lm9M!#$%&()* ,-!#$%&()* !#$%,-./0123425!#$g01!#$9:;01?CDEFGHIJKLMN!$Mno5p$q!rstu5vwu!$Mxyz3.3.1 构建AI原生的算力选型指标与算力共享机制构建AI原生的算力选型指标,包括:算力密度、合理存算比、混合精度、国产化与稳定性。围绕金融业务场景对AI原生的算力需求(如智能投研、实时反欺诈要求毫秒级响应)提升算力密度,降低模型推理延迟;根据金融多模态数据(如交易流水、保单影像、投研报告文本)的处理需求,确定合理的存算比;用混合精度兼顾金融业务对模型精度(如信贷审批需要较高精度识别风险点)与算力效率(如对非关键图像可以采用较低精度,提升算力效率)的要求;通过统一的异构算力调度平台,实现对多类型算力资源的集中调度与智能分配,并通过分时复用、负载均衡和任务拆分等机制,保证业务高连续性与高稳定性。金融机构业务(如实时风控、智能投顾、交易撮合等)对延迟极为敏感,需依托AI原生的异构智算平台实现毫秒级响应。在能耗管理方面,算力集群在非业务高峰期(如夜间、休市)往往出现GPU闲置率过高的问题。可通过GPU与XPU的混合调度、分时复用机制,以及云-边-端的弹性协同计算,实现算力资源在不同业务场景下的灵活调配,最大化资源利用率并优化功耗比,降低百万token计算成本,达到绿色算力的目标。机构需要以高效稳定、多芯适配、轻量灵活为企业管理者、运维人员、开发人员等多角色提供丰富的资源调度策略、全方位的故障感知与容错机制、极致的存训推一体化加速、便捷的多芯适配及业务迁移等硬核产品能力,完整覆盖算力应用的全生命周期。针对大规模智算场景,可同时提供容器、裸金属等多种基础设施资源类型,满足企业自建、服务托管等多类建设场景,帮助企业快速、平稳的向新一代智能化、集约化基础设施转型。3.3.2 基于AI原生的数据平台打造从数据驱动到知识驱动的数据飞轮构建高质量数据标准,挖掘高质量数据针对多源异构、高敏复杂的数据特性,金融行业需要构建一套统一、高质量的数据标准体系,建立覆盖全生命周期的治理框架。要实现数据价值最大化,需要建立科学的数据标注体系,并在行业层面制定面向大模型的高质量数据治理标准。针对结构化交易数据,可定义字段级别的标签与数据质量标准;针对非结构化文本与多媒体内容,则需引入语义标注、情感分析等维度。参考某国有银行实践,其已在总分行、数据运营商、支付清算机构之间建立跨机构、多维度的数据评价体系,实现外部与内部数据的分工利用:外部数据在合规前提下用于训练模型,扩展业务洞察的广度;内部数据则更聚焦于日常运营,直接支撑精准营销、信贷风控等核心业务。面向金融场景构建数据分级分类管理体系金融机构需要对数据进行敏感度分级管理,例如将身份证号、账户交易流水等定义为高敏感数据,实施更严格的加密与访问控制;将地域、年龄等定义为低敏感数据,允许在更宽松的安全策略下共享与分析。着力整合碎片化的多模态数据,如将分散的贷款记录PDF、投资分析文档、票据影像等归类整理,并结合具体业务场景进行匹配应用。强化知识工程能力通过知识工程,金融机构可将数据转化为可计算、可推理、可共享的知识资产。金融机构应利用知识图谱技术构建业务映射网络,挖掘实体之间的复杂关系,例如客户之间的担保关系、账户之间的资金流动路径、交易行为与地理位置的关联等。在此基础上,构建AI知识库,沉淀包括风险识别模型、合规规则、营销策略等在内的高价值知识模块,并将这些模块封装为可复用组件,形成知识工程的最佳实践。打造数据飞轮,沉淀数据资产。金融机构需要通过与模型交互沉淀结构化与非结构化反馈数据,结合外部合规数据源与扩充数据量;通过特征完成数据脱敏并将数据转换为可用的训练样本或知识,针对高频业务迭代模型,再将优化后的大模型反哺业务,提升模型的行业适配性与可解释性,形成“数据知识模型业务”循环增强的飞轮效应。3.3.3 基于AI原生的模型管理平台实现模型与场景的深度适配基于业务场景适配模型。金融机构需要根据业务精准选择专精模型(如风控模型、量化投研模型、智能理赔模型)与通用模型(智能客服、智能营销等),并实现从模型需求定义、开发构建、定向精调,到合规测试(含风险评估、数据合规校验)、安全部署,再到上线后性能监控与迭代优化的模型全生命周期管理。根据自身资源与技术能力选择模型路线。金融机构在模型选择与路线规划时,应对自身的技术能力、数据资源、预算投入和合规要求进行系统评估,重点关注技术透明度、可定制化程度、运维难度、安全合规水平及模型迭代能力等指标。如国有大行需要在复杂决策场景中适配千亿级闭源与专精模型,走闭源与专精路线,降低模型幻觉;股份制银行需要对复杂场景匹配专精模型,对通用场景匹配开源通用模型,走混合路线平衡资源利用率;区域性银行直接使用7B-B开源与通用模型或租用MaaS服务;保险公司为核保核赔专业场景匹配专精模型,围绕核保规则与用户归档等通用场景匹配通用模型,走混合路线;证券/基金公司需要关注RAG,通过专精模型先检索向量库再生成研究内容,满足自动拆解财报、生成投资摘要业务需求。通过多个模型协同满足业务稳定性与连续性要求。适配金融业务高峰场景(如理财发售、信贷申请峰值),模型需要具备高并发处理能力,保障核心业务(如实时风控、交易决策)的低延迟响应(通常要求毫秒级),避免影响业务运转。同时支持模型故障自动切换(如主模型异常时快速启用备用模型),保障业务连续性。3.3.4 基于AI原生的智能体平台打造智能体开发、应用与运营的赋能闭环基于业务流程与勾稽关系编排开发智能体。金融机构需先联合业务部门(如信贷部、投研部、客服中心)开展需求拆解,对内面向员工,对外面向客户,业务专家围绕内外部业务逻辑提取关键流程,在确保数据合规的前提下,算法工程师匹配模型并编排智能体工作流,完成业务流到智能体的精准落地。智能体应用要嵌入业务系统,提升易用性。金融机构需要将开发好的智能体嵌入业务系统,面向客户的智能客服智能体,需嵌入手机银行APP,当客户咨询业务问题时,智能体能够主动调取客户征信数据,再给出反馈;面向员工的智能体需要嵌入关键工作系统,如信贷审批人员使用的“信贷管理系统”中即可调用信贷审批智能体,无需额外打开智能体平台,避免多系统切换。提升业务侧的智能体运营能力。金融机构需要实时跟踪智能体流量波动(如高峰时段服务并发量)、关键节点报错(如信贷审核流程中断点)与客户反馈(含满意度评分、需求未满足场景记录)等数据,通过结构化表单与定期复盘,将零散信息转化为可落地的技术优化需求,为智能体迭代提供数据与业务依据。3.3.5 打造从硬件基础到场景应用的全栈安全能力,筑牢金融安全防线基于AI原生的异构计算基础设施巩固安全防线。异构算力基础设施,可以将芯片池化,让金融机构实现万卡级弹性调度与训推分时复用,有效突破算力瓶颈;通过RDMA网络与联邦学习机制构建可信网络环境,满足监管与审计要求;通过框架准确表示算子执行所在芯片位置,并对不同型号芯片的算力进行细化分配,主动感知超时、优先级与数据长度等条件,实现异构芯片调度,降低因芯片调度不当引发的安全风险;通过缓存系统与对象存储(冷数据自动下沉)分离实现智能分层,将冷数据自动下沉到对象存储,减少数据被攻击的风险,保障数据在存储和调用过程中的安全性。基于AI原生的数据平台保障全生命周期的数据安全。在数据加密环节,尤其是数据存储与传输过程中,借助SSL/TLS协议对数据加密,可以防止数据在传输时被窃取或篡改;在存储时运用对称或非对称加密算法,让金融机构的客户信息、交易数据等得到安全存储;在数据访问控制过程中,可以采用多因素认证方式,如结合密码、短信验证码、指纹识别等,强化身份验证的安全性,避免未经授权的访问,降低数据泄露风险。通过AI原生的模型开发平台可实现模型安全调用。AI原生的模型开发平台具备多模型协同能力,不仅可以满足算法代码加密传输与容器化隔离要求,还能够将基座模型、垂类模型与专精模型匹配至各类金融业务场景中。此外,AI原生的模型开发平台可以在敏感词过滤、伦理护栏与实时干预方面构建安全评测工具链,建造金融应用与模型之间的安全隔离带,保障安全可信。基于AI原生的智能体开发平台实现应用安全。智能体应用在与外部协议、工具、环境交互时存在各类隐患,如通过提示词注入攻击,攻击者可修改输入提示词或注入隐藏指令,诱导大模型偏离用户请求,输出恶意结果,进而引发数据泄露、错误操作等问题。Al原生的智能体开发平台内置了金融业务规则库,实现开发工具代码合规性自动校验,能够基于金融业务流程预设操作白名单,绑定工具调用权限,从而为金融机构提供可审计、可追溯的应用安全环境。AI原生的金融场景与模型深度适配保障业务安全。金融场景复杂多变,安全威胁可能随时出现,模型对金融业务的原生适配可以持续分析业务交易数据、用户行为模式等信息。一旦发现异常,模型能迅速启动相应的防护措施,如阻断交易、发出警报等,可以让金融机构更好地适应复杂多变的金融环境,保障业务场景安全。3.3.6 以ROI为核心构建模型价值的评估体系以ROI为核心,构建模型落地效果评估体系。金融机构在落地大模型过程中,需要明确业务需求、识别关键流程、评估现有技术、分析模型适配、评估潜在收益,并以此构建模型效果评估体系,包括提效、增益、使用频率(MAU、DAU)等维度。其中,ROI作为衡量大模型应用投入与价值创造效果的关键指标,应成为各类金融机构评估模型效果的关键抓手。成本评估:硬件成本(服务器、存储设备等硬件的采购和维护成本)、软件成本(大模型软件许可与云服务的费用)、人员成本(开发人员与培训费用)。收益评估:营收增长(通过大模型技术创造的新业务收入)、客户体验(满意度与留存率提升)、员工体验(参与度提升)、生产效率(流程优化与运营效率提升)、创新能力(金融产品开发能力提升)、可持续发展(ESG指标与绿色金融)、上市时间(产品推向市场进程加速)、安全信任(数据安全与客户信任加强)、业务韧性(应对市场波动与不确定性能力提升)。通过场景筛选与指标跟踪进行模型评估。金融机构要以用户为中心,围绕ROI的成本与收益类指标来划分场景落地优先级,并进行动态调整;通过基线对比(大模型场景落地前后对指标进行对比),持续检测并长期跟踪大模型ROI相关指标,确保资源投入能够产生最大的经济效益和业务价值。图6 IDC人工智能九大商业价值收益来源:IDC,间接价值直接价值业务韧性Business Resilience安全与信任Security and Trust上市时间Time to Market可持续发展Sustainability创新能力Innovation生产力与效率Productivity and Efficiency员工体验Employee Experience客户体验Customer Experience营收增长Revenue Generation人工智能的九大商业价值收益THE AI BUSINESSVALUE BENEFIT3.3.7 建立跨部门协同组织,引入技术合作伙伴,打造复合型人才队伍对内应当打破传统部门墙,建立以业务价值为导向的跨职能协作单元或虚拟团队,由业务骨干牵头整合技术、数据、风控等资源,形成需求洞察、模型迭代与风险管控的闭环。这种组织创新不仅要求技术人员深入业务前线理解监管逻辑与客户痛点,更需要业务人员具备基础的技术思维,共同将抽象的金融场景转化为可落地的技术方案,例如,可先以设置业务产品经理/技术业务经理等虚拟岗位角色的形式,推动内部开展业技融合。对外合作则需要建立严格的技术伙伴筛选机制,在伙伴具备领先的全栈大模型技术能力的基础上,重点考察伙伴对金融业务复杂性的专业理解程度,能够综合考虑技术成熟度与业务紧急度的匹配,为金融机构设计既契合整体数字化经营战略、又兼具领先创新方向的大模型应用场景落地方案。同时应当构建动态评估体系,确保技术方案始终与业务战略保持同步,避免陷入“为技术而技术”的误区。如上文所说,人才队伍建设是破局的关键,金融机构可构建“引进 培养”的双轮驱动模式。在人才引进环节,明确复合型人才的画像标准,优先选拔既熟悉金融业务全生命周期管理又具备算法工程化能力的跨界人才。在人才培养方面,应当设计场景化的成长路径,通过沙盘演练、轮岗实践等方式,帮助员工在真实业务环境中掌握大模型应用价值与实现可能,逐步缩小技术与业务的能力鸿沟。这种人才战略的落地,需要管理层给予足够的资源倾斜和考核激励,才能打破现有组织惯性,真正释放大模型的赋能价值。领先实践金融机构大模型开发与应用案例第四章4.1 某国有银行AI PaaS平台让零售业务迈入“秒级”时代项目背景:零售银行全域升级作为拥有庞大营运分支机构数量的零售大行,该国有银行近4万家网点像毛细血管般深入城乡,为6.5亿个人客户、18亿账户提供服务。依托“自营 代理”的独特模式,该行把“三农”、城镇居民与中小企业视为核心客群,全力助推中国经济转型。如今,该国有银行正加速实现从“最大”走向“最强”的战略跃迁:通过构建全行级智能AI PaaS平台“人工智能大脑”,实现所有模型集中调度与统一纳管,驱动智算一体架构快速落地,打通数据孤岛、整合渠道资源、协同批零业务、优化全域运营,最终建成开放互联的数字生态银行。落地实施:AI原生应用遍地开花通过携手百度智能云,该国有银行以“AI PaaS”为技术底座,迭代建设,在国内大型商业银行中率先完成首个“全行级统一机器学习平台”全面落地。该平台聚集“地基”夯实:引入百度百舸算力集群与千帆大模型引擎,打通多个总行与分行的数据壁垒,形成从数据采集、特征工程、模型训练、版本管理到上线运维的“端到端”闭环。该行持续进行平台升级、拓展场景建设,借助生成式大模型能力,孵化出测试用例分类、货币交易机器人、金融领域对话生成、金融领域辅助文档分析、金融领域投诉分析等多款AI原生应用。在项目实施上,统一平台多期迭代,逐渐向功能更完善、场景更独立、流程更智能、生态更开放的方向发展,构建了不同业务场景独立应用、打通流程智能化、赋能业务数字化、延展智能业务生态的“金融全脑”平台。应用效果:实现了从模型到业务的全面提升智能风控:大幅降低人工依赖零售信贷从“5分钟”迈入“10秒”时代:自动化审批秒级完成,模型可按天迭代,信用卡、个贷等14亿账户的风险分池建模,由43天缩短至10小时即可上线。平台还为成本报账、人力、法务等系统提供预测服务,全年400万笔报账影像智能识别,大幅减轻财务审核压力。数据智能:从建模到合规的数据体系优化平台对接全行六大主题数据集市,一键完成数据拉取、清洗、特征衍生和统一建模。30余家省级分行已基于该底座上线营销获客与产品推荐;金融市场部也借此把市场数据与交易流水融合建模,实现实时评估交易成本、识别潜在风险。模型开发:打造智能化战略中枢内置的高性能数据引擎与建模引擎,把亿级信用卡样本的清洗和分析从“按月/周”缩短到“按小时”;AI集群现已承载18个核心业务系统、3大主管部门、14个支撑部门和30余家分行的模型训练与推理,成为该行智能化战略落地的“中央处理器”。IDC案例点评该国有银行将AI PaaS与业务战略同频规划,而非作为单点项目进行推进,通过统一数据治理与模型治理框架,实现“边缘场景中心大脑”的双向赋能。同时,该行借助百度百舸 千帆底座,将GPU、NPU异构算力资源池化,大幅降低了训练任务周期,将模型上线周期从月缩短至天,并快速打通了数据集市与多个总分行核心业务系统,解决了数据庞杂、业务割裂的问题。IDC认为,模型即服务是未来银行快速落地AI大模型的关键。该股份制银行不仅凭借AI PaaS完成了数据拉齐,而且持续深化大模型在复杂产品(财富、资管、托管)中的垂直微调,构建了行业级模型即服务的基准,并率先在乡村振兴、绿色信贷等监管重点场景中落地服务内容,持续巩固了该行“普惠 科技”双标杆地位。该行不仅代表了国有银行AI规模化落地的先进水平,也为全球零售金融的模型即服务提供了可复用、可扩展、可度量的全新参考。4.2 重庆农商行依托百度智能云企业级金融AI中台,打造代码规范的最佳实践项目背景:加速智能化转型,破解AI建设难题作为全国农商行体系的领军者,重庆农商行(以下简称“该行”)积极响应金融行业智能化转型趋势、持续深化人工智能技术应用。早在2018年,该行便已构建了涵盖人脸识别、语音合成、AI数字人等技术能力的智能服务体系,广泛应用于智能外呼、手机银行等业务领域。然而,面对AI技术迭代与业务需求多元化挑战,原有分散式AI建设模式的弊端日益凸显,主要表现为:算力孤岛、模型复用率低、开发效率不足。为解决这些痛点,该行亟需构建一套统一的智能化基础设施,以支撑全行的数字化转型。落地实施:搭建金融级AI中台,赋能智能化开发金融级AI中台:全生命周期管理平台该行依托百度智能云企业级金融AI中台解决方案,搭建了大规模智能服务基础设施,形成了一套完整的智能模型全生命周期管理平台和服务配置体系。该平台通过私有化部署,有效整合了异构算力资源池,支持主流AI框架和各类模型(包括LLM),面向行内提供从数据处理、模型开发、模型训练、模型评估到模型推理部署等AI开发全流程支持,为前台构建了敏捷的、业务导向的智能服务体系。核心功能包括:算力资源统一管理:构建异构算力资源池,实现统一管理与弹性分配。模型训练一站式服务:提供模型/算法库的统一管理与复用,支持一站式开发、训练、评估和微调。高效推理与服务:通过标准化API/微服务接口,实现秒级弹性扩缩、多模型灰度发布等,显著提升在线推理能力。灵活服务编排:提供可视化应用编排能力,支持AI服务的高效组合与快速迭代。图7 某农商行AI中台AI应用基础管控模型广场模型应用代码助手知识库开发工具链基础模型算力管理权限管理安全审计数据管理Ernie*算力虚拟化算力池化AI芯片高速互联机器学习模型*深度学习模型*模型精调模型评估&优化模型管理推理服务部署Prompt工程推理服务监控告警对接行内预警平台及统一告警中心接入行内日志平台日志英伟达GPUNVLinkXHMI昇腾NPU(B)大模型知识库:新一代智能问答助手基于AI中台和端到端应用开发工具链,该行搭建了统一的知识体系与智能问答助手,为总分行提供创新的标准化、高性能、高精度的大模型知识问答应用级服务。在知识文档解析方面,集成了通用文字识别技术,对各类word、pdf文档进行解析与切片,生成知识片段。同时,结合RAG技术,优化了传统问答流程,实现了知识的自动化扩充与精准检索,大幅提升了问答准确率。代码助手:开创智能化开发新范式依托百度文心快码(Comate)产品,该行实现了全栈智能化开发。智能编码技术能够自动补全、实时检查、生成单元测试,甚至完成复杂的业务逻辑生成与验证。通过引入代码助手,该行建立了代码规范的最佳实践,显著提高了软件开发的效率、质量和可靠性,并降低了人工调试成本。应用效果:拓展业务边界,重塑金融科技竞争力通过AI中台与代码助手项目的实施,该行成功构建了“基础设施 场景应用”的双轮驱动模式,实现了模型复用率和开发效率的显著提升。这不仅为全行的数字化转型提供了可复制的方法论,更重塑了其在金融科技领域的竞争力。未来,该行将持续拓展AI应用生态,从代码助手、员工知识问答等场景,逐步扩展更多业务领域,持续迭代并升级AI产品,进一步释放技术潜力。IDC案例点评该农商行智能化转型成功的关键在于百度智能云的金融级AI中台赋能。AI中台整合了分散的AI算力与模型资源,实现了异构算力池化管理和模型全生命周期管理,在显著提升资源复用率与开发效率的同时引入代码助手,实现了全栈智能编程辅助,大幅降低了人工成本。此外,在模型落地应用过程中,通过私有化部署与模块化设计(算力层/训练层/推理层/MaaS层),支持从基础模型训练到复杂业务编排的灵活扩展,也为多场景AI应用深化与场景扩展预留了发展空间。IDC认为,技术资源整合能力、场景适配与安全合规体系建设,是该农商行顺利转型的成功因素。通过AI中台一体化解决方案解决了过往分散建设与AI碎片化的问题,通过RAG实现了金融知识的自动化萃取,通过AI开发工具链的统一管理,最终实现了端到端的工具链整合与场景落地。凭借百度全栈技术能力、金融场景深度适配及安全合规体系,该农商行实现从分散式AI到统一智能平台的升级,既验证了中台架构在金融复杂业务环境中的适配性,也为行业提供了可复用的“技术底座 场景应用”双轮驱动新范式。4.3 泰康保险集团股份有限公司AI综合解决方案大幅提升核保核赔自动化率项目背景:以ROI为出发点探究AI综合解决方案与业务场景深度适配泰康保险集团股份有限公司(以下简称泰康集团)以解决实际业务痛点为导向,弱化单一技术标签,构建“大小模型协同 AI工程支撑 场景深度绑定”的综合解决方案,在保险核保核赔、康养服务、中后台运营等场景实现降本增效,其“问题牵引型”落地路径与“ROI优先”的实施策略,为保险行业AI技术规模化应用提供了可借鉴的实践案例。落地实施:多模型 AI工程 深度共创实现了场景化穿透多模型矩阵打造AI工程泰康集团采用“通用大模型 专精小模型”组合策略。基础能力依托百度文心大模型进行保险领域适配(优化保险术语理解准确率大幅提升),同时针对细分场景开发专精模型,如核保场景的病历结构化模型(融合OCR与文本抽取技术)、理赔场景的反欺诈规则引擎,大幅提升了结果可靠性。大模型早期应用存在“重技术轻场景”的现状,通用模型在保险严肃场景中表现出准确率天花板低(如核保规则匹配准确率不足)、结果一致性不高等问题,泰康集团投入了80%的技术力量优化AI工程,建立了“模型一致性校验机制”,通过规则引擎与模型输出并行比对,降低大模型幻觉。与技术服务商深度共创,打造“AI产品经理牵引”的运营模式泰康集团与百度深度合作,共建保险行业首个全链路知识平台,集成搜索引擎、向量化检索、切片编辑等技术,支撑知识助手的精准响应;联合开发医疗影像解析、财务票据识别等专精模型,弥补内部技术短板。在组织层面,推行“AI产品经理牵引”模式,组建业务与科技交叉团队,通过弱矩阵管理推动跨部门协作,重点解决中间层阻力问题,确保AI工具在业务流程中落地。应用效果:打通了从效率提升到价值重塑的量化闭环在核保核赔业务场景下,数据处理周期明显缩短围绕保险核保核赔场景,引入大模型对病历进行结构化抽取,处理周期从4周缩短至1周,周期缩短三倍,效率提升3倍。同时,核保流程实现了大模型初步结论 小模型规则校验 人工复核三阶流程,大幅降低了人工成本。在康养服务场景下,档案生成效率大幅提升围绕康养服务场景,尤其在健康档案生成、照顾计划制定等业务流程中,实现了客户健康数据自动汇总(涵盖体检、诊疗、生活习惯等维度),档案生成效率大幅提升,并通过智能体推送个性化建议(包括慢病干预方案),档案无需人工复核,深度适配了康养场景对容错率的弹性需求。在中台运营场景下,知识助手覆盖多个业务领域在中台运营场景中,开发了智能交互工具,支持语音指令完成差旅报销、会议预订等操作,中台的27个知识助手覆盖了3000 内勤和数万保险代理人,实现快速条款查询与规则匹配,大幅减少了系统切入切出的成本。IDC案例点评泰康集团的AI实践展现了保险行业以业务为根本的思考逻辑,回归业务价值本身,通过AI综合解决方案替代大模型单一路径,避免技术投入与业务价值脱节,这种业务价值创造导向的思路与ROI策略,为业界提供了技术落地的可行性框架。IDC认为,泰康集团在AI工程领域的投入深刻影响了其业务的创新能力。泰康集团将80%的精力投入在技术难度最高的AI工程优化方面,通过模型交叉验证、知识工程支撑、流程自动化等手段,弥补了大模型在准确率和一致性上的短板,证明了“大模型工程化能力”是当前大模型落地的关键突破点。此外,金融机构与技术厂商深度共创将成为主流合作趋势。泰康集团与百度的共创模式解决了技术资源不足问题,而“AI产品经理牵引”的组织调整则突破了内部阻力,说明技术落地不仅是技术问题,更是生态与组织的系统性变革。未来,随着智能体技术的成熟与成本进一步降低,需求牵引与ROI优先的策略将成为金融行业大模型应用的主流。4.4 银河证券大模型拓宽证券业务边界项目背景银河证券是中国最大的国有证券公司之一。公司根植中国资本市场20余年,服务中国及“一带一路”沿线超1700万客户,客户托管资产超5万亿元,已发展成为国内分支机构最多、亚洲网络布局最广的投资银行之一。近年来,公司深耕机构业务,倾力打造“天弓”品牌,致力于为广大实体企业和金融机构提供专业化的服务。场外衍生品是服务机构的重要业务,可以为机构提供定制化的风险管理产品。目前各家券商都非常重视该业务的发展。对于场外交易场景来说,头部券商致力于帮助客户快速处置交易询报价指令,提高运营服务效率,使得在固定的交易时间内转化更多交易。落地实施场外衍生品业务是银河证券机构业务中非常重要的一环,在当前业务需求与日俱增的市场环境下,其逐渐成为众多头部券商竞争的主阵地。针对机构业务服务响应滞后、业务运营成本高等问题,银河证券和百度智能云通力合作,基于场外交易解决方案先进的金融行业应用大模型底座,构建了“百度智能云金融智能场外交易平台”。该平台能够通过将交易询报价业务全流程自动化,取代查询、手工回复、信息确认等人工操作,形成从意图识别、询报价回复和多轮会话到交易转化的闭环,帮助银河证券实现了场外衍生品业务运营智能化,有效提升对客服务效率的同时,显著优化机构客户的满意度。内置非标准化数据解析模型助力快速展业:智能场外交易发现平台大模型泛化能力优异,通过少量的样本训练就可以达到不错的模型效果,目前已支持香草、雪球等股票期权及债券交易的自动询报价服务。模型统一管控快速响应新业务:智能场外交易发现平台支持解析模型自助优化,可进行自主标注、训练、调优及模型效果监控,使模型可以快速响应新业务、新资产标的。实现智能体智能会话提升信息获取效率:利用大模型多轮会话能力,根据多轮交互的内容进行问答。通过对短时态记忆的建模,能够跨多轮对话上下文进行语义理解,精准捕捉用户的真实意图和需求状态,提升交互的自然流畅度。支持智能体智能调度,对系统内插件进行工作流调度执行。提供高度模块化的插件调度引擎,可根据如交易、托管外包等不同业务场景调用定制化的功能插件,确保系统的灵活性和稳定性,快速响应业务需求。应用效果该项目上线后,降本增效成果斐然,报价能力大大提高,客户体验大幅提升,交易量随之增长。2024年9.26行情爆发,机器人创造了单日下单新纪录。整个系统有力的支持了客户数量和合约数量的爆发式增长,同时保障了业务的风控合规满足监管各项要求。通过大模型的多轮对话能力,支持历史文本记忆功能,显著提升机器人在订单查询、交易等多轮对话场景中的记忆与理解能力,用户体验满意度提高20%,服务效率提升30%,知识库问答准确率从69%提升至98%。该项目也为整个行业积极贡献了成功经验。以该项目为主要研究内容的课题获得2022年中国证券业协会优秀重点课题,相关成果已经整理成论文发表在金融纵横、中国证券等专业期刊,并获得多项行业奖项。IDC案例点评作为服务机构客户、高净值客户的重要工具,证券公司的场外衍生品业务具有产品定制化强(合约期限、交割方式、结算价格)、专业性要求高(定价模型复杂、风险计量技术难度大)的特性。百度凭借领先的AI技术能力,为该证券公司搭建了智能场外交易发现平台,推动业务流程实现自动化与智能化。同时,深度适配优化多种模型到自研投顾平台,客户从询价到下单的转化率大幅提升,满足了投资者千人千面的财富管理需求。IDC认为,以大模型为核心的AI技术可以大幅拓宽证券业务边界,助力证券行业个性化展业。百度与该证券公司的合作,是通过大模型技术优化了场外业务流程,用智能体实现了各类业务模块调度。未来,大模型会快速适配诸如主题基金、资产证券化、行业舆情实时分析等业务需求,围绕OTC交易策略为用户提供更加个性化的投顾服务与投资组合方案。金融行业大模型落地建议:多方协同构建“战略-支撑-生态-监管”四位一体保障体系第五章金融行业大模型落地需要金融机构、模型厂商、产业生态方以及监管部门共同努力,明晰大模型对自身乃至全行业的战略意义,设计从模型选型到落地应用的战略顶层架构,勇于把握AI技术浪潮奔涌而来的机会,积极推动金融创新。5.1 金融机构:构建“战略精准-执行适配-风控闭环”的系统能力设计3-5年战略规划:制定金融行业大模型从选型到落地的顶层规划,涵盖算力建设、数据体系、模型适配、智能体应用、安全合规、ROI评估与组织人才支撑,量化技术与业务考核指标并建立全员共识。制定实施计划与路径:在战略规划阶段制定三到五年路线图,明确各个阶段的资源分配。国有大行以自主可控为核心,分阶段构建全栈能力;股份制银行平衡成本与效率,聚焦场景化落地;区域性银行复用开源模型,有效提升业务效率;保险机构聚焦核保核赔,强化多模态能力;证券/基金公司聚焦低时延与投研智能化场景的模型策略。战略与合规风险管理:通过季度复盘降低运营风险,在数据合规、审计合规与个人隐私保护等方面保障大模型应用安全。5.2 技术服务商:提供“算力效能-平台易用-模型工程化-场景赋能”的全栈支撑打造金融级算力效能平台,通过异构芯片调度管理、大小模型分布式调度,潮汐算力混合部署,跨机构资源共享,实现算力使用效率的总成本领先。建设应用(智能体)开发平台:一方面,构建依托低/零代码开发环境与组件化扩展能力的应用开发平台,降低技术门槛,加速场景化应用开发和创新。另一方面,通过建设模型管理平台,提供基于基础模型的模型精调、推理服务、模型优化、模型压缩、prompt工程等全流程的工具链,以有效满足复杂业务场景对模型能力的个性化需求提升大模型工程化能力:围绕算法研发、模型训练、行业垂直化等构建技术护城河,确保大模型具备稳定性、安全性与可控性,在知识工程、工具链管理、智能体运营、安全运维等关键环节提供技术支持。深度赋能垂类业务应用:联合金融机构拆解垂类业务痛点(如信贷审批效率低、反欺诈误判高、投研信息碎片化),构建符合监管合规要求的数据处理机制(如联邦学习、数据脱敏)、开发场景化工具(如智能风控决策系统、投研问答智能体)、强化模型可解释性与结果溯源能力,将模型能力转化为解决具体业务问题的方案。5.3 产业生态:共建“标准统一-产学研协同-产业链联动”的协同体系共建大模型标准:标准组织、国家智库、评测机构、行业自律组织等机构需要推出模型评测、金融数据、安全合规等标准,构建标准开发工具生态,深度建立行业共识并实现资源共享。深化产学研合作:高校、科研机构与金融机构共同推动技术创新与应用,打造先导性、开放性的交流平台,金融机构与高校建立金融行业大模型联合创新实验室,围绕模型幻觉抑制、小样本风控等难题进行前沿学术与技术攻关,缩短模型应用从实验室到商业化的进程。产业链深度协同:算力基础设施与云服务提供商需要提供充沛算力;数据服务商与模型厂商需要满足数据监管要求并构建“数据飞轮”;金融机构需要围绕大模型战略聚焦价值创造并设定ROI指标。通过模型平台化、服务产品化、安全合规化、应用嵌入化以及生态协同化的方式构建“标准先行-算力适配-数据打通-场景共创-监管护航”的产业链协同机制。5.4 规范引领:强化“政策引导-工具迭代-标准牵头”坚持“规范与创新并重”:出台鼓励政策引导产业基金投向算力适配、算法攻关等领域,同时防范潜在风险;深化监管工具应用:利用大模型提升违规识别、风险预警的穿透性与有效性,秉持包容审慎理念引导健康发展;牵头标准建设:组织制定大模型能力、数据、风控等标准体系,在数据采集规范、算法审计、模型风险评估等方面给出明确指导,协同推动合规落地。结语:金融行业大模型落地需“机构定战略、服务商给工具、生态聚合力、行业立规则”,多方协同将“技术能力”转化为“业务价值”,最终实现从“模型可用”到“产业好用”的规模化突破。关于百度智能云金融行业“双智能 双引擎”方案第六章!#!$%!#$%&()*) ,-./01)*23456,-78019:;!#$%!&()* ,-./0123456,23?23ABC!789:;978?78ABC9D78EFGH789IJK78LM;9NN78OPQRST?ULVUWXUWYDE?,FGHI?J?!#$%&()* ,-!./!0123456789*:,234!;6234!?ABC!DEFGHC!DIJK?LMNOPOQR?STUGVW;XYZ-IJ5_a#$bcdefg-hijkl2mn-hijkQR2mo-hijkpqrsC-hijktuvw百度智能云金融行业“双智能”“双引擎”方案随着全球数字化浪潮的加速演进,金融行业正站在一个由人工智能(AI)技术,特别是大语言模型(LLM)驱动的深刻变革的十字路口。传统的业务模式、服务渠道和运营效率面临前所未有的挑战与机遇。百度智能云在服务客户过程中沉淀的,从算力芯片应用架构,提出一种前瞻性的“双智能双引擎”架构体系。该体系以“智能数字员工”与“智能对客服务”为两大核心应用(双智能),并由“百度智能云千帆AI开发平台”与“百度百舸AI计算平台”两大核心技术基座(双引擎)提供动力,系统性地重塑银行、保险、证券、基金等金融机构的业务流程与价值创造方式,旨在为金融行业的智能化转型提供一套全面、可行、高效的战略蓝图。6.1“双智能”应用层重构金融服务新体验6.1.1 智能数字员工:打造金融机构的超级生产力智能数字员工是AI驱动的虚拟劳动力,它们深度融入金融机构的各个业务环节,承担起高复杂度、高知识密度的工作,成为人类专家的得力助手。前台数字员工数字理财经理:能够7x小时分析海量市场数据、宏观政策和研究报告,为客户生成个性化的资产配置建议,并辅助投资经理进行深度研究,极大提升投研决策的效率与覆盖面。数字保险代理人:能够自动挖掘和推送潜在客户,将场景挖掘效率提升500% 。同时,作为全能业务助理,它能自动回复高频问题,并协助完成复杂任务,业务助理助推效率提升90% 。内置10万 专业知识库,使代理人的知识储备提升95% ,并能生成个性化的营销内容,使营销手段更丰富。通过模拟实战环境,智能培训系统可将新代理人的培训周期缩短50% 。可根据客户画像提供精准建议,让代理人面客准备更充分。简化线上投保流程,使保单成交更简单。数字客户经理:主动洞察客户需求,进行全生命周期的客户关系管理,提供千人千面的产品营销和服务支持,深化银行与客户的连接。ZWYHZ_aKLCMNOPQNJRSTUNCMV(WXDEYZXDEJCDEC8C,FGHI_CabcQde!#$%&()*&( ,-./0123452bcdefghij6789klmno:;ijkijl789:;978ABC9D78LM;978EFGH78OPQRST?789IJK78?-ppqrst-ppurstZHZcdv923ABC23?双智能:从“降本增效”到“创新增长打通技术到业务价值的最后一公里中台数字员工数字投研顾问:高华证券与百度智能云从去年年初开始在证券投资的核心场景进行深度合作,投入力量共同研发了基于大模型的指数化股票投资系统,依托百度千帆大模型平台,借助提示工程、思维链设计,去模仿专业投资者的思考逻辑,根据公开信息形成指数组合决策,属于我国业内首创。双方合作研发的最新研究成果华证高度大模型新质生产力指数。这是一个科技成长类指数,与红利类的稳健50恰好形成互补。新指数通过大语言模型技术,将上市公司在生产、销售、研发、投资等维度上的公开信息与权威政策文件语料进行匹配与分析,筛选出深入践行新质生产力发展理念并且成长性强的上市公司用来构建投资组合。截至7月底,大模型新质生产力指数近五年全收益指数年化收益达13.7%,不仅大幅超越同期中证科技100指数0.4%的年化收益,在回撤控制方面也展现优势最大回撤较中证科技100指数降低近18个百分点,再次展现出大语言模型在选股领域的巨大潜力数字风控模型算法工程师:在金融风控建模任务中,特征工程始终是影响模型性能的核心环节。传统做法多依赖人工经验与规则构建,虽能产生一定区分度的特征,但在大规模序列化、多维度的交易数据下,人工方法的效率与覆盖度明显不足。应用智能体方案,建模效率可由数月完成特征工程小时级别,极大提升提取的特征的IV效果,保证模型抓违约人群的能力。后台数字员工数字理赔专员:传统理赔核算方案耗费的人工成本和时间成本巨大,且核算过程难以按照指定形式向客户呈现,赔付结论可读性较差。通过数字理赔专员,大大节省了人力成本和时间成本,且案例与赔付规则的公式匹配、公式计算、案例赔付总结等过程可以按照指定形式清晰呈现给客户。数字开发工程师:可以理解业务需求,自动生成和优化代码,构建和迭代风险控制模型,将金融机构的模型开发与软件工程效率提升至新的量级。通过部署智能数字员工,金融机构不仅能实现显著的降本增效,更能将宝贵的人力资源从重复性工作中解放出来,专注于更具创造性和战略性的高端价值活动。6.1.2 智能对客服务:开创全场景智慧交互新时代智能对客服务旨在利用AI大模型,打造一个无缝、统一、高度智能化的客户交互中枢,重塑服务体验。新客服务:在获客环节,通过智能对话机器人提供全天候在线咨询,精准解答客户疑问,引导客户完成开户、申请等流程,提升转化率。新APP体验:将金融APP从一个功能菜单的集合,升级为一个“有思想”的智能金融助手。用户可以通过自然语言对话,直接办理业务、查询信息、获取投资建议,实现“所说即所得”的极致便捷体验。新交易场景:在交易过程中,嵌入智能风控提醒、市场机会解读和交易策略辅助,让每一次交易都伴随着专业的智能决策支持,提升客户的投资成功率和满意度。6.2“双引擎”技术基座驱动智能应用的强大动力如果说“双智能”是金融智能化的上层建筑,那么“双引擎”就是其坚实可靠的底层基础,确保AI应用能够被高效开发、稳定运行和持续迭代。双引擎:从可用走向好用一站式模型平台 AI算力云组合!#$%&()* ,!-./01$#()456* ,!#$%&()* ,!#$!%&!#$%&(&)*) ,-$%./01234556)*789:;?ABC!DEF&G%HI,-JKLMNKOP&QRSTU%VW)*) LM$%U=XYZ-./_abcRdefgAhijkklmkknopqrs,-tuvwxRyz|!#cd#_e.do!#,-!#$!#$%&()* ,-!./!0123456789*:,234!;6234!?AB%&()#$CD;EFGHIJ-KLMN5OPQ#$RSTUVW-XYZI2-XYZ_2-XYZabcde-XYZfgh* #$e!ijklme!iLMn?opqrsr_?tuvlw!#$%#()#* #,)6.2.1 百度智能云千帆AI开发平台一站式企业级大模型开发与服务中心千帆大模型平台为金融机构提供了从模型到应用的全链路工具与服务,是连接底层技术与上层业务的桥梁。百度智能云千帆ModelBuilder百度智能云千帆ModelBuilder能够基于国产化算力资源,实现从数据管理、模型开发、部署上线到在线测试的AI能力研发与应用全生命周期建设和管理。在数据管理方面,可以有效地处理大规模的数据,支持不同类型数据处理等功能;在模型开发方面,提供丰富的预置算法,包括市场领先的开源大模型、百度文心一言大模型、百度千帆中文增强大模型等,同时提供高效、稳定的开发环境,支持多模态、多类型任务、大模型等多种模型开发需求;在部署上线方面,支持多种部署方式,如在线部署、离线部署等,可以灵活地部署在不同的环境中;在线测试方面,可以支持实时在线的测试场景,可以快速地定位大模型调优方向,提高模型的质量和可靠性。千帆大模型平台的普及使得这些自动化训练技术更加普惠。通过提供易于使用的工具和接口,使得广大开发者和研究人员能够轻松地使用自动化训练技术,而不需要深入了解其背后的复杂原理。平台具备以下关键能力:多种微调方法:通过全量更新和LoRA自动调整参数,减少人工干预,提高训练效率。可视化界面和工具:提供易于使用的可视化界面和工具,方便用户管理和监控模型训练过程。丰富的预置算法:集成市场上领先的开源算法,预置丰富的小模型案例,快速部署服务体验效果,降低用户使用门槛。具备业内优势的开源大模型,Llama、Qwen、Deepseek等。大模型 小模型部署愈加复杂,体系化工具是应用实现利器随着大模型和小模型的广泛应用,大模型的复杂性要求更高的计算资源和更精细的调优,而小模型的多样性则带来了更灵活的应用场景和更高的部署需求。它们的部署过程变得日益复杂,需要高度的技术专业知识和有效的工具支持。在这种情况下,体系化工具成为实现顺利部署和应用的利器,为开发人员提供了关键的支持。首先,大模型和小模型的部署涉及到多个环节,包括模型转换、优化、推理引擎的选择等。针对这些复杂的任务,千帆大模型平台-燧原定制版模型部署工具提供了一套完整的解决方案,通过集成各种功能模块,简化了部署流程。这使得开发人员能够更加专注于模型设计和业务逻辑,而无需过多关注底层实施的技术细节。其次,部署工具在跨平台部署方面发挥了重要作用。由于不同硬件平台和操作系统的差异,将模型顺利部署到各种环境中变得复杂而具有挑战性。模型部署工具通过提供通用的部署接口和适配层,使得模型能够在多种环境中运行,从而提高了模型的可移植性和通用性。百度智能云千帆AppBuilder作为企业级AI原生应用开发平台,百度智能云千帆AppBuilder是实现业务价值闭环的关键。它是连接底层技术与上层业务的桥梁。其核心在于开创了大模型驱动应用开发的新范式,极大地降低了AI应用的开发门槛。零代码与代码态并行:为业务人员提供零代码的GUI交互界面,通过简单的“拖拉拽”和对话式配置,三步即可完成应用的创建与分享;同时,为专业开发者提供可编程的完整开发套件、工具链组件和工作流,支持更复杂、更定制化的应用开发。组件化与生态化:平台提供丰富的预置组件,并设有“组件广场”,鼓励开发者共享和调用,形成繁荣的应用生态。通过连接知识库、数据库、大模型和各类API,可以快速构建出功能强大的金融领域智能体,加速创新落地。核心优势:应用效果领先:内置企业级全链路检索增强与应用框架,能够实现效果分析、效果反馈和效果调优的实时闭环,确保问答准确率高达90%以上。组件工具丰富:预置超过60个AI能力组件,深度覆盖政务服务、营销办公、研发生产等主流业务场景,工具自动编排准确率超过90%。产品开放易用:通过零代码/低代码开发模式,并配套全栈课程,极大降低使用门槛,将开发效率提升30倍。支持多渠道分发与集成,快速满足各类业务线集成需求。全面支持国产化适配:支持私有化部署,彻底解决数据安全问题。全面支持信创,满足国产化诉求,适配主流国产芯片、操作系统及数据库。百度千帆慧金大模型针对行业应用中的专业需求,百度以金融行业为试点,正式推出千帆慧金金融大模型。该模型基于海量金融语料深度训练,构建金融专用合成数据管线,优化算法策略,并提供知识增强大模型和推理增强大模型两类模型,每类模型分别提供8B和70B两个版本,支持最长32K上下文输入,覆盖金融行业多数场景。在金融领域Benchmark评测中,千帆慧金金融大模型综合表现领先,百亿参数模型得分超过千亿参数的通用模型。在金融销售赋能场景中,相比通用模型,千帆慧金金融大模型能更完整地列出贷款材料清单、拆解工作流程,并明确风险管控要点,展现出深厚的行业知识与推理能力。AI搜索当前,企业在信息检索与决策支持中普遍面临着四大问题:自建大模型知识库存在信息更新滞后、时效性差的问题,难以覆盖热点事件和突发舆情,在面对复杂、专业的问题时,大模型可能因知识库限制而输出过时或错误的答案;!#$%&()* ,-./012QianfanHuijin-70B-32KQianfanHuijin-8B-32KQianfanHuijin-Reason-70B-32KQianfanHuijin-Reason-8B-32K!#$%&()* ,-.)/012* 34!#$%&!()%!* ,-DeepSeek R1Qwen3-235B-A22BQianfanHuijin-Reason-70B-32KFLAME-Cer!#sample$FinanceIQ!XUANYUAN$FinEva_Ant%&QianfanHuijin-70B-32K88.3086.1090.4086.1886.8287.6592.1090.7093.1088.8687.8790.38Qwen3-235B-A22BDeepSeek-V3-250324QianfanHuijin-70B-32KQianfanHuijin-Reason-70B-32KFLAME-Cer!#sample$FinanceIQ!XUANYUAN$FinCUGE%&89.1488.7193.1483.5182.6582.5383.0683.3386.5186.3685.5088.35FinEval89.7487.3191.23百度智能云千帆金融行业大模型:千帆慧金金融场景效果更好,模型应用灵活度更高企业内部知识边界局限,缺乏对产业上下游和全球趋势的外部信息补充;员工在处理外部信息过程中需通过外网终端进行人工搜索与筛选,加工成本高、效率低;搜索结果来源杂乱、质量不一,难以保障内容准确性和安全合规性。针对以上问题,百度搜索可以即时捕捉并提供最新数据,弥补时效性的不足;智能搜索生成结合大模型和基础搜索的能力,通过搜索拓展知识范围和大模型自身的总结推理能力,提升输出的准确率。百度搜索适用于企业内部有大模型,希望将搜索作为实时数据源,需要“原汁原味”素材自己来加工的场景;智能搜索生成适用于企业希望接口不是给链接、而是直接给答案的情形,并且答案要保证权威性和结构化。常见的应用场景如下:知识问答助手知识问答助手可作为企业内部知识库的有力补充,有效解决因知识治理混乱导致的检索不准确、知识更新不及时等问题。知识问答助手通过接入大模型与百度搜索能力,支持用户获取与问题相关的网页列表和原始内容,弥补自建大模型缺乏外部实时数据导致回答不准确的不足。依托百度搜索的分钟级更新能力,知识问答助手能够提供具备高度时效性的内容,有效提升问答系统的智能化和实用性。客户经理助手/客户助手企业可以在内部或者面客的系统或者APP中引入智能搜索功能,打造客户经理助手或客户助手。通过提供生活类信息查询、新闻浏览、热点事件追踪等功能,可以有效降低了员工与用户获取信息的成本,还能在持续使用中培养用户习惯,从而提升系统和APP的整体使用率和用户粘性。写作助手写作助手通过集成搜索功能,帮助用户在撰写内容时快速获取所需素材、案例、数据或背景信息,可以极大降低创作过程中的信息搜集成本与时间消耗。无论是用于新闻撰写、市场报告、营销文案还是社交媒体内容生成,写作助手都能够实时提供权威、丰富且多样的信息来源,激发创意灵感,支持结构搭建,满足多样化的创作需求。结合大模型能力,还可对搜索结果进行初步摘要与结构化提炼,为写作者提供更具参考价值的内容支持。6.2.2 百度百舸AI计算平台坚如磐石的AI算力底座算力与模型作为数字时代新的操作系统与基础设施,正朝着普惠化与平权化方向发展。面向AI原生应用的算力应用,要求算力管理具备动态化能力,以适应不断变化的业务场景需求,同时应对智能体与模型技术的持续演化。因此对于银行典型AI应用开发、大模型训练开发、AI模型统一管理部门,需要构建兼容能力强、具备技术领先的大模型训推加速云原生机制的异构算力管理平台,帮助金融机构在数智化转型中抢占先机,在确保安全合规的前提下,高效地开展业务创新和智能升级,解决算力高效分配问题,完成千亿模型PD分离动态部署,潮汐算力训推一体,在降低算力使用成本的同时,提供算力高效分配机制。算力管理平台随着通用大语言模型(LLM)和金融垂直大模型的迅猛发展,人工智能正在深刻重塑金融行业的业务模式、风控体系和客户服务体验。金融机构在拥抱大模型机遇的同时,逐步走向算力精细化管理的方向。大模型时代,AI原生的金融基础设施的建议!#$%&()* ,-./0!1203456#789:;%!&?A0#70B-CD!#$%&()EFGHIJK&LMNOPQ!PR!#$%&()*STUVWXYZ_LMabcZ! &,-.*def#7g#7hij!/0#$*klfmnopUqrst?Auvw%xyh&* #$z|zPR#%h&zz895!#$%!#$%&()#$XAuXAuAuAudC* 12e异构资源管理百度百舸AI计算平台通过高性能计算、存储、网络、集群管理、训推框架,为大模型场景下的各种任务提供高效的计算能力和数据处理能力,确保任务的高效执行。支持各类AI加速卡,如NVIDIA、昆仑、昇腾等高性能计算卡,提供强大的计算能力以满足大模型场景下各种训练、推理任务需求。并且支持零成本适配原生PyTorch/TF环境、Hugging Face架构大模型开箱即用、ONNX自动优化。支持CentOS、Ubuntu、麒麟等多种操作系统,通过多操作系统的兼容性,确保应用能够在不同环境中顺利运行。提供并行文件存储、对象存储等高性能存储解决方案,无论是大规模训练数据还是模型参数都能高效读取,确保数据处理的流畅性。同时支持容器网络、IB/ROCE等高性能网络技术,确保数据传输的低延迟和高带宽。训推一体AIAK支持多种主流大模型的训练加速,例如Llama、Qwen、Baichuan、Mixtral等系列模型的Postpretrain和SFT微调场景。通过优化算法和提升计算效率,AIAK能够显著提升训练吞吐量和多卡训练加速比,减少训练时间。可提供推理加速镜像,支持Llama、Qwen、Baichuan等系列模型的推理加速。通过并行优化、显存优化和算子优化,AIAK能够显著提升推理吞吐量,降低推理延迟,提高模型的实时性。拥有模型权重格式转换和并行策略切分工具:AIAK支持模型权重从Hugging Face到Megatron框架的相互转换。此外,还支持Megatron框架下模型权重按照不同的DP(数据并行)、TP(张量并行)、PP(流水线并行)并行策略进行切分,方便用户根据硬件配置和任务需求进行灵活调整。同时支持并行策略自动搜索工具,能够根据用户的硬件环境和模型特性,自动搜索最优的并行策略,帮助用户快速进行性能调优,以达到该配置下的最优性能。万卡大规模集群资源中心容器镜像高性能计算操作系统OS高性能存储高性能网络NVDIA、昆仑、昇腾等CentOS、Ubuntu、麒麟等对象存储、并行文件存储容器网络、IB/ROCEAI集群管理BCCL通信库AIAK训练加速数据加速AI组件算力池化用户中心ContainersVirtual Servers训练任务模型部署容器引擎调度安排数据中心运维中心模型弹性化托管训练推理加速统一用户界面:Console、API、CLI资源利用率提升多元芯统一管理任务快速排障轻量快速交付优势场景能力中心平台组件基础设施监控运维在AIHC PRIVATE中,支持用户一键开启容错,覆盖了训练进程Hang、训练心跳失联、训练进程报错异常退出、Pod被误驱逐等场景的故障感知定位&自动恢复能力,可完成训练异常感知,提供了强大的训练异常感知能力,能够检测到任务退出、任务假死、运行缓慢等常见故障场景。特别是对于难以识别的任务hang场景,百度百舸AI计算平台基于百度内部大量的最佳实践制定了指标体系,可以及时发现问题。进行容错判断,基于其资源池的自动故障隔离能力,能够检测任务所在节点是否发生故障。一旦检测到故障,平台会自动隔离该节点,并触发任务容错流程。同时可完成任务异常自动恢复,针对节点故障导致的任务异常场景,千帆异构算力管理平台会尝试通过重调度训练任务的能力,快速恢复任务。具体来说,当检测到节点故障时,平台会自动隔离故障节点,并将任务重新调度到健康的节点上继续运行。关于 IDC国际数据公司(IDC)是在信息技术、电信行业和消费科技领域,全球领先的专业的市场调查、咨询服务及会展活动提供商。IDC帮助IT专业人士、业务主管和投资机构制定以事实为基础的技术采购决策和业务发展战略。IDC在全球拥有超过1100名分析师,他们针对110多个国家的技术和行业发展机遇和趋势,提供全球化、区域性和本地化的专业意见。在IDC超过50年的发展历史中,众多企业客户借助IDC的战略分析实现了其关键业务目标。IDC是IDG旗下子公司,IDG是全球领先的媒体出版、会展服务及研究咨询公司。IDC ChinaIDC中国(北京):中国北京市东城区北三环东路36号环球贸易中心E座901室邮编:100013 .Twitter:IDC版权声明凡是在广告、新闻发布稿或促销材料中使用IDC信息或提及IDC都需要预先获得IDC的书面许可。如需获取许可,请致信。翻译或本地化本文档需要IDC额外的许可。获取更多信息请访问,更多有关IDCGMS信息,请访问https:/ IDC。未经许可,不得复制。保留所有权利。
2025-08-29
58页




5星级
AI 安全系列研究报告 安全优先的大模型 *安全优先的大模型 目 录 本报告调研的入选标准.1 本报告调研的安全能力供应商.1 报告背景.2 关键发现.3 一、概念定义.4 1.1 定义.4 1.2 定义解读.4 二、发展潜力.6 2.1 市场发展驱动力.6 2.1.1 大模型内生“缺陷”转化为安全原生需求.6 2.1.2 大模型强监管态势夯实安全合规基础.7 2.2 安全能力核心逻辑.8 2.2.1 以“模”制“模”.8 2.2.2 以权限和身份管理重塑业务.9 2.2.3 以安全工程保障系统工程.9 2.3 未来趋势.11 2.3.1 大模型重塑数字生活,人工智能治理道阻且长.11 2.3.2 端侧大模型需求激增,安全能力需要新突破.11 2.3.3 后训练是应用关键,数据价值再次攀升.11 2.3.4 公众模型成为基础设施,智能体百家争鸣.12 三、推荐供应商.13 四、安全能力.17 4.1 大模型业务系统安全风险.18 4.2 安全优先的大模型能力图谱.20 五、解决方案/典型案例推荐.22 5.1 大模型安全解决方案.22 方案背景.22 方案概述.22 解决方案核心价值.23 AI 安全产品详解.24 5.2 数字政府智算服务一体化安全保护案例.28 安全优先的大模型 项目背景简介.28 大模型业务系统安全保护需求.28 整体解决方案.28 5.3 科技制造业大模型安全防护案例.33 项目背景简介.33 大模型业务系统安全保护需求.33 整体解决方案.34 核心安全能力.35 5.4 联想携手火山引擎推出可信个人云案例.37 项目背景简介.37 大模型业务系统安全保护需求.38 整体解决方案.38 核心安全能力.39 5.5 央企大模型综合治理案例.41 项目背景简介.41 整体解决方案.41 核心安全能力.42 5.6 杭州市数据资源局大模型安全防护案例.45 项目背景简介.45 大模型业务系统安全保护需求.45 整体解决方案.46 核心安全能力.46 1/47 本报告调研的入选标准本报告调研的入选标准 具有 AI 研究能力、大模型安全保护产品具备自主知识产权,通过 SaaS 或私有化部署方式,为企业用户提供保护大模型业务应用的产品、服务、解决方案的安全厂商。本报告调研的安全能力,不包括通用安全,只针对明确的大模型合规要求或大模型业务系统特有安全需求。产品或服务可被完整交付,解决方案有实际场景或落地案例为支撑。接受数世咨询的调研与访谈,并承诺提供数据的真实性。本报告调研的安全能力供应商本报告调研的安全能力供应商 (按调研顺序排序)2/47 报告背景报告背景 人工智能技术已经在全球范围内得到了普及,而大模型作为人工智能的复杂应用,在以中美为核心引领的环境下,已经为人类带来了极大的震撼。随着人工智能技术的不断发展,在可预见的未来,通用大模型将成为数字智能的基础设施。当前,通用大模型竞争格局逐渐明朗,人们也越来越清晰的认识到,人工智能的价值并不在于模型本身,而在于其深度融合并改造业务场景的过程。以专业领域大模型为核心的大模型业务系统(包括智能工作流和智能体)和具身智能接棒开启了新一轮的白热化竞争。为了推动大模型业务系统和具身智能等人工智能应用的持续发展,更为了用户可以合规、安全的使用大模型赋能业务,数世咨询特开展了本次调研工作。希望本报告可以帮助使用大模型的用户,了解大模型业务系统中的安全风险和相应的安全能力供应商,在大模型业务系统建设和运营时提供有益的参考。3/47 关键发现关键发现 大模型安全保护市场,自 2025 年开始加速进入需求爆发期,现阶段以合规为核心驱动。随着大模型稳定性以及数据要素价值的升高,未来以“合规 业务”为双轮驱动。大模型本身不等于大模型业务系统(包括使用大模型的工作流和基于大模型的智能体),前者是后者的子集,后者需要通过系统化的安全保障能力满足业务系统安全需求。大模型业务系统安全与数据安全的保护理念是一致的,都需要深度融入业务流程和数据流向之中,对数字安全产业来说既是挑战也是机会。现阶段面向公众提供服务的大模型,其核心需求是备案全流程服务,上线后则侧重内容风控。为企业经营赋能的大模型,其核心挑战是引入大模型后对原有业务流程和访问控制的重塑,关键点是数据泄露防护。现阶段,用户需求较为集中且安全供应商可完整交付的、较为成熟的安全产品和服务主要有大模型安全围栏、内容风控、风险评测与备案服务。4/47 一、一、概念定义概念定义 1.11.1 定义定义 数世咨询将安全优先的大模型定义为:由于大模型原生安全缺陷和业务系统内生安全风险无法避免,为了有效控制安全风险为企业带来的经营风险、更为了实现较高水平的社会治理,在建设、运营、监管大模型业务系统过程中的一种思想,即安全优先。1.21.2 定义解读定义解读 这里的安全并不特指网络安全,而是由于科学技术的应用可能给社会带来的潜在影响,由于必须保障这种影响是积极、可控的,所以安全性是必须优先考虑的。国家层面,大模型的应用在军事(如认知域作战)、生物(如蛋白质结构)、医疗(如影像诊断学)等方面已经展现出强大推动力,但生成内容的准确性、系统的鲁棒性都是必须优先解决的关键问题,如处理不当将会造成不可预估的颠覆性灾难。社会层面,大模型正在对人们的生活产生潜移默化的影响,如搜索方式的转变(搜索引擎到大模型应用)、内容创作的转变(人的独创到人与大模型的交互)等,但大模型应用对个人信息的滥用、对流程化工作岗位的取代等社会现实问题已经成为热点讨论话题,如处理不当将引发生群体性事件导致社会动荡。企业层面,大模型可以赋能数字化应用从而促进核心业务发展,如商业数据分析(突发性、创意性数据分析需求)、产品智能化升级(自动驾驶路径规划)、自动化安全运营(7*24 小时告警降噪)等,但敏感信息和业务数据泄露以及知识产权保护等问题都与企业经营息息相关,如处理不当将使企业遭受巨大经济损失。综合来看,大模型应用安全风险所造成的负面影响通常是无法被接受的,这也就直接导致了大模型应用畏首畏尾的局面,究其根本原因是对大模型的不信任。5/47 而安全能力通过针对性和体系化的保障手段可以间接提高信任度和满足合规要求,所以安全优先的大模型可以有效推动大模型应用发展。6/47 二、二、发展潜力发展潜力 大模型的特异性来源于人工智能算法、模型权重和训练数据,大模型的业务系统依托于基础设施和供应链,大模型的应用价值靠高质量数据集和业务的互动来实现。所以实现安全优先的大模型是一项系统性工程,它包含了国家安全、社会治理以及企业的网络与数据安全。2.12.1 市场发展驱动力市场发展驱动力 “安全优先的大模型”真正实现了业务驱动的逻辑闭环,数字安全产业自此正式开启“以合规为基、以业务为柱”的新价值时代。网络安全领域的发展主要以监管合规的要求为核心(产值贡献 80%以上)驱动,虽然安全保障也涉及业务连续性方面,但更多的原因是关键信息基础设施发生安全风险会对国家安全、社会治理带来重大威胁。数据安全领域的发展虽然本质上是合规和业务双轮驱动的,但在现阶段我国数据流通基础设施尚未完善、数据交易体系尚未健全的情况下,数据要素价值还没有找到充分释放的场景,数据安全仍然以合规监管为核心驱动。然而人工智能安全却在诞生之初就具备业务驱动的逻辑闭环,真正实现了“以合规为基、以业务为柱”的驱动形态。2.1.12.1.1 大模型内生“缺陷”转化为安全原生需求大模型内生“缺陷”转化为安全原生需求 大模型的突破性进展催动人类加速步入 AGI 时代,在人工智能逐渐成为数字化基础设施的这一背景下,对于国家、社会、企业来说已经无需再探讨是否使用人工智能的话题,关键是解决如何利用好人工智能的问题。对于企业来说,人工智能所带来的高效性是数字时代商业竞争的核心支撑,不使用人工智能的企业终将丧失竞争力,彻底出局。7/47 但大模型自身安全问题无法彻底解决,如幻觉、数据漂移、非预期行为等,更为关键的是大模型应用安全风险全部来源于具体业务系统的风控需求,这不仅仅是基础设施层面的安全可靠性保障,而是业务应用层面的价值保障。由于大模型的性能和创造力与安全对齐的强度是成反比的,不能本末倒置的为了追求安全性而降低大模型的应用价值,只能通过后期工程化的方式用系统性的安全能力满足各类应用场景的安全需求。所以这种大模型的内生“缺陷”就决定了大模型业务系统与安全能力的孪生属性,安全能力就成为了大模型应用的原生需求。大模型业务系统支撑企业的数字化业务,数字化业务的发展决定了安全优先的大模型市场规模的高度,业务驱动则成为了大模型安全的支柱。2.1.22.1.2 大模型强监管态势夯实安全合规基础大模型强监管态势夯实安全合规基础 自人工智能技术诞生之初,人工智能治理的概念在全球范围内就得到了共识。我国作为人工智能强国,在 2023 年“一带一路”峰会上,由习近平主席发布了全球人工智能治理倡议,倡议人工智能的发展要以人为本,建立健全法律和规章制度。在 2025 年世界人工智能大会上,由李强总理发布了人工智能全球治理行动计划,强调把握机遇共同发展,并开展人工智能安全治理。全球范围内对人工智能,尤其是生成式大模型应用都处于高位监管态势,我国陆续发布了互联网信息服务算法推荐管理规定、互联网信息服务深度合成管理规定、生成式人工智能服务管理暂行办法、人工智能成合成内容标识办法以及国家标准生成式人工智能服务安全基本要求,从算法安全、语料安全、模型安全、应用安全以及模型上线等过程均有高强度监管要求。除此之外,中央网信办还开展了“清朗整治 AI 技术滥用”专项行动,统筹协调全国各地对 AI 技术滥用、AI 管理缺失等现象进行整治,成果颇丰。在人工智能强监管态势的确定性环境中,深入实施“人工智能 ”行动将继续促 8/47 动人工智能的发展,从而进一步夯实人工智能安全合规基础。2.22.2 安全能力核心逻辑安全能力核心逻辑 由于实现安全优先的大模型需要依靠技术和管理手段,所以相应的大模型安全保护产品、解决方案和服务也就应运而生。实现这些安全能力的核心逻辑有三点,分别为以“模”制“模”、以权限和身份重塑业务、以安全工程保障系统工程。2.2.12.2.1 以“模”制“模”以“模”制“模”以“模”制“模”的本质是基于大模型性能与安全性无法平衡的根本属性(安全对齐强度与创造力成反比),用安全专业“小”模型消减大模型输入风险、审核大模型输出内容,实现最高的投入产出比。但用户在选择产品时需要注意分辨,其中最重要的语义分析不是关键字匹配,而是意图推测和多轮对话的上下文关联分析,有些厂商会混淆概念以夸大自身能力。如果内容安全控制方面存在多模态需求,更需要进一步甄别,多模态识别能力与人工智能研究能力强相关,不同供应商之间差别较大。对抗性攻击防护对抗性攻击防护 提示词注入、模型规避(Model Evasion Attacks)等对抗性攻击,有效的解决方法是对模型进行代码调整,但其花费的时间和金钱成本较高,而这些攻击又相当于软件的零日漏洞,是不可计量、无法预测的。前置语义检测安全大模型是简单、有效、低成本的最佳方法,对于已经发现的对抗性攻击类型可以直接进行防护。对于未发现的对抗性攻击类型,只需要对安全大模型进行少量调整即可,而安全大模型的代码调整、更新部署是极其快速和简便的。因为其本质是由大模型蒸馏而来的“小”模型,并且其更新与业务系统和流程不产生直接影响。9/47 输出审核输出审核 大模型幻觉问题至今无法有效解决,价值观偏见、不安全的输出也会随着数据漂移、数据投毒等问题逐渐失效。还有,不同用户对敏感数据的定义也不尽相同,在输出内容的控制上无法通过模型自身满足不同需求。解决这些问题同样需要从模型训练和数据入手,其花费的时间和金钱成本较高。而通过安全大模型对输出的内容进行审核或代理回答,既灵活又简单,通过自定义的输出内容审核规则,可以满足不同用户的个性化需求。2.2.22.2.2 以权限和身份管理重塑业务以权限和身份管理重塑业务 权限和身份重塑的本质是为了解决业务系统引入大模型后,由于业务系统流程逻辑变更从而导致的原有身份和权限控制失效,致使发生商业数据泄露、信息泄密、敏感信息泄露、知识产权受损等事件。如引入大模型的人力资源系统、文档管理系统,原有控制是通过身份来设置的数据访问权限,用户通过应用系统访问数据库。由于大模型的引入改变了用户与系统的交互方式,用户通过大模型访问数据库,任意员工均有可能通过与大模型的交互绕过原有身份权限获取更大范围的数据、信息。有效应对的方法是通过业务具体控制需求和流程,以模型权限、用户身份管理为核心,辅助 UEBA、API、数据分类分级以及模型交互审查等技术,重塑业务系统安全控制体系。2.2.32.2.3 以安全工程保障系统工程以安全工程保障系统工程 系统保障的本质是为了解决大模型应用风险的传递性,通过安全系统对信息系统的全生命周期、数据处理的全流程进行整体性、体系化的安全保障,利用技术和管理手段构建全方位、多层次的安全能力。由于大模型的本质是软件,在应用过程中扩展为信息系统,涉及网络与数据基础 10/47 设施、软件与模型供应链、数据管理、应用管理等,此时的大模型安全风险已经从大模型自身扩展到了大模型应用系统,每一个环节的安全风险都可能会引起大模型应用的安全事件,如非授权访问、敏感数据泄露,而这些安全风险也会通过系统的传递性间接影响大模型自身,最终产生各类安全问题。数据安全数据安全 大模型应用涉及预训练数据、后训练数据、RAG 数据、用户输入数据、模型输出数据等,在数据处理的各环节都有相应的安全风险,如数据投毒、数据窃取、个人信息保护、敏感信息泄露等。对于这些数据处理的全流程都需要进行安全保障,在通用数据安全和个人信息保护能力之上,还需要数据标注、数据清洗、数据聚合泄密、信息推断泄露等大模型专有数据安全保障需求。供应链安全供应链安全 大模型应用的供应链涉及算法、模型、框架、部署与推理工具、集成组件,在供应链上的每一个安全风险都可能影响整个大模型应用系统的安全。如利用部署与推理工具Ollma的安全漏洞进行模型窃取,在GitHub上传恶意组件包预留后门。对于供应链安全风险,与通用软件供应链安全保障思路一致,目前并未发现大模型专有安全保障需求。基础设施安全基础设施安全 大模型系统的基础设施安全需求总体上与通用信息系统一致,安全保障技术和思路延用通用网络安全来构建体系化的保障能力。唯一需要注意的是,在可预见的未来,智能手机、智能设备以及具身智能会成为新的大模型主要运行环境,而且都有其各自的特性,比如操作系统、存储类型、交互方式等,需要考虑安全防护能力在算力、存储等方面的限制,进行轻量化、针对性设计。11/47 2.32.3 未来趋势未来趋势 2.3.12.3.1 大模型重塑数字生活,人工智能治理道阻且长大模型重塑数字生活,人工智能治理道阻且长 大模型的应用已经悄然改变了互联网搜索的交互方式,随着应用的深入,会有更多的传统数字化应用交互方式被改变,未来还会出现全新的数字化交互方式重新塑造数字生活。在面对一个全新的数字化社会形态时,尤其是在大国竞争转为贸易战和科技战的背景下,人工智能作为可以赋能第一二三产业的全面型应用,势必会受到额外的重视。价值越高,风险越大,未来的人工智能治理道阻且长,需要国家、社会、企业共同参与,贡献自己的力量。2.3.22.3.2 端侧大模型需求激增,安全能力需要新突破端侧大模型需求激增,安全能力需要新突破 模型蒸馏使得大模型轻量化成为可能,目前已经出现了内置大模型的 PC 和智能手机,而且这种趋势必将快速演进。随着端侧大模型需求激增,对大模型的安全保护又有了新的要求。现在的大模型都部署在云环境或者一体机中,用户应用大模型都需要通过网络来完成,而端侧则由用户直接与大模型进行交互,通过网络边界提供的安全能力立即失效。端侧大模型的保护需要安全能力进行针对性设计,不仅要适配端侧算力和存储的要求,最重要的是提供离线使用控制能力,在不损失大模型应用价值的同时确保大模型和输出内容的安全与合规。2.3.32.3.3 后训练是应用关键,数据价值再次攀升后训练是应用关键,数据价值再次攀升 全球范围内,当前通用大模型参数规模已经突破 3000 亿,且发展趋势由预训练转为强化学习主导的后训练。由于距离实现通用人工智能还有很长的路要走,大 12/47 模型基础研究依然十分重要。但后训练涉及的微调、强化学习和规模扩展等技术,其核心之一就是高质量数据。高质量数据通常是由实际工作环境中获得或通过其他高质量数据合成,但由于受生成合成数据的模型自身稳定性的影响,合成数据会具有更高的风险。基于此,获取高质量数据的关键还在行业真实环境,数据的价值因为人工智能再一次得到升级,由数据资产上升成为知识产权。相应的,对于数据的安全保护难度也再一次升级。2.3.42.3.4 公众模型成为基础设施,智能体百家争鸣公众模型成为基础设施,智能体百家争鸣 虽然大模型基础研究十分重要,但当前人们已经广泛的认识到,人工智能的价值并不在于模型本身,而在于其深度融合并改造业务场景的过程中。而智能工作流、智能体和具身智能是当前可充分发挥大模型价值的载体。随着通用大模型竞争逐渐明朗,通用大模型将成为数字化的基础设施,而以领域大模型为核心的智能工作流、智能体和具身智能将展开新一轮的白热化竞争态势,呈现出百家争鸣的现象。由于智能体应用的发展,将会出现越来越多的具体安全需求,也会相应诞生与之相匹配的大模型业务系统安全解决方案。届时,安全优先的大模型概念必将深入人心,大模型安全保护产品、服务和解决方案也将迎来真正的爆发。13/47 三、三、推荐供应商推荐供应商 在本报告调研的过程中,数世咨询发现,现阶段可提供大模型安全保护产品、服务、解决方案的供应商共 30 家(不包括通用安全能力)左右,参与本次调研工作的共 23 家。根据调研数据,结合各供应商在安全优先的大模型领域中的资源投入、AI 研究能力、产品能力、服务水平以及分析师评价,数世咨询评选出 6 家“安全优先的大模型推荐供应商”。奇安信奇安信 作为国内网络安全行业领军企业,奇安信集团密切关注人工智能大模型及应用系统全生命周期的主要威胁,深度参与国家相关标准与规范的制定与起草工作。奇安信是信通院“云上大模型安全推进方阵”成员单位、生成式人工智能服务安全应急响应指南网络安全标准实践指南起草单位、大模型安全测评标准参编单位、安全大模型能力要求与评估方法核心参编单位。目前,奇安信针对大模型安全提供涉及安全开发、安全合规测试、安全评估、安全运行防护、智能安全运营与安全响应在内的多项产品与服务,包括大模型安全评估服务、大模型安全卫士、零信任访问控制、数据安全网关、特权卫士、代码 14/47 /开源卫士等,致力于为人工智能大模型及应用系统提供全生命周期的安全保障,确保广大政企机构的智能化转型安全顺畅。绿盟科技绿盟科技 绿盟科技依托二十余年网络安全深耕与十余年 AI 安全研究,已形成覆盖“研究产品运营”全栈的大模型安全能力。公司设有星云、天枢两大 AI 安全实验室,累计发布大模型安全风险矩阵 SecLLM 技术白皮书等权威报告,并参与制定国内首个 云上大模型安全参考架构,成为“云上大模型安全推进方阵”首批成员。面向产业落地,绿盟推出“AI-UTM 安全一体机”与“大模型安全围栏”双轮产品:一体机集成“AI-Scan”、“AI-AFW”、“AI-CONT”、AI-DLP”四大引擎,形成“评估 加固、阻断 代答、审计 回溯”三道纵深防线。其中,AI-Scan 贯穿“训练-部署-运营”全周期,内置百余种对抗样本模板与自动化变异算法,可在分钟级完成提示注入、越狱攻击、幻觉诱导等 20 类风险场景的红队测试,并输出 CVSS-AI 评分及修复建议。围栏则以意图识别、提示词过滤、算力熔断为核心,解决 API 滥用、投毒、幻觉等场景化痛点。在合规与供应链维度,绿盟建立 RAI 负责任 AI 框架,形成覆盖基座、数据、模型、应用、身份五大域、56 子域的评估体系,已为金融、运营商、政务等头部客户完成十余个大模型的合规备案与对抗测试。同时,绿盟开放 AI 安全生态社区,携手合作伙伴持续输出威胁情报、最佳实践与人才培养计划,实现大模型安全的可持续演进。联通数科联通数科 联通数科推出“智盾智算安全防护体系”,助力全面识别并应对智算服务中的潜在安全风险,打造端到端的智算安全产品能力,为各类智算应用提供内生式、一体化的安全解决方案。围绕智算基础设施和模型应用两大核心方向,提供一体化的安全防护方案。基础 15/47 设施层面,平台聚焦网络、负载、管理三大关键节点,整合联通 DDoS 防御、网络入侵防御、主机容器安全、平台安全管理审计等系列产品,构建起可防御、可管理、可审计、可溯源的立体化安全防护体系。模型与应用层面,平台重点针对模型、数据、应用三个维度,结合大模型风险评估、内容安全围栏、大模型防火墙、数据清洗审计等工具,形成覆盖智算服务全生命周期的安全保障机制。多层级联动防护,提升智算公共服务及私有化交付场景的安全效能。融合联通智算基础设施和服务能力,采用平台化思路整合原子级安全能力,实现全局视角的风险评估、分析研判、响应处置与事件溯源,构建起涵盖事前安全评估、事中主动防御、事后追踪溯源的一体化安全架构,整体安全防护效率提升 30%以上。联通数科智盾智算安全防护体系切实保障人工智能技术应用过程中的安全可靠、内容可信、风险可控,是支撑国家安全体系建设的生动实践。火山引擎火山引擎 火山引擎是字节跳动旗下云和 AI 服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和应用工具开放给外部企业,通过云和智能技术帮助企业构建体验创新、数据驱动和敏捷迭代等能力,推进企业 AI 转型,激发增长潜能。火山引擎云安全依托字节跳动在安全技术上的实践沉淀,面向互联网、金融、汽车、大消费等行业输出云上安全能力,保障企业用户网络、数据、云原生、终端、大模型等的安全。同时,紧贴客户需求,重点布局大模型安全、数据隐私安全、AI 安全智能体等领域,致力于在 AI 时代,为企业大模型应用提供最全面的云上安全防护方案。安泉数智安泉数智 安泉数智深度参与国家人工智能安全顶层设计,参与和起草多项行业标准。以“AI 对抗 AI”的理念推出“大模型安全综合治理平台”。业界首创“RAPAO”大模型安全五步闭环管理模型,从模型训练、部署和运行,覆盖大模型全生命周期十个方面安全问题。该方案包括大模型资产台账系统、人工智能模型评测平台、人工智能增强平台和大模型审计与配置系统以及大模型安全运营系统。16/47 不仅涵盖数据安全、模型鲁棒性与算法合规性等风险,深入大模型安全机理研究,构建起实时溯源、可控的风险监控与资源调度体系。通过有害内容拦截、越狱攻击检测、敏感词过滤等输入管控功能,以及内容合规检查、有害内容替换、隐私数据脱敏等输出管控功能,确保大模型生成内容的安全性与合规性,为开发者与企业提供高效、可靠的安全防护解决方案。“配置审计”精准纠偏,梳理关键配置项,制定基线标准,保障模型配置合规;“安全运营”持续改进,通过实时监测、快速响应与持续优化实现动态闭环,提升风险事件响应速度。助力应对 AI全生命周期安全挑战,通过持续技术创新,助力 AI 造福人类。公司通过资产-评测-防护-治理-运营五位一体架构,将技术能力与行业需求深度融合,为监管、能源、金融、政务等领域提供从风险预警到主动免疫的闭环防护,树立大模型安全可信应用标杆。360360 数字安全数字安全 360 依托二十年来网络安全领域的深厚积累、AI 领域的技术深耕以及 AI 业务(360 智脑、纳米搜索等)的安全实践,形成了“懂 AI 更懂安全”的跨领域优势,提出“以模制模”新范式,即利用人工智能技术自身优势对抗 AI 安全风险,打磨出 360 大模型安全卫士,解决 AI 自身安全“可靠、可信、向善、可控”四大核心问题。“可靠”指聚焦模型基础安全问题,智能识别供应链开源软件漏洞和 AI 自身缺陷,实现模型资产闭环管理,保障系统环境安全;“可信”与“向善”则针对模型原生安全挑战,借助幻觉抑制、内容安全防护等技术,保障输出内容真实可信、符合社会良善导向,应对误导、违规风险;“可控”强调智能体执行安全,通过身份认证、权限管控、异常识别等,防范数据泄露与越权操作,确保 AI 行动能力可控。整套体系通过 AI 对抗 AI 的闭环设计,实现了从源头上化解威胁的全局方案。同时,360 积极配合推动 AI 安全行业发展,作为国家人工智能标准化大模型专题组联合组长单位,公司积极参与国标与安全框架的制定,并牵头发起大模型安全联盟,打造资源共享、共创共赢的生态集群。未来,360 将深化生态协作,致力于为 AI 时代的可持续发展注入强劲动力,助力构建更可信赖的智能世界。17/47 四、四、安全能力安全能力 数世咨询持续关注并研究人工智能领域,在大模型安全方面,已经发布了LLM驱动数字安全(关注“数世咨询”公众号,回复“安全大模型 2024”下载)调研报告,该报告核心方向为利用大模型赋能安全运营。大模型安全分为两方面,一是利用大模型做安全,一是保护大模型安全。本报告所介绍的安全能力方向为保护大模型安全,即安全优先的大模型。在理论层面上,大模型的安全保护关注 4 个方向,即 AI 治理、数据安全、模型安全和基础设施安全,如上图所示。在实际应用的过程中,站在企业用户的角度上,现阶段对于大模型业务的安全保 18/47 护则主要围绕大模型业务系统以及数据处理全流程来展开。4.14.1 大模型业务大模型业务系统系统安全风险安全风险 大模型业务系统包括大模型赋能的工作流和基于大模型的智能体,在业务运营的过程中,各个阶段都存在着大模型特有的安全风险以及系统安全风险。企业用户的大模型业务大致可分为以下 4 个主要阶段:预训练:大型科技企业或科研机构会通过预训练的方式生成自己的通用大模型,其他企业通常会以开源通用大模型或者商业通用大模型作为自己的基础模型代替预训练阶段。后训练:通用大模型的核心是思维推理能力,而解决具体问题的能力是由后训练提供的。后训练包括更加深入的领域知识强化学习以及价值观对齐,企业用户可以自己进行模型微调或者购买专业的领域大模型。开发与部署:拥有领域大模型后就可以进行业务系统的开发、部署,目前较为成熟的大模型业务模式为智能工作流和智能体两类,由于业务的多样性可能涉及与各类应用工具或其他智能体交互。为了使大模型业务应用输出更加准确,通常还会与 RAG 数据进行交互,获取实时数据。推理与运营:大模型业务系统部署上线后即可进行推理任务,与其他信息系统一样,需要持续性的运营工作以保证其业务正常开展。在大模型业务运营的不同阶段中,由于安全能力不足没有执行相应的管理和控制措施,将会发生诸多类型的特定安全事件对业务产生负面影响,这些负面影响如下图所示:19/47 而这些相应的大模型业务系统安全风险,散布在大模型业务的不同关键节点中,如下图所示:20/47 根据大模型业务系统所面临的安全风险,经分析后整理成 6 种类型,如上图所示:供应链安全风险:主要存在于模型预训练、后训练、模型部署、模型推理所使用的各类框架、工具、类库之中,并存在安全风险的传递性,可能发生模型源篡改、敏感数据泄露等安全事件。数据安全风险:存在于数据处理的全流程,集中表现在预训练数据、后训练数据、RAG 数据上,可能发生数据投毒、敏感数据泄露等安全事件。内容安全风险:大模型业务应用特有的安全风险,存在于输入与输出内容之中,可能发生对抗性攻击、敏感数据泄露等安全事件。业务应用安全风险:存在于大模型与工具或其他智能体的交互过程中,目前主流交互方式有 API、MCP、A2A 等协议,可能发生非授权访问、敏感数据泄露等安全事件。模型安全风险:由模型自身特异性决定,不受外部威胁影响即可发生模型幻觉、数据漂移等相应安全事件。基础设施安全风险:存在于大模型业务系统的存储、运行环境中,可能发生模型窃取、非授权访问等安全事件。4.24.2 安全优先的安全优先的大模型能力图谱大模型能力图谱 为了有效应对大模型业务系统的安全风险、降低安全事件产生的负面影响,数世咨询根据调研信息绘制了“安全优先的大模型能力图谱”,旨在为开展大模型业务的用户,在供应商选择和产品选型方面提供有益的参考。“安全优先的大模型能力图谱”根据大模型业务系统安全风险,一一对应分为六类,同样为供应链安全、数据安全、内容安全、业务应用安全、模型安全和基础设施安全。能力图谱中,不同的安全能力即可有效应对大模型业务系统中各个关键节点可能面临的安全风险,完整图谱如下。21/47 22/47 五、五、解决方案解决方案/典型案例典型案例推荐推荐 5.15.1 大模型安全解决方案大模型安全解决方案 方案背景方案背景 随着人工智能技术的迅猛发展,大模型在政务、金融、运营商、医疗、制造等众多领域得到了广泛应用。然而,大模型特有的安全风险和日益严格的合规要求正成为制约其发展的关键因素。大模型面临的安全风险表现在几个方面:生成内容的不可控性:大模型在生成内容时可能存在偏见、虚假信息(幻觉现象)、道德争议性内容等问题,难以完全预测和控制输出结果。大模型应用下新的攻击方式:恶意用户可以通过设计特殊的输入(Prompt 注入),绕过模型的安全规则,使其生成敏感,或通过注入达到入侵业务系统的目的。模型算力耗尽导致业务连续性中断:攻击者可能通过诱导模型执行复杂推理链或无限任务循环,从而引发算力耗尽型拒绝服务(Compute-DoS)攻击。方案概述方案概述 绿盟科技凭借多年网络安全领域的技术积累,推出绿盟大模型安全解决方案,该方案由大模型安全评估系统(AI-SCAN)、AI 安全一体机(AI-UTM)两款产品组成,形成覆盖大模型全生命周期的安全评估和防护体系。23/47 在模型训练和微调阶段,大模型安全评估系统(AI-SCAN)发挥着关键作用。该系统基于大模型系统安全测评要求等标准规范,对大模型进行全方位体检。通过内置的 10 万 测试用例库,系统可模拟提示词注入、数据投毒等 21 类攻击手法,检测模型在内容合规性、对抗防御能力等方面的薄弱环节。特别是在供应链安全方面,AI-SCAN 能深度扫描.pb、.h5 等 15 种模型文件格式,识别后门植入风险,并对 Ollama、Ray 等 450 多个大模型组件进行漏洞检测,从源头保障模型安全。在模型部署和应用阶段,AI 安全一体机(AI-UTM)提供关键的运行安全保障。该产品采用独特的三体防护架构,在内容安全方面建立三级过滤机制:基于 30万 敏感词的词法检测实现毫秒级响应;通过自研风云卫模型进行语义理解,识别变体违规内容;利用 128K tokens 的上下文记忆窗口确保多轮对话中的精准判断。在算力安全方面,其可将算力资源划分为保障级、普通级和限制级,通过预测算法防止 Token 耗尽攻击,保障模型服务安全稳定。在应用和智能体运行阶段,AI 安全一体机(AI-UTM)针对大模型特有的漏洞攻击场景,构建了多维度、智能化的防护体系,通过深度语义分析及动态检测引擎,精准拦截 SQL 注入、XSS、SSRF 等传统 Web 攻击,防止攻击者利用漏洞入侵大模型后端服务或窃取数据。通过多维度检测机制(如关键词过滤、上下文语义分析、异常输入模式识别),阻断恶意构造的提示词输入,避免模型被诱导输出违规内容或泄露训练数据隐私,保障模型应用安全。解决方案核心价值解决方案核心价值 24/47 全生命周期安全防护全生命周期安全防护 训练和微调阶段:通过 AI-SCAN 进行模型安全评估,识别训练数据投毒、后门植入等风险 部署和应用阶段:利用 AI-UTM 提供内容安全防护、算力资源管控和数据泄露防护 模型和智能体应用阶段:通过 AI-UTM 实现业务应用/API 暴露面的软件漏洞及应用层攻击防护 多维安全能力融合多维安全能力融合 安全运营:组件间联动运营,AI-SCAN 评估的风险可输入给 AI-UTM、AI-UTM,从而生成安全防护策略,形成 AI 安全运营和闭环 合规性保障:满足 TC260-003 技术标准、大模型备案等合规要求 全面风险识别:覆盖提示注入、越狱攻击、敏感信息泄露等 21 类对抗风险 AIAI 安全产品详解安全产品详解 大模型安全评估 AI-SCAN AI-SCAN 是一款专业的大模型安全评估工具,凭借专业人员精心筛选和校准的高级知识库,该系统可高效精准地检测大模型在生成内容安全、对抗防御能力以及供应链安全三方面可能存在的隐患,并且可通过自定义导入企业内部风险库进行针对性的大模型安全风险智能化评估,最后通过详尽的可视化风险评估报告为用户提供深刻洞见。核心功能 内容合规评估:严格依据 GB/T 45654-2025 标准,通过多维度评估引擎,实现对模型输出内容的全面安全合规验证 对抗防御评估:覆盖模型越狱、Prompt 泄露、角色逃逸、反演攻击等 7 大类22 小类对抗安全风险 25/47 模型后门检测:提供先进的恶意模型后门检测分析技术,覆盖 15 种主流 AI模型文件格式的后门风险检测 模型组件漏洞扫描:覆盖数据处理访问、训练部署、ML Ops 等 13 个大模型全生命周期中涉及的组件及 Web 应用服务的漏洞检测.漏洞数量 3000 。自定义题库智能评估:行业特色或特定场景化题库快速导入,内置匹配类、智能评估类、拒答类等多种评估器灵活适配不同题库场景 技术优势 全面性:覆盖伦理对齐、对抗攻击防护、供应链检测等多个维度 创新性:采用以模治模、高效匹配、拒答判断等多种评估方式 高效性:支持并行处理,单任务评估时间30 分钟 兼容性:全新大模型分钟级适配接入,简单快捷 简洁性:跟踪说明风险检测的全过程,采用易读易懂的方式展示每条风险详情 灵活性:除内置多种题库外,可灵活增加其它特定场景题库评估 典型部署场景 AI 安全评估系统旁路部署,生成多样化的对抗攻击样本和内容合规风险样本,用于评估各版本大模型在不同应用场景中的输出内容安全性 AI 安全一体机 AI-UTM AI 安全一体机是专为大模型场景设计的新一代安全网关,采用创新的三体防护 26/47 架构,深度融合规则引擎与 AI 算法,提供内容安全防护、算力资源管理、数据泄露防护和大模型安全评估四大核心能力。为大模型基础组件安全、大模型自身安全、大模型应用安全、大模型数据安全,提供分层递进的防护能力。核心功能 内容安全防护:三级内容过滤体系(词法、语义、上下文),128K tokens 记忆窗口 提示词加固:对传递给大模型的指令,可配置策略限制提示词语境环境,有效降低大模型自身安全风险。算力资源管理:三级优先级动态分配策略,智能预测算法防止系统过载 数据泄露防护:敏感信息识别准确率超过 99%,支持文本、图片等多模态内容识别 全链路审计:支持智能体应用、大模型 API 输入输出的全链路安全审计 技术优势 场景接入灵活、全面:同时防护大模型流量 传统 Web 流量,快速兼容各类大模型应用和传统 web 应用藕合的客户场景 高性能:毫秒级实时响应,支持流式检测、不影响模型业务模式 高可靠:可集群部署,服务可用性99.9%易管理:可视化控制台,多维策略配置集中管理 部署模式(部署在模型前)典型场景 1 27/47 AI 安全一体机部署在大模型服务的 API 接口前,隐藏大模型服务真实 API,实现AI 网关、key 和 token 管控、内容安全合规、提示词攻击防护、算力攻击防护、智能体级对话审计等功能,提供一站式大模型服务安全防护 典型场景 2 AI 安全一体机部署在调用大模型能力的业务应用/Web 服务前,对外隐藏业务应用,实现内容安全合规、提示词攻击防护、算力攻击防护、数据泄露防护、用户级对话审计等功能,提供一站式大模型服务及智能体应用安全防护。本方案由绿盟科技提供 28/47 5.25.2 数字政府智算服务一体化安全保护案例数字政府智算服务一体化安全保护案例 项目背景简介项目背景简介 某省政府已完成能智能支撑平台建设,平台采用“115 N”架构进行建设,打造1 个知识中心、1 个模型中心、5 个智能化支撑平台,为 N 个场景智能化建设提供支撑服务。平台及其生产的智能应用(智能问答、智能写作、智能搜索等),在智算基础设施、模型、应用、内容层面需要一体化安全能力建设,以满足规划要求以及内生安全建设需求。大模型业务系统安全保护需求大模型业务系统安全保护需求 由于平台所生产的智能应用,需要面向公众提供 AI 服务,所有智能体均采用统一平台构建,对于 AI 服务在模型应用以及内容安全层面的安全风险和防护需求,主要集中在三个层面:合规性内生安全:以生成式人工智能服务管理暂行办法为依据,针对对公服务的智能化应用开展备案前的风险评估以及日常风险巡检,及时发现智能化应用的潜在风险问题,联合其他工具进行针对性的安全防护建设;应用层统一防护:省级智能化应用存在海量的潜在用户,需要进行一体化的应用层安全防护能力建设,规避 Web 攻击、API 异常调用、提示词注入、算力消耗等攻击风险,同时需要以低延时的效果提升用户的交互体验;多模态内容安全:智能化应用涉及到 AIGC 的多个领域,对于输出的多模态内容需要进行安全过滤,同时针对用户提交的敏感问题,需要智能化安全代答,在保证输出内容合规的前提下,对用户进行向善引导;整体解决方案整体解决方案 联通智盾智算安全防护体系,依托联通“国芯 国算 国模 国盾”四位一体的战略布局,基于运营商云网数智资源禀赋,在网、端、管、控等基础设施安全能 29/47 力之上,深挖智算服务在模型、应用、内容层面的安全风险,通过大模型风险评估、大模型防火墙、大模型安全围栏等产品,在智算安全运营支撑体系下,切实保障人工智能的安全可靠、内容可信、风险可控。大模型风险评估大模型风险评估 大模型风险评估评估是一款专注于大模型安全评测的自动化工具,提供一站式的模型接入、数据管理、安全评测、任务管理及结果分析能力。通过预置的海量安全评测数据集和大模型自动泛化生成的攻击数据集,对模型供应链、应用层漏洞、模型内容安全、合规性满足、对抗攻击防御等方面进行综合评估。多维度测评数据集:内置海量行业标准安全测评数据集,覆盖国家安全、公共安全、伦理安全等多个评测维度,可通过大模型自动泛化生成攻击样本的能力,确保测评的全面性和时效性。智能化精准测评:通过优质题库 专业裁判大模型,采用先进的自然语言处理技术和智能算法,可实现高效、精准的安全检测。模型资产风险管理:提供模型基础设施安全、模型组件安全、模型应用安全等扫描能力,可覆盖服务开发、中间件、向量数据库等 35 种模型组件,可识别 22 种常见安全问题。30/47 大模型防火墙大模型防火墙 大模型防火墙,整合传统 Web 应用防火墙能力,针对智算服务使用场景,增加对于内容安全、提示词防护相关能力,实现对文本内容的输入攻击检测、输出安全过滤、敏感问题安全代答等功能,供给 All in one 的智算应用安全事中防护能力。一站式安全能力:整合基础安全防护组件,实现对传统 DDoS 和网络攻击的全方位防护,支持多模态注入攻击和有害内容检测,通过端侧水印技术实现高精准防薅羊毛与防爬虫,极大避免了因 tokens 盗用带来的经济损失。同时,将 Web 漏洞防护、抗 D 能力默认统一接入,一站式解决所有大模型 API 安全问题。安全防护低延时:风险监测延迟普遍在 150ms 以内,成功接入优化后,延迟稳定在 100ms 以内,可为后续高并发场景奠定性能基础。流式安全检测:具备业内领先的流式输出检测和拦截能力,由专业化和持续迭代的专业安全模型来识别恶意提示词,并对敏感问题进行代答和正向引导。31/47 大模型安全围栏大模型安全围栏 大模型安全围栏是专门为大模型服务提供方打造的多模态内容安全防护系统,通过风险内容检测、敏感问题代答等能力,帮助大模型过滤有害输入和输出内容,防止大模型生成不良信息。多模态内容检测:基于深度学习和大语言模型技术,可检测文本、图像、音频、视频、代码等多模态输入/输出内容,覆盖政治敏感、暴力违禁、虚假信息等超 100 种风险类型 智能化安全代答:对于敏感非拒答问题,通过干预库和安全回复大模型两个模块实现智能化安全代答,既能保证回答的广覆盖,也能提供精准匹配回答,引导输出内容安全向善。一体化风险运营:风控运营系统还通过规则引擎提供了细粒度的风控尺度调控,支持不同业务场景下不同的风控松紧度,提供风控数据统计功能,量化业务侧风险水位、防护效果和护栏的价值。32/47 本案例由联通数科提供 33/47 5.35.3 科技制造业大模型安全防护案例科技制造业大模型安全防护案例 项目背景简介项目背景简介 作为一家全球化布局的高科技制造企业,该组织在国内外拥有多个分支机构。公司高度重视信息安全,并严格遵循各业务所在国的监管合规要求。该组织积极推动生成式人工智能(GenAI)在内部运营与生产系统的深度应用。当前重点聚焦于 跨部门知识管理与共享:利用 GenAI 提升内部知识沉淀、检索与流转效率,赋能跨部门协作。智能化文档处理:应用 GenAI 技术实现文档的自动生成、摘要、翻译与关键信息提取,优化办公流程。大模型业务系统安全保护需求大模型业务系统安全保护需求 在上述应用实践中,确保以下方面至关重要:严格的信息安全严格的信息安全 保障公司敏感数据、知识产权及员工隐私在 AI 应用全生命周期的安全防护。组织已经在内部网络部署了多个生成式人工智能大模型,并为内部的多个应用提供模型服务。大模型的引入不仅增加了应用与数据的暴露面,攻击者同时有了新的攻击方式,例如利用提示词注入攻击操纵模型、利用向量与嵌入漏洞越权访问数据等,现有的安全防护手段无法有效发现和处理这些新型攻击。属地化人工智能合规属地化人工智能合规 满足各分支机构所在国家/地区关于数据主权、跨境传输及人工智能使用的特定法律法规要求。例如:欧盟人工智能法案、GDPR、GPAI 行为准则、生成式人工智能服务管理暂行办法等。34/47 用户体验与连续性:安全措施的部署和运行,应最大限度的减少对用户使用大模型应用的最终体验的影响,例如请求处理和答复响应的时间延迟;方便进行安全能力的扩展以适应业务处理能力的变化,并满足业务对安全组件的可靠性要求。整体解决方案整体解决方案 模型使用可见模型使用可见 通过旁路 API 访问代理引流的方式,对应用系统与模型服务之间的 API 请求和响应及交互的内容进行解密、完整可见与内容记录。为合规与安全访问审计提供全面的数据支撑。模型输入检查模型输入检查 通过协议解析对应用系统调用模型的提示词内容进行分离和多维度的检测,使用多种检测技术包括关键词引擎、规则引擎、语义分类引擎,发现输入内容中存在安全与合规风险包括:提问内容违规、敏感数据泄露、隐私数据违规、提示词注入攻击等。对发现的潜在风险根据预设的处置策略进行代答、告警等处置动作。模型输出过滤模型输出过滤 对模型生成的内容进行输出合规与安全检查,确保模型生成的内容符合组织内外部的合规与安全要求。基于安全策略对发现风险的内容进行事件告警、内容改写等处置动作。体验与业务连续体验与业务连续 35/47 通过优化引擎检测技术及组合设计多种检测与处置的协同模式适应对用户体验的要求;通过安全能力的集群化部署配合负载均衡设备进行大量请求负载的动态处理。核心安全能力核心安全能力 组件化分离架构组件化分离架构 通过 AI 鉴定平台、安全代理网关(SWG)、监测审计平台三个组件实现,输入输出全链路防护。组件架构为性能扩展、环境部署、应用集成提供了极大的便利性。高效的检测引擎高效的检测引擎 采用“多引擎协同 动态检测”技术:内置多个风险鉴定引擎。首创分层拦截架构,实现“字符级过滤攻击模板识别意图分析”三级防护。可以有效检测针对大模型的新型攻击。自研的安全对抗防御引擎:基于 transformer 的预训练检测引擎,可实时拦截 70 类攻击手法(例如:提示词注入、模型对抗攻击);流式风险评估:支持上下文感知机制,实现流式 Token 实时风险评分,实时拦截恶意 Prompt、实时中断有害内容输出,避免有害信息扩散。合规性检测:内置 TC260生成式人工智能服务管理暂行办法合规检测能力,覆盖数据隐私、法律合规等主要风险场景;敏感数据检测算法:运用先进的敏感数据检测技术,对大模型的输入数据进行实时扫描和分析,能够准确识别并拦截包含企业核心商业机密、个人隐私信息等敏感数据的投喂行为。全面的兼容性全面的兼容性 与主流的大模型应用和技术架构具有良好的兼容性,可无缝集成到企业现有的 IT 环境中,降低企业的部署成本和复杂度,快速实现对大模型的安全防护升级。主动防御与智能分析主动防御与智能分析 利用 AI 技术的自我学习和进化能力,对大模型的安全风险进行主动预测和分 36/47 析,提前发现潜在的安全威胁并采取相应的防护措施。同时,通过对大量安全数据的挖掘和分析,不断优化和完善安全防护模型,为企业提供更智能、更精准的安全防护服务。安全能力的持续更新安全能力的持续更新 丰富的攻击预训练样本及红蓝对抗测试验证。持续收集来源红队、自有情报等各方面,基于自然语言规则的数百万条风险样本。组织大规模人工渗透测试,验证系统防御能力。本案例由奇安信提供 37/47 5.45.4 联想携手火山引擎推出可信个人云联想携手火山引擎推出可信个人云案例案例 项目背景简介项目背景简介 2023 年以来,大模型技术快速成熟,特别是 DeepSeek、豆包大模型等国产模型的崛起,推动中国人工智能进入高速发展期。大模型的引入显著提升了三大核心能力:意图理解维度:通过千亿级参数对自然语言的深度解析,使智能终端能精准捕捉用户模糊需求(如多轮对话、隐含语义识别);服务泛化能力:单一模型可同时支撑搜索、内容生成、设备控制等跨场景任务,大幅降低传统 AI 的场景定制开发成本;持续进化特性:基于在线学习的模型迭代机制,使终端服务能动态适应用户行为模式演变。与此同时,这些能力提升也带来了新的安全挑战:模型训练依赖的海量数据包含敏感信息,推理过程的实时交互需求迫使部分计算前移至终端,传统基于边界防护的安全架构已无法满足数据不动模型动的新型范式。行业亟需构建智能动态防御与大模型安全防护双体系并行的新一代安全架构。联想作为 AI PC 领域的先行者,始终将安全视为智能体验的核心基石。2023 年 4月推出的全球首款真正意义上的 AI PC,即以端侧数据隐私保护作为五大核心特征之一;2024年 5月发布的天禧个人超级智能体,进一步通过端-云混合架构,以用户数据在端、云之间传输和处理过程中的绝对安全为目标。作为国内 PC 领域首个可信个人云方案,联想个人云基于火山引擎 Jeddak AICC 平台打造,旨在构建严密可信的云上计算环境,全面保障大模型推理、RAG 检索增强生成、AI Agent 等核心能力的数据安全,并以更强的开放性与软硬适配能力,支撑多样化的企业部署场景。38/47 大模型业务系统安全保护需求大模型业务系统安全保护需求 随着端云协同成为智能终端发展的主流方向,大模型服务正从传统的云端集中式部署向终端本地化预装演进。这一趋势在提升 AI 体验的同时,也对安全与性能提出了更高要求:安全需安全需求:端云协同下的数据隐私保护求:端云协同下的数据隐私保护 在智能办公场景下,用户依赖大语言模型(LLM)完成文档智能总结、交互式问答等高阶任务,但云端模型处理需频繁上传文档数据,存在泄露敏感信息的风险。例如,企业会议纪要、个人隐私文件等一旦在传输或云端存储过程中被窃取,将造成严重的安全隐患。因此,联想 AIPC 亟需构建端云协同的可信安全架构,确保数据在本地预处理、加密传输及云端计算的全链路安全,真正实现“数据可用不可见”。性能需求:安全防护不影响流畅体验性能需求:安全防护不影响流畅体验 作为办公、学习及娱乐的核心设备,PC 需在 AI 文档处理、语音助手、实时搜索等场景下提供毫秒级响应,而传统云端安全校验机制(如数据回传、鉴权延迟)可能成为性能瓶颈。联想需优化端侧 AI 算力调度,结合轻量化模型本地推理,在保障安全的同时,提升 AI 助手的交互流畅度,从而增强用户粘性,巩固联想AI PC 的市场竞争力。整体解决方案整体解决方案 联想个人云以火山引擎 AICC 方案为基础,充分发挥其全链路 100%加密保障、可自证清白的透明服务以及良好架构实现的能效平衡等优势,构建严密可信的云上计算环境,提供更强的开放性、适应性,构建 AIPC 应用坚实、可信的算力底座,全面保障大模型推理、RAG 检索增强生成、AI Agent 等核心能力的数据安全。39/47 基于个人云安全方案,联想在知识库构建等典型应用中,已实现从内容创建、密态存储到加密检索与解密输出的全流程端到端隐私数据链路流程闭环。用户无需改变操作习惯,即可获得快速响应、可信输出的智能反馈,实现“安全无感”的日常体验,让 AI 服务真正成为可感知、可信赖、可持续的终端能力。除全链路加密等核心安全能力以外,该方案在设备兼容性方面也展现出高度适配性:不仅支持 PC 场景,也面向 ARM 架构进行了深度优化,覆盖手机、平板等多形态终端,并通过在私密云中集成 NVIDIA NVLink 与 NVSwitch 等高带宽互联技术,实现跨设备的 AI 能力流转与数据安全统一调度。核心安全能力核心安全能力 40/47 火山引擎 AICC 机密计算平台基于 TEE(可信执行环境)等前沿机密计算技术,为企业构建云端大模型的“安全计算空间”,从根源上消除数据在云端处理时的泄露风险,让企业真正“敢上云、敢用云”。核心功能包括:芯片级硬件隔离方案:在 AICC 环境中可对隐私数据进行计算和处理,全程外界无法查看原始数据内容,确保敏感信息不泄露。全链路密文流转:数据上云传输和计算过程中,始终以加密形式存在,确保数据在不可信环境中的安全性和隐私性。数据即用即销毁:计算完成后自动彻底删除原始数据及中间结果,不留存副本,杜绝数据在计算过程中留存的风险。安全可信可证明:可信证明服务确保计算环境、过程及结果的可信性与透明度。本案例由火山引擎提供 41/47 5.55.5 央企大模型综合治理案例央企大模型综合治理案例 项目背景简介项目背景简介 某央企作为电力能源行业的领军企业,业务覆盖煤炭开采、电力生产、油气输送、新能源开发等全产业链环节,其核心业务系统承担着能源生产调度、设备运维管理、客户能源供应服务及安全生产监管等关键职能。2025 年以来,该企业全面拥抱大模型,围绕集团战略规划、市场营销、工程建设、生产运维、安全环保和智慧应用等领域,构建了上百类智慧模型和智能体应用,促进整个集团数智化和智能化建设,实现核心业务能力的智能和效率。整体解决方案整体解决方案 针对大模型安全风险整体情况,安泉数智联合企业共同围绕大模型训练、部署和运行三个阶段,总结出了十个方面的问题,并针对提出全生命周期的完整解决方案。大模型资产台账系统为模型资产和训练数据提供一站式档案管理,为应用上架和管理提供全维度数据。人工智能模型评测平台通过自动化问答机制,评估目标大模型的输出内容安全性、数据泄露风险等,并提供整改建议。人工智能增强平台(即大模型防火墙)作为一道屏障和代理,抵挡在目标大模型之前,进行问答内容输入输出的管控,防止大模型的幻觉,或者回复恶意信息、被引导信息泄露。42/47 大模型审计与配置系统能给大模型配置合规和运行提供全面风险监测和审计。大模型安全运营系统为模型和智能应用提供多维度、实时安全态势和运营情况,为模型攻击和防御处置提供决策参考。整体架构图如下:核心安全能力核心安全能力 资产管理:摸清家底资产管理:摸清家底 通过构建“全生命周期模型资产库”,实现了从训练、部署到运行的全链路精细化管理。通过模型和智能体台账,对基础大模型、微调模型、衍生智能体行唯一标识与元数据登记(包括版本号、训练数据来源、适用场景、责任人),确保“底数清、权属明”;通过部署模型版本控制与访问权限管理系统,记录每一次修改、分发与部署的操作日志,防止未经授权的篡改或扩散。该体系为企业模型技术的合规应用与知识产权保护提供了坚实基础。风险评测:高效预警风险评测:高效预警 平台以自动化与智能化为核心,覆盖合规性、鲁棒性、对抗性、隐私性等维度,融合自动化测试工具与机器学习算法,自动生成多样化测试用例,覆盖大模型全 43/47 环节潜在风险,智能分析结果以快速定位漏洞,并借助并行处理缩短测评周期。同时构建全生命周期测评闭环,在安全开发阶段提供规范指导与环境扫描,训练阶段实施实时监控与性能评估,应用阶段开展常态化监测与快速响应,持续优化安全策略。风险防护:智能拦截风险防护:智能拦截 以“AI”对抗“AI”为指导思想,训练了 9 类小模型和 2 个安全垂域大模型,能融合实时监测、智能分析与动态拦截技术,具备实时流量分析能力以识别异常行为,集成深度学习模型提升未知威胁识别能力,支持自定义防护策略。通过输入过滤、输出把关、运行防护建立覆盖部署、运行、升级全流程的动态自适应机制,部署阶段进行前置合规检查,运行阶段实时监测并拦截攻击,升级阶段同步更新防护规则,有效筑牢了技术应用的“安全护城河”。配置审计:合规保障配置审计:合规保障 模型配置的合理性直接影响安全策略的执行效果,而配置偏差往往是引发风险的“隐性漏洞”。梳理模型运行的关键配置项(如内容过滤规则的严格等级、API访问白名单范围、日志记录的详细程度),制定模型安全配置基线标准,明确不同业务场景(如面向公众的开放服务、企业内部的专用工具)的推荐配置模板;通过自动化扫描工具定期检查实际配置与基线标准的差异,并结合日志分析验证配置的实际执行效果,为模型配置的“精准合规”提供了制度与技术双重保障。安全运营:持续改进安全运营:持续改进 安全运营是将静态能力转化为主动防御的动态安全体系,通过实时监测、快速响应与持续优化实现安全防护的动态闭环。在监测层,整合模型资产管理、风险评测、防御增强等模块的数据,基于 AI 算法对异常行为进行智能研判,按照风险等级自动推送告警信息至安全运营团队,并通过可视化大屏展示全局风险态势;在处置层,制定标准化应急预,联动多部门协同响应,确保风险事件“发现即处理”;企业模型安全事件的平均响应时间从小时级缩短至分钟级,真正实现了从“被动救火”到“主动护航”的能力跃升。44/47 该案例通过“模型资产管理”夯实基础、“风险评测”把好入口、“防御增强”主动免疫、“配置审计”精准纠偏、“安全运营”持续进化,构建了覆盖大模型与智能体全生命周期的体系化安全核心能力,不仅为企业提供了从技术到管理、从预防到处置的整体防护方案,更通过动态闭环机制推动安全能力与业务发展同频共振,为人工智能技术的可信应用树立了标杆实践。本案例由安泉数智提供 45/47 5.65.6 杭州市数据资源局大模型安全防护案例杭州市数据资源局大模型安全防护案例 项目背景简介项目背景简介 业务系统功能简介业务系统功能简介 杭州市数据资源管理局是杭州市人民政府下属的核心部门,负责全市政务数据的统一管理、开放共享和应用推广。2024 年,随着杭州“市政大模型”项目的落地,数据局承担了统一部署与对外服务的职责,政务系统内的大模型应用(包括政务咨询、智能客服、政务信息检索、政策解读等)均需通过数据局提供的统一接口进行调用。大模型的能力提升大模型的能力提升 大模型的引入显著提升了政务系统的智能化水平:自然语言交互能力增强:市民可通过自然语言与政务服务系统交互,大幅降低了使用门槛。知识覆盖面广:大模型可对政务政策法规、公共服务内容进行快速解答,提高政务信息服务效率。服务自动化程度提升:减少人工客服压力,提升政务服务的响应速度与市民满意度。大模型业务系统安全保护需求大模型业务系统安全保护需求 引入大模型带来的安全风险引入大模型带来的安全风险 政务大模型在应用过程中面临多类安全挑战:输入风险:市民可能无意或恶意输入包含敏感、违规、涉政涉恐或违法不良信息的内容。输出风险:模型可能生成不当言论、虚假信息或不符合政务导向的回答,导致舆情风险。攻击风险:存在越狱提示注入、敏感信息窃取等新型对抗风险。合规需求合规需求 46/47 为确保政务应用的合规性与可靠性,大模型服务需满足以下要求:符合国家生成式人工智能服务管理暂行办法要求。满足网信办等监管部门关于政务服务场景的合规规范。实现对违法不良信息的及时识别与处置,确保政务系统服务过程中的 可控、可靠、安全。整体解决方案整体解决方案 整体思路整体思路 杭州市数据局在政务大模型部署过程中,引入 360 智脑大模型安全护栏作为核心安全防护组件。该系统通过实时检测和安全代答机制,实现对大模型输入与输出全链路的风险管控,形成“前置过滤过程检测结果处置”的闭环安全防护体系。方案框架图(示意)方案框架图(示意)核心安全能力核心安全能力 风风险检测与智能识别险检测与智能识别 基于海量敏感词库与风险检测大模型双引擎,动态更新风险库,覆盖面广,识别准确率达 99%以上。47/47 拒识率低于 0.1%,在保障安全性的同时兼顾可用性。安全代答机制安全代答机制 对高敏感度问题提供 预置安全答案,避免大模型直接生成潜在风险内容。每日支持 900 余条安全代答请求,确保用户体验与服务连续性。高性能与可扩展性高性能与可扩展性 部署规模:单台服务器,3 张 GPU 显卡,支持 40 并发请求。支撑杭州市政务系统的多业务场景应用,满足高并发调用需求。客户收益与系统效果客户收益与系统效果 业务安全性:业务回复安全率达 99.9%,政务服务可信度显著提升。防护效果:日均检测违规不良内容 1000 余条,拒答 100 余条,安全代答 900 余条,日均防护超万次。综合提升:大模型回复安全性提升 30%以上,有效降低舆情与合规风险。本案例由 360 数字安全提供 48/47 1/47
2025-08-29
53页




5星级
证证券研究券研究报报告告本报告仅供华金证券客户中的专业投资者参考本报告仅供华金证券客户中的专业投资者参考请请仔仔细细阅阅读读在在本本报报告告尾部尾部的的重重要要法法律律声声明明AI大模型引爆需求,存储.
2025-08-25
53页




5星级
01腾讯金融研究院|腾讯研究院|毕马威企业咨询腾讯金融研究院|腾讯研究院|毕马威企业咨询序言司 晓 腾讯集团副总裁、腾讯研究院院长过去两年,席卷全球的大语言模型浪潮,正式拉开了生成式 AI 时代的宏大序幕。步入 2025 年,大模型正从聚光灯下的明星技术,沉淀为驱动社会运行的智能基础设施,并以“马拉松”般的耐力,深度重塑着产业与经济的血脉。一方面,对技术极限的探索仍在加速。国内外头部科技公司不断推出的新一代 SOTA(State of the Art)模型,正合力将基础大模型的性能推向全新高度。另一方面,产业界的重心已转向对应用生态的精心构建,以此承载各行各业向 AI 转型的宏伟蓝图。这远非零散试点或工具集成所能企及,它要求我们像建设工业时代的电网、信息时代的光缆一样,进行系统性的规划与投入。这不仅是一场技术革命,更是一场涵盖数据基建、组织形态、信任机制乃至社会伦理的全维度重构。金融业,作为现代经济的神经中枢,是这场重构的核心战场与先导力量。在这里,AI 不再仅仅是专家能力的“放大器”,更是与人类智慧深度耦合、互补协作来探寻金融服务本源的伙伴。我们观察到,一种新的协作范式正在诞生:技术供给与真实需求双向奔赴,在解决最棘手的金融挑战中协同进化;科技、金融等多元主体,也正携手构建一个开放、共建、共享的创新共同体。作为这场技术浪潮的深度思考者与躬身入局者,腾讯研究院希望2025 金融业大模型应用报告能够超越一份常规的分析报告。报告不仅剖析变革的机制与路径,更力求探寻其背后的时代脉搏与产业逻辑,为金融机构提供具有前瞻性的战略思考框架与切实可行的实践路径指引,共同探索由 AI 驱动的崭新金融时代。2025金融业大模型应用报告序言柳晓光 毕马威变革咨询数字化转型业务牵头人“智慧之光”数智解决方案主管合伙人我们正处在一个由大模型定义的革命性时代。2025 年,已是技术浪潮与产业变革交汇的关键之年。AI 正以超越过往任何技术的速度与深度,从数字世界的底层逻辑,重塑着全球经济的宏观格局。金融,作为现代经济的核心,其本质是信息的处理与风险的定价。这恰好与大模型强大的认知、推理及生成能力,形成了前所未有的共振。这股力量,正推动金融业开启继数字化与移动化之后,一场更为深刻的智能化变革。它不仅是效率工具的迭代,更是对金融服务范式、运营模式乃至核心竞争力的系统性重塑。本报告旨在为这场波澜壮阔的变革提供一张清晰的导航图。我们将从宏观视野出发,系统梳理模型、算力与数据的演进趋势。随后,将镜头聚焦于金融业本身,提炼各机构从审慎探索到加速布局的应用全景,并揭示其应用价值从提升运营效率向赋能核心决策的跃迁路径。然而,我们深知通往智能金融的道路并非坦途。因此,报告将直面数据孤岛、战略模糊、安全合规、人才短缺等核心挑战,并通过深度剖析全球领先的实践案例,力求提供兼具前瞻性与可操作性的应对之策。最终,本报告将落脚于未来。我们提炼出驱动行业演进的六大核心趋势,希望能为身处变革中的每一位金融决策者、创新者和从业者,提供一个思考未来、把握当下的战略罗盘。我们相信,一个更普惠、更个性化、更高效的智能金融新纪元,正由我们共同开启。腾讯金融研究院|腾讯研究院|毕马威企业咨询报告总览2024 年至今,一场由大模型驱动的生产力革命正在金融业上演:一家领先大行将过去需要数小时甚至数天完成的复杂信贷审批报告分析压缩至 3 分钟,准确率提升超 15%;一家头部券商借助 AI 智能体实现 7X24 小时监控全球超过 5000 家上市公司的动态,研究覆盖面和响应速度达到了全新量级;一家海外顶尖投行部署了数百个 AI 程序员,后续或增至数千个,旨在将工程师的生产力提升至三到四倍。2025 年 3 月,中国人民银行已明确要求加快金融数字化智能化转型,安全稳妥有序推进人工智能大模型等在金融领域应用。务实的政策指引与激动人心的行业进展,共同表明行业正进入一个生成式 AI 引领的结构性变革期。我们判断,2025 年已成为金融行业深度整合 AI、借助大模型进行创新的关键拐点。本报告旨在穿透技术热潮,深入剖析大模型在金融业应用的现状与未来,为行业提供前瞻性的洞察。我们坚信,那些能够深刻理解机遇与挑战、进行前瞻布局、并致力于体系化能力建设的机构,必将在本轮智能化浪潮中获得发展先机,共同塑造金融服务的未来。本报告的核心观点如下:一、技术边界极速拓展,从能力延伸到效率革命全球大模型的发展已非单一的技术竞赛,而是呈现出技术迭代、资源升级、价值深化与生态竞合交织并进的复杂格局。模型的演进方向正从探索能力边界转向追求效率革命,算法与架构的持续优化在不断重新定义性能天花板。与此同时,算力需求呈现更重视推理的结构性变化,数据训练的关注点,正从单纯追求海量规模,转向更加倚重高价值的精准数据。在应用场景上,大模型也正从提效工具升级为协作伙伴,以智能体为代表的应用正在重构人机协作的全新形态。二、应用模式日趋成熟,从试验阶段到规模化部署全球近半数金融机构已启动大模型应用建设,行业正从零星的试验阶段迈入规模化部署期。中国金融业的大模型建设呈现出顶层设计、梯次推进的清晰格局:银行业是大模型落地应用最广泛的领域,证券、保险行业的头部机构则作为先行者,探索出多样化的应用模式。当前,应用建设的路径正逐渐收敛至以实际效益为导向,围绕能力建设、基座构建、应用部署的三大策略日益清晰,应用版图也正从外围的效率工具向核心的决策层面审慎渗透。2025金融业大模型应用报告三、落地挑战逐步明确,体系化能力成制胜关键金融机构在实践中普遍面临着局部突破与整体效能的平衡,创新投入与资源效能的平衡,以及前沿探索与风险防控的三大平衡关系考验。面对高价值数据资源碎片化、战略规划和投资回报不清晰、低容错场景技术适配难、组织人才升级滞后等具体挑战,构建“数据 应用 战略 组织人才”四位一体的综合能力框架,将是赢得未来人工智能革命先机的关键。在场景侧,智能理财助理、财富管理、保险代理人、投研报告生成、编程助手等场景已率先实现商业化突破,金融智能体的探索和实践也在持续涌现,为行业提供了可复制的成功路径。四、“金融 AI”前景广阔,重塑金融服务未来AI 技术正驱动金融服务走向前所未有的普惠化、智能化与个性化,将专家级专业服务带给更广泛的长尾客户群体。同时,AI 与人类专业能力的深度融合,正在重新定义金融的运营与管理模式,加速推动复合型、创新型金融人才的需求形成。在此进程中,高质量私域数据的挖掘与应用将成为金融机构的核心竞争力,而 AI 技术和治理体系的不断成熟,也将推动监管科技效率与效能的提升。腾讯金融研究院|腾讯研究院|毕马威企业咨询目录序言 报告总览 第一章 全球大模型发展态势 011.1 模型演进:能力边界进一步延伸011.1.1 算法与架构的效率革命持续提升模型能力 011.1.2 模型能力维度从数字世界拓展到物理世界 021.2 算力与数据:从追求规模到优化结构031.2.1 算力需求结构性变化催生智算中心等算力基础设施 031.2.2 数据训练从海量数据驱动转向高价值知识驱动 041.3 应用场景:提效工具逐步升级为协作伙伴041.3.1 企业级应用强调人机协作下的价值创造 041.3.2 智能体(Agent)成为人机协作的重要形态 051.4 产业生态:技术竞赛与生态竞合并立061.4.1 开源与闭源的路线之争过渡为生态共存 061.4.2 主权 AI 成为影响全球科技发展的重要变量 07第二章 金融业大模型建设与应用态势 092.1 总体概况:金融机构加速孵化大模型能力,行业整体审慎推进应用092.1.1 全球金融业大模型应用建设概况 092.1.2 中国金融业大模型应用建设数据洞察 102.2 建设模式:以实际效益为导向,建设方式渐进收敛182.2.1 大模型应用部署策略 182025金融业大模型应用报告2.2.2 大模型能力建设方式 202.2.3 大模型体系构建路径 212.3 场景落地:从效率工具向决策引擎演进242.3.1 金融业大模型的应用版图 242.3.2 金融业大模型的演进路径 262.3.3 金融业大模型的应用新形态:智能体 28第三章 金融业大模型建设的核心挑战与应对策略 313.1 金融数字化转型背景下的三大平衡关系313.2 大模型建设的四大核心挑战与应对策略333.2.1 数据挑战:从碎片化资源到规模化语料的转化困境 333.2.2 战略挑战:规划不清与价值验证困难引发的投资失衡 363.2.3 应用挑战:严监管场景对模型可控性的极高要求 433.2.4 能力挑战:技术迭代提速倒逼组织变革与人才升级 453.3金融业大模型落地实践案例与洞察493.3.1 智能理财助理从低风险场景切入,实现价值快速验证 493.3.2 财富管理风控用领域 LLM 攻克传统 AI 的语义理解难题 523.3.3 超级保险代理人AI 重塑展业与培训新范式 533.3.4 投研报告生成AI 赋能投研决策 553.3.5 AI 编程伙伴金融业软件开发提效新范式 593.3.6 金融智能体从概念验证到应用的探索 61第四章 大模型驱动金融业发展的趋势展望 684.1 金融服务的专业化和普惠化进程提速684.2 金融产品更加实时、动态、超个性化684.3 人机协同重新定义金融运营与管理模式694.4 高价值数据的挖掘与应用的重要性提升70腾讯金融研究院|腾讯研究院|毕马威企业咨询4.5AI 驱动监管科技提升和治理体系升级704.6 复合型、创新型金融人才需求正在形成71报告团队 73102025金融业大模型应用报告第一章1全球大模型发展态势近期,全球顶尖 AI 模型接连取得突破性进展,在编程、数学和视觉感知等领域树立了新的标杆,并显著减少了幻觉现象。尽管追求参数规模的“军备竞赛”仍未停止,行业已经逐步转向追求效率与价值的务实探索,大模型正从少数科技企业的专属技术,加速成为面向全社会提供智能服务的新型基础设施。01腾讯金融研究院|腾讯研究院|毕马威企业咨询全球大模型发展态势当前,全球大模型发展不再是单一维度的技术竞赛,而是呈现技术迭代加速、资源结构升级、应用价值深化、生态竞合交织四大趋势。从 DeepSeek-R1 等高效开源模型的涌现,到多模态与强化学习的融入,人机协作模式重塑,以及智算中心成为新型基础设施,我们正站在一个由技术范式革新驱动的产业变革的起点。1.1 模型演进:能力边界进一步延伸1.1.1 算法与架构的效率革命持续提升模型能力基于规模法则(Scaling Law)1推动基础大模型性能提升的预训练模式的性价比下降。在此背景下,学术界和工业界不断探索后训练与特定场景的 Scaling Law。目前,Scaling Law 的影响已经扩展到后训练和推理阶段,推理模型的性能与训练时间计算、推理时间计算量存在明显的幂律关系。DeepSeek 的成功经验引发全球关注,但并未改变大模型对大算力的依赖。目前,业界的探索表明,通往更高智能存在两条并行路径、两者相辅相成:一是通过更优的算法提升算力效率,比如强化学习(Reinforcement Learning)和测试时计算(Test-time Compute),二是通过持续提升模型尺寸、扩充训练数据与加码算力投入,构筑顶级基座模型的竞争壁垒。例如,xAI 为 Grok 3 投入的预训练算力达到了 Grok 2 的 10 倍,Grok 3 调用了 10 万个英伟达 H100芯片,相较于 Grok 2 的 15000 个实现了显著提升。而这场围绕算力的军备竞赛远未结束,作为行业标杆的 GPT-5 的发布,再次印证了构建最顶级基础大模型的成本投入极为高昂,注定是战略性稀缺资源。业界将目光从预训练转向即后训练与推理阶段,强化学习正是这一趋势的核心技术。以DeepSeek-R1 为代表的强化学习架构,通过让模型在试错中学习,用更少的计算量激发了模型更深层次的推理能力。其核心创新的 GRPO 算法消除了传统 Critic 网络的计算冗余,不仅显著提升训练效率,而且将推理延迟降低至毫秒级。目前,诸多团队基于类似的训练策略,持续验证在小模型上的推理能力,结果表明额外的指令微调并非必要,基础模型和指令模型最终能达到相似的性能水平;不同的强化学习算法都能实现长思维链的涌现;通过精心设计的强化学习方法,即使是较小的模型也能实现强大的推理能力,而且这个过程可以比传统方法更简单、更经济。自2024 年 9 月 OpenAI o1 系列模型发布后,这一强化学习范式已逐步被主流模型采纳。融合强化学习等技术的后训练,大幅提升了模型进行更深入、更复杂的推理的“慢思考”能力。通过强化学习驱动的多轮追问与假设检验,大模型在数学推理等任务中展现出卓越性能,并为复1 规模法则(Scaling Law)是被业界认为是大模型预训练第一性原理,也是在机器学习领域,特别是对于大语言模型而言,模型性能与其规模(如参数数量)、训练数据集大小以及用于训练的计算资源之间存在的一种可预测的关系。这种关系通常表现为随着这些因素增长,模型性能会按照一定的幂律进行改善。022025金融业大模型应用报告杂产业场景的优化提供了新的思路。未来,大模型的逻辑推理能力将得到强化,能够处理更复杂的逻辑关系及推理任务,例如演绎推理、归纳推理以及溯因推理。例如,Grok 3 通过强化学习推理方式获得了“慢思考”能力,成功跻身第一梯队;2025 年 7 月发布的 Grok 4,在后训练强化学习方面的计算量较 Grok 3 提升了 10 倍。这体现了大型科技公司对深度推理能力的投入持续升级。推理新范式的出现促进行业专用基础模型崛起。行业专用基础模型正在各个领域蓬勃发展,这些模型针对特定行业数据和任务进行训练和优化。与通用基础模型相比,它们在处理特定行业任务时表现更加出色。与去年相比,当前行业专用基础模型的发展呈现出两大趋势:一方面是更便捷的开发流程。在当下后训练与推理新范式下,得益于强化学习等技术,现在开发者只需使用少量经过标注的数据,就能快速构建出实用的行业专用模型,极大地降低了开发门槛和成本。另一方面是更多样化的模型类型,除了传统的语言处理模型,现在也包括多模态模型、图神经网络和物理信息神经算子等。混合专家模型架构(Mixture of Experts,MoE)已成为大模型追求卓越性能的主流技术路径之一。其核心优势在于解耦了参数规模与计算成本,突破了传统稠密模型的扩展瓶颈。MoE并非要替代 Transformer 中的自注意力等基础模块,而是通过更高效的组织与计算方式,极大提升了模型的扩展效率。业界领先者已纷纷采纳此路线。2024 年年初,腾讯混元就在国内率先采用 MoE 架构模型。其旗舰模型混元 TurboS 创新采用了前沿的混合线性注意力机制与 MoE 模型架构,是大模型研发前沿分支的重要代表。Kimi-K2 在 DeepSeek V3 架构基础上,通过将注意力头减至 6 个、MoE 专家数翻倍至 128 个(每次激活 8 个)的策略,实现了计算效率与知识容量的同步提升。长远来看,MoE 代表了模型设计从同质化的全量计算向异质化的条件计算的理念转变。这种转变使得研究者可以探索参数数量远超现有稠密模型极限的架构,而不必承担同等比例增长的计算开销,为实现模型能力的持续扩展提供了基础。1.1.2 模型能力维度从数字世界拓展到物理世界多模态感知和生成能力是大模型与真实世界交互的关键,也是未来发展的重要趋势。多模态大模型突破了单一文本的限制,实现了跨模态信息处理与理解。在图文交互领域,大模型可以根据图像生成精准的文字描述,或者根据文字指令创作匹配度较高的图像,例如根据文字描述生成设计图稿。在视听融合层面,大模型通过视频内容识别、字幕生成和关键信息提取,为影视创作、安防监控等场景提供智能辅助,例如自动生成视频摘要、识别监控视频中的异常行为等。尽管多模态技术发展迅速,但仍面临着一些挑战,例如跨模态的语义协同、正负样本多模态数据量不足等。随着技术的进步,未来有望实现多模态的深度融合,开启更多交互和创作的可能性。03腾讯金融研究院|腾讯研究院|毕马威企业咨询空间智能的加速发展,正推动人工智能与物理世界进行深度交互。一系列关键技术,如三维感知、空间表示与生成以及多模态融合技术逐步成熟,将赋予 AI 感知、理解并最终行动于物理世界的能力。实现这一目标的关键,在于强大且易于使用的世界模型。腾讯近期开源的混元 3D 世界模型,作为业界首个兼容传统 CG 管线的可漫游 3D 世界生成模型,通过技术优化,成功实现了在消费级显卡上的流畅运行,极大地降低了 3D 世界生成的门槛,并已在游戏开发、VR 体验及数字内容创作等领域展现出加速行业演进的潜力。这种基础能力的成熟与普及,将为具身智能机器人等前沿应用提供关键支撑。预计在未来 2-3 年内,机器人将能够完成数十项实用的复杂功能,并通过技术迭代与成本优化将任务能力扩展至成百上千种。1.2 算力与数据:从追求规模到优化结构1.2.1 算力需求结构性变化催生智算中心等算力基础设施DeepSeek 的突破再次引发了算力的“杰文斯悖论”2:大模型推理效率提升,不仅不会降低算力需求,应用得到推广还将带来整体算力需求保持扩张。随着智能体应用的增加,将推动数据处理量的指数级增长,进而引发对推理算力的巨大需求,甚至可能超过训练算力需求。一方面,随着模型部署成本的大幅降低,中小企业和边缘计算场景也能接入 AI 应用,带动算力资源调用速率突破线性增长规律。同时,实际应用场景对实时推理任务的需求爆发式增长,进一步加剧了对算力的需求。另一方面,领军企业对更大参数规模模型的持续研发,也巩固了算力需求的不可替代性。为应对日益增长的算力需求,智算中心作为新型 AI 计算基础设施正在兴起。AI 计算基础设施正在从单一 GPU 集群向综合智算中心转变,这些中心整合了计算、存储、网络和冷却系统,为各种 AI 工作负载提供可扩展解决方案。尤其是进入到推理范式以及多智能体阶段,分布式算力的需求呈指数级增长。这一趋势推动了液冷技术、高带宽内存和专用互连网络的创新,以支持日益增长的计算需求。与此同时,分布式算力架构通过源网荷储一体化3创新,成功实现能效跃升。据新华网 2024 年 12 月 24 日报道,上海崇明岛北堡风电场部署的分布式算力节点,依托风电直供技术使年运营成本降低 70 万元,碳排放年减少 850 吨,验证了新能源与算力深度融合的可行性。与此同时,轻量化模型的普及,也推动算力资源配置格局从集中式超大规模集群逐步向分布式、多点协同的方向发展演变。DeepSeek 打破了传统 AI 的规模壁垒,其轻量化模型与开源策略降低了 AI 应用门槛,促进了中端算力设施和分布式数据中心的普及。产业价值链条呈现结构性调整:上游,国内芯片企业获得关键发展窗口期;中游,区域化数据中心利用响应速度优势对接产业智2“杰文斯悖论”通常指资源利用效率提高导致总消耗量增加的经济学现象。3 源网荷储一体化是指将能源源头(如光伏、风电等)、电网、用电负荷和储能系统有机地整合在一起,形成一个综合性的能源系统,以实现能源的高效利用和优化能源供应与需求的平衡。042025金融业大模型应用报告能化需求;下游,人工智能与细分领域的深度结合,推动技术升级与商业价值形成互促的良性循环。1.2.2 数据训练从海量数据驱动转向高价值知识驱动大模型对高价值数据的依赖远超传统算法,训练从简单的数据堆砌转向对数据的价值锚定,目标是将数据转化为可被大模型有效学习的知识。高价值数据集通过价值锚定化、知识显性化和演进动态化,实现人工智能从通用能力到垂直场景业务效能的精准转化。价值锚定化方面,聚焦对模型训练真正有价值的数据,例如在工业质检场景中,设备异常的频谱特征数据价值远高于正常运行数据。知识显性化方面,这种数据集不再是简单的信息堆砌,而是将隐含在数据中的知识提取出来,以更易于模型理解和学习的方式进行呈现。演进动态化,则是根据模型训练和应用的反馈,动态调整和优化数据集,形成“数据-模型-业务”的迭代飞轮。这种范式正在重塑数据采集逻辑,企业需要从被动记录转向主动设计,将高价值数据集建设提升至战略高度。随着大模型训练需求的指数级增长,真实数据与合成数据融合成为突破数据瓶颈的新路径。Epoch AI 研究公司预测,全球公共互联网文本总量预计将在 2028 年前后接近现有 AI 训练数据集规模,这意味着高质量训练数据枯竭的挑战可能在未来四年内爆发。面对这一形势,合成数据技术成为缓解数据短缺的关键突破口,并在高质量指令微调、复杂推理任务及多轮对话数据生成领域展现出独特的价值。以 OpenAI 开发 GPT-5 为例,研究团队尝试利用前代模型生成的数据来训练下一代模型,这种方法在理论上具有可持续性,然而实践中并未完全解决训练扩展性和数据瓶颈问题,效果提升也未达到预期。这一现象揭示了合成数据在应对数据稀缺性、隐私安全及极端场景建模需求虽有优势,但实际效能高度依赖生成算法的成熟度。当前阶段,合成数据与真实数据的动态配比、规模化生成规律突破等核心问题仍需关注。跨模态数据的协同训练有利于推动模型智能水平提升。文本、图像、时序信号等跨模态的协同训练并非简单数据叠加,而是通过不同模态数据之间的语义对齐与信息补偿,构建更接近人类认知的全息理解框架,让模型像人类一样能够综合处理和理解来自不同感官的信息。同时,跨模态协同训练对数据治理提出新的要求:多源数据的异质特性催生标准化重构需求,而模态交叉带来的隐私风险则倒逼安全防护体系升级。未来,能够打通数据壁垒、掌握跨模态数据协同训练机制、并具备落地应用能力的企业,将在产业智能化变革中占据优势。1.3 应用场景:提效工具逐步升级为协作伙伴1.3.1 企业级应用强调人机协作下的价值创造企业对于 AI 应用的态度已经更加务实AI 是增强员工能力的协作伙伴,而非完全替代员工。在企业层面,企业正在将大模型集成到现有 AI 系统和业务流程,这种融合不仅仅是简单地05腾讯金融研究院|腾讯研究院|毕马威企业咨询添加大语言模型接口,而是通过重新设计工作流程,使得大模型能够增强但非取代现有系统,从而创造更大价值。这种务实的态度也在大模型的应用场景选择上得到了体现:我国的大模型在与实体经济深度融合方面,应用场景正从 IT/互联网、通信、金融与能源逐步向医疗、物流、教育、制造等多个行业拓展。检索增强生成(RAG)与私有知识库的结合,不仅推动了大模型从概念验证向企业级应用转变,也初步体现了人机协作的核心理念。具体而言,RAG 为大模型外挂企业私有知识库,即大模型负责提供强大的信息处理和生成能力,而企业员工则通过知识库提供专业知识、判断力和决策力。这样既能保障数据安全和解决幻觉问题,又能实现 AI 能力与人类专业知识的高效协同,成为企业级应用落地的关键技术。这种人机协作模式能够最大限度地发挥大模型的优势,同时避免其潜在风险,从而在创新发展的同时注重合规和安全。RAG 系统架构正朝着更复杂、更专业、更智能的方向发展:从单一文本检索向全媒体内容理解转变;从通用模型向高度领域专用的知识增强转变;从简单的检索管道向多阶段评估、验证和优化流程转变;从独立系统向端到端、云到边缘的分布式架构转变。1.3.2 智能体(Agent)成为人机协作的重要形态AI 应用的形态正从聊天机器人(Chatbot)向能够独立思考、调用工具、执行任务的智能体(Agent)演进。业界期待,未来的 AI 智能体还能发展成为长期自主运行、持续学习和适应能力的智能实体。这要求 AI 智能体突破长效记忆、复杂工具调用与协同、环境感知以及多智能体协作等多个技术,以独立胜任高动态性任务。将知识库和推理能力融入大模型,可以显著提升智能体作为大模型企业级应用在感知、分析、决策和执行方面的智能化水平。当前,单一智能体已有小规模试点,通过效率支撑、流程赋能与决策辅助来完成体系融合;而多智能体的协作能力远超单一智能体,在解决复杂问题方面成为有潜力的 AI 应用。智能体的首次革命完成了从指令执行工具到问题解构主体的转变,核心突破在于思维链的引入。当前技术已进入二次革命阶段,表现为多智能体协同系统的认知涌现,即通过辩论机制、置信度加权、不确定性校准等技术完成系统性协同行为。目前,在数学推理等复杂任务中,多 Agent 协同系统的准确率相比单模型提升 23-45%,这种协同并非简单的投票机制,而是通过动态调整注意力权重形成知识合成的新范式。xAI 发布的 Grok 4 Heavy 多智能体模型,在标准版 Grok 4 结合工具在 HLE 测试(Humanitys Last Exam)中取得 38.6%的准确率后,Grok 4 Heavy 模型通过并行启动多个 Grok 4 实例,并采用内部协同与投票机制输出结果,准确率提高到 44.4%。展望未来,智能体的第三次革命将延伸至具身物理空间中的群体博弈,逐步演进成可信空间下的群体智能与演化博弈循环。当智能体深度介入决策流程时,确保其行为符合伦理规范、避免算法偏见、维持决策透明度、保障数据合规使用成为关键命题。这要求技术创新与治理体系同步进化,构建062025金融业大模型应用报告既能防范技术滥用又可明晰责任边界的监管框架,在推进智能体落地的过程中实现技术效能与社会价值的平衡。1.4 产业生态:技术竞赛与生态竞合并立1.4.1 开源与闭源的路线之争过渡为生态共存大模型开源与闭源的博弈已超越技术路线之争,成为企业战略选择、生态主导权争夺以及全球治理规则重构的核心场域。高性能和低成本开源模型的崛起,正在瓦解传统依赖算力与资金垄断的模型开发格局。过去依赖巨额资金、千亿参数和超算资源的开发模式,逐渐被低成本、高效率的开源模式所冲击。企业竞争焦点从技术单点突破转向生态整合能力,例如通过开源社区构建开发者粘性,再通过云服务、API 接口实现商业转化。这种模式在削弱巨头垄断的同时,也加剧了生态碎片化风险,例如不同开源协议间的兼容性问题可能阻碍技术规模化落地。开源模型加速技术迭代、推动长尾场景应用普及,但闭源模型在稀疏激活、多模态对齐等底层技术上仍具优势,并有利于企业维持技术代差。闭源模式的另一优势在于可控性,更易满足数据隐私和伦理合规要求。然而,过度封闭可能扼杀创新活力,表面开源但实际存在使用限制或关键组件未开放的“伪开源”做法也遭部分开发者抵制,凸显了开源社区对透明性的强烈需求。当前大模型领域正在呈现开源与闭源并存的多元化格局。Meta、xAI 等企业通过开源 Llama 3.1、Grok 1 等模型主张透明性和可定制性。部分科技企业选择分层开源的平衡策略,开放中小模型构建生态,保留顶级模型巩固壁垒。例如,Google 开源 Gemma 小模型系列吸引开发者,同时保持 Gemini 大模型闭源以维持技术领先。OpenAI 等传统闭源领军者也在重新审视策略。2025 年 8 月,OpenAI 推出首批开源模型 gpt-oss 系列,从纯闭源向“闭源 开源”转变,开源模型支持在笔记本和手机等端侧场景运行。Anthropic 仍坚持闭源路径以维护核心竞争优势。随着分层开源成为一种务实的策略,如何平衡开放性与商业价值,如何建立统一的开源标准和评估体系,以及如何构建安全、可信的开源生态,成为推动大模型技术普惠和产业繁荣的关键。未来,未来开源和闭源将长期共存、相互促进,并推动行业标准形成,进一步规范技术发展路径。可信的开源或将成为平衡安全与创新的关键路径,随着相关监管条例与备案机制的完善,对闭源模型的安全性与伦理风险的评估也将更加审慎与全面。07腾讯金融研究院|腾讯研究院|毕马威企业咨询1.4.2 主权 AI 成为影响全球科技发展的重要变量提升 AI 技术的自主可控水平,正成为越来越多国家在科技战略布局中的优先考量。英伟达创始人兼 CEO 黄仁勋在迪拜世界政府峰会提到,国家应拥有其数据及其产生的智能信息的所有权,呼吁各国建立“主权人工智能”(sovereign AI),这一言论引发了广泛讨论。在当前背景下,“主权 AI”指的是国家主导 AI 基础设施建设、模型训练及生态构建,尤其集中在算力和数据两个关键领域,并从硬件层(芯片、超算)向规则层(伦理标准、开源协议)延伸。这场全球范围的主权 AI 竞赛,将深刻影响未来数十年的全球科技发展轨迹。美国通过政策推动和项目实施,持续展现其在 AI 创新、基础设施建设和国际主导地位方面的战略决心。2025 年 7 月,美国白宫发布了赢得竞赛:美国人工智能行动计划。首先,法案明确表示将快速推进人工智能在各领域的创新;其次,坚决完善与人工智能相关的重要基础设施和产业支持;最后,美国希望在国际 AI 外交和安全事务中发挥更大的主导作用。此外,美国凭借雄厚的技术积累,在 AI 基础层(如芯片、算法)保持领先地位,并积极构建由其主导的 AI 技术生态,例如通过星际之门项目加强与盟友的技术合作。同时,美国还试图通过出口管制等措施维护其技术优势。然而,这种做法可能导致与盟友关系的疏远,并最终影响其在全球市场的地位。欧盟坚定地推行其数字主权战略,并将其延伸至 AI 领域。在顶层设计上,欧盟标志性的人工智能法案已于 2024 年 5 月由欧盟理事会正式批准,为 AI 的研发和使用划定了明确的法律界线。在基础设施层面,欧盟正大力推动 AI 算力网络的建设。在 2025 年 4 月发布的人工智能大陆行动计划中,欧盟提出将启动覆盖 17 个成员国的 13 个 EuroHPC“AI 工厂”,并计划投资超 100 亿欧元进行算力设施的重大升级。这些设施将重点服务于健康、能源和制造业等关键行业,为欧洲的科研机构和企业提供强大的本土算力支持,构筑其全球 AI 领导地位的基石。中国依托政策协同和场景创新,在 AI 应用层面取得了显著进展,进一步彰显了 AI 在国家科技战略中的地位。中国政府高度重视 AI 技术发展,出台了新一代人工智能发展规划,并通过建设东数西算工程、推动开源倡议等举措,积极构建 AI 产业生态。2024 年,政府工作报告首次提出“人工智能 ”行动,去年年底召开的中央经济工作会议更是将这一行动作为 2025 年九项重点任务之一。2025 年 7 月,国务院常务会议审议通过了关于深入实施“人工智能 ”行动的意见,提出要深入推进“人工智能 ”行动,大力推动 AI 规模化商业化应用,充分利用中国产业体系完备、市场规模大、应用场景丰富的优势,加速人工智能在经济社会各领域的普及与深度融合,形成以创新推动应用、以应用促进创新的良性循环。全球 AI 发展和治理格局正在加速演变,各国在技术、规则、生态等多个层面展开竞争与合作。未来,开放合作、共建共享将成为推动 AI 发展和造福人类社会的必然选择。082025金融业大模型应用报告第二章2金融业大模型建设与应用态势随着以大模型为代表的新兴技术在金融行业的全面深入应用,通用大模型与垂域大模型在场景侧激活动能,大幅提升了金融微观决策的信息对称性和金融服务的便利性、可靠性,为金融服务和产品创新提供了广阔空间。09腾讯金融研究院|腾讯研究院|毕马威企业咨询金融业大模型建设与应用态势随着算力资源的持续优化升级与 AI 技术的蓬勃发展,以大语言模型为核心的 AI 技术在金融行业中正以前所未有的速度不断涌现、演进与迭代。战略驱动与价值导向已成为金融业布局新兴AI 场景的双轮驱动,推动大模型能力在金融业的渗透速率显著提升,展现出金融与 AI 深度融合的新态势。2.1 总体概况:金融机构加速孵化大模型能力,行业整体审慎推进应用2.1.1 全球金融业大模型应用建设概况全球金融业加速拥抱 AI,大模型在金融行业的渗透率正加速提升。麦肯锡 2024 年的调研数据显示,金融行业从业者反馈在工作中常规使用大模型、在生活中常规使用大模型和在工作和生活中均常规使用大模型的数量占比已达到 48%。英伟达对近 400 家金融机构的调研显示,43%的机构已开始应用大模型。4国际金融协会报告显示,88%受访者在生产中使用人工智能,并在2025 年将持续增加 AI 应用投资。5这种全球性的热潮在不同市场环境下,形成了各具特色的发展路径和战略重点。从全球视角对比来看,海外机构更侧重技术整合与业务创新的协同,而国内机构目前更聚焦于知识库、文档处理等效率提升场景,这正反映了双方在不同发展阶段和政策导向下的不同选择。海外金融市场的大模型应用展现出更强的主动性和规模化落地能力。毕马威 2024 年美国银行业前景报告显示,65%的受访机构领导者已将生成式 AI 纳入战略愿景,并预期在年底前将 1%-20%的团队日常任务交由 AI 执行。6从应用深度看,海外金融机构愿意将大模型部署于核心业务场景,例如智能定价策略优化、资金流动性管理、高频交易风控等直接影响经营效益的领域,同时也拓展至内部运营效率工具开发。从全球领先金融机构的实践来看,这一趋势正在加速:高盛集团(Goldman Sachs)自 2025 年起正式推出由生成式人工智能驱动的 AI 助手,并已扩展至全公司范围内的员工使用,能够帮助员工进行复杂文档总结、初始4 英伟达,金融服务业 AI 现状与趋势洞察,20255 IIF-EY Annual Survey Report on AI/ML Use in Financial Services,20256 KPMG,2024 U.S.Banking Industry Outlook Survey102025金融业大模型应用报告内容起草和数据分析等任务。在支付安全领域,维萨(Visa)于 2024 年推出基于生成式 AI 的欺诈解决方案,用于识别枚举攻击的可能性,这些攻击每年带来 11 亿美元的欺诈损失。万事达卡(Mastercard)则运用生成式 AI 技术将潜在受损卡片的检测速度提高一倍。值得注意的是,部分海外银行已将大模型驱动的智能投顾、个性化理财方案等直接面向客户的智能服务嵌入业务流程,这种基于人机协同的技术直连用户的模式得益于其相对完善的隐私保护框架和流程被保护机制,但也需应对生成内容可靠性带来的合规挑战。尽管中小型机构受资源和技术储备所限,但正通过合作开发或技术外包等方式加速渗透,逐步缩小与大型机构的差距。中国金融业在大模型建设上呈现出顶层设计、梯次推进的格局,体现了行业对技术全栈掌控和自主可控的战略追求。银行业是大模型落地应用最多的金融领域,其应用范围已经从国有大行、股份制银行迅速扩展到头部区域性银行。目前,国有大行和股份制银行已全面启动大模型应用建设,并在前、中、后台均有正式投产的应用案例。国有大行凭借雄厚的资金与技术积累,更注重技术的全栈掌控,旨在通过构建自主可控的技术体系,满足自身多样化的业务需求,进而提升核心竞争力。在此过程中,他们积极与国内顶尖机构开展深度合作,共同推进计算资源、计算调度与模型能力的全栈信创建设。股份制银行则展现出更为灵活多样的建设模式,它们在探索的宽度与广度上均取得了显著进展。区域性银行虽然起步较晚,但基于战略与价值驱动的探索热情同样高涨。目前,约80%的区域性银行已涉足大模型领域,部分已基于行业成熟的产品市场匹配度进行速赢落地,部分仍处于实验室阶段或全行范围内的智能体原型竞比阶段,少部分亦开展了全行级的领域实践。证券、保险行业在大模型建设上也呈现出头部机构先行且模式多样化的特点。资管、信托行业在大模型建设上多聚焦于特定场景下的工具侧能力引入,尚未形成体系化的能力布局。由于大模型推理能力的突破,以投研、投顾为代表的金融场景亦正快速被券商、资管、基金、信托所接受。随着金融科技的日新月异与监管政策的不断完善,预计证券、保险、资管、信托等行业将逐步加大大模型建设的投入和布局力度。2.1.2 中国金融业大模型应用建设数据洞察2024 年以来,大模型技术迈入规模化产业落地的关键拐点,从概念验证转向实际业务应用的深度整合。金融行业凭借其数据密集、场景众多、拥抱创新的属性,展现出“人工智能 ”战略的示范效应和引领作用。11腾讯金融研究院|腾讯研究院|毕马威企业咨询洞察一:大模型应用迎来从试水到抢滩的拐点2024Q1-2025Q2 金融业大模型招投标信息汇总基于全网公开披露信息统计(不含金融科技及消费金融样本),从 2024 第一季度至 2025 年第二季度期间,共计产生191个7大模型相关中标项目,其中2024年112个,2025年上半年79个,覆盖银行、证券、保险、信托与资管。中标项目数量与金额均呈现头部集中特征,这一趋势显示,金融业大模型应用已基本形成银行业主导、证券保险跟进、信托资管探索的梯次发展格局。值得关注的是,进入 2025 年行业应用建设节奏明显提速,各类规模机构已全面启动大模型应用规划,大模型技术正在成为推动金融业数智化转型的核心引擎。7 数据仅基于全网公开披露信息进行统计,样本收集时间截至 2025 年 6 月 30 日,仅收录公开中标结果的项目。渠道驳杂,可能存在未收录案例,亦有部分案例未做公开披露,金融科技、消费金融等样本未计入统计。122025金融业大模型应用报告2024Q1-2025Q2 金融业大模型中标项目数量及披露金额从季度演进趋势来看,2024 年 Q1 大模型中标项目仅 12 个,尽管第二季度中标项目数量有所下降,但从第三季度开始,中标项目数量呈爆发式增长达 27 个,Q4 保持高位增长至 47个,2025 年上半年全面爆发,仅半年即快赶超 24 年全年的项目数量。这种低开高走的演化轨迹,印证了金融机构在技术成熟度和应用场景验证后的规模化投入,反映出大模型技术进入场景渗透-ROI 验证-规模复制的良性发展闭环。这意味着,企业观望的窗口期正在迅速关闭,竞争已从要不要用转变为如何规模化地用好和常用。未能跟上这一节奏的机构,可能会在 1-2 年内面临显著的效率和创新代差。洞察二:应用快跑与算力长跑并存从客户服务到风险管理,从产品创新到运营优化,大模型以前中后台全链路覆盖的形式逐步渗透到金融业务的各个环节,带来前所未有的效率提升和创新突破。与此同时,各大金融机构正在通过多种采购方式推动大模型的应用与落地。根据采购内容的不同,可将大模型的采购划分为四大类:基础设施类、模型能力类、AI 平台类和 AI 应用类。其中:基础设施类:为运行大模型所需的底层计算资源和硬件设施的采购,主要包括各类算力资源,如 GPU、TPU 等高性能计算设备;云计算资源;网络基础设施和存储设备等。13腾讯金融研究院|腾讯研究院|毕马威企业咨询 模型能力类:为大模型训练提供数据资源、算法优化服务,以及模型训练平台的技术支持。AI 平台类:用于支持大模型开发、部署和管理的 AI 平台或工具,主要包括大模型基座、AI 中台、AI 开发平台等。AI 应用类:将大模型与具体业务场景结合,开发并落地实际应用,主要包括应用软件,如智能客服、智能运营、智能研发等,以及针对特定业务需求(如信贷审批、反欺诈)的 AI 解决方案等。2024Q1-2025Q2 金融业大模型招投标类型分布图表分布清晰地揭示了金融业的布局策略。AI 应用类采购数量遥遥领先,而基础设施类采购虽然数量不多,但通常金额巨大。这揭示了行业一方面通过采购 AI 应用追求短期业务见效和技术价值快速兑现;另一方面通过投入基础设施进行长期算力储备和战略布局,尽量确保算力自主可控。对于金融机构而言,既要避免陷入只买应用、不做基建的技术空心化风险,也要防止重金投基建、应用跟不上的资源闲置困境,确保两条轨道上的投资能够协同并最终融合。142025金融业大模型应用报告洞察三:场景渗透呈现由内向外的渐进式路径2024Q1-2025Q2 金融行业大模型场景应用分布(AI 应用的标段中会包含多个场景;此处仅选取中标项目数量 3 个的场景)将 AI 应用层项目按场景细分,应用场景的高度集中于代码助手和知识检索问答,揭示了行业当前主流的渗透路径,即技术渗透呈现由内至外、从效率工具向决策支撑演进,这是一种审慎的风险管理策略。从务实的角度出发,当前的重点应是评估内部效率工具的真实成效,并思考如何将这些内部效率红利转化为可衡量的外部竞争优势,打通从员工赋能到客户价值创造的传导链条。2025 年开始,由大模型驱动的业务模式创新或业务价值增益,成为头部金融机构首要考虑的关键场景或探索的核心趋势。进一步,不同金融机构对 AI 应用的需求呈现差异化分布:银行业:应用范围较为广泛,涵盖从前台业务提升(如智能客服、信贷报告生成、营销物料生成)到后台经营决策(如代码助手、知识问答)等多个领域,展现银行对于提升业务效率和客户体验的强烈需求。15腾讯金融研究院|腾讯研究院|毕马威企业咨询 证券业:大模型的应用主要集中在提升投研工作效率、优化研发流程以及内容审核等方面。2025 年开始,智能投研、智能投顾类成为头部券商的重点建设方向,如投资组合交易分析、智能选股与诊断、舆情分析与研报生成等。保险业:集中在核保流程优化以及知识库建设等关键领域。2025 年开始,以顾销渠道的保险建议书生成、代理人陪练、代理人小助手;市场部的营销画像分析、营销物料生成为代表,开始加速渗透。资管业和信托业:中标项目占比相对较低,主要在智能问答、代码辅助,以及数字员工建设等方面进行探索。2025 年开始,头部基金公司开始重点探索智能投研、智能投顾两大专题,但多以合作共建或自建的方式推动相关能力建设;在基金的运营管理相关工作中,交易指令处理与意图识别、估值对账与异常预警、信息披露报告草稿撰写与审核亦为重点建设场景。洞察四:银行业既是需求驱动的引擎,也是行业发展的关键参照系银行业的绝对领先地位,不仅是其体量的反映,更意味着它正在扮演整个金融 AI 生态的需求引擎。银行的巨额投资正在定义技术路线、塑造厂商格局、吸引顶尖人才。其在应用、平台、基础设施上的采购战略,将为其他金融子行业提供重要的参照系。2024Q1-2025Q2 银行业大模型中标项目分布(采购类型)(按采购类型,同一标段含多个类型)162025金融业大模型应用报告从采购需求来看,银行类金融机构对 AI 应用类项目的采购占比 54%;基础设施类项目采购占比 25%;AI 平台类项目采购占比 14%,模型能力类项目采购各占比 7%。通过这四大类采购,基本能够全面覆盖从底层算力支持到上层业务应用的全链条需求。2024Q1-2025Q2 银行业大模型中标分布(按银行类型)(按银行类型,同一标段包含多个采购类型)8根据银行性质和职能进行划分,将银行机构划分为国有六大行9、股份制银行、区域性银行、政策性银行。当前,大模型战略并无唯一最优解。机构的资源禀赋、市场地位和战略雄心,共同决定了其最适合的采购与建设路径。具体而言:国有大行加速应用体系建设:国有六大行在 2023 年末相继完成了基础设施的补足,2024年基于充足的算力,积极开展大模型应用体系化能力建设,前中后台与通用工具均有所涉及并真实投产,存在垂直业务领域的端到端赋能与单一系统平台的全能力支撑;2025 年开始国有大行聚焦于前台业务强相关的应用探索与建设,并开始探索 AI 服务能力原子化、平台化,以及全行级的知识体系建设。股份制银行紧跟趋势,全链条多重投入:相较于其他各类银行机构,股份制银行2024 年的中标项目中 46%为基础设施类采购,包括各类算力服务器资源、配套网络设备等大模型训练集群所需的基础设施建设硬件;2025 年上层应用百花齐放,面向前中后台均有所突破,甚8本统计以项目名称为计量单位,未做同一银行的去重9国有六大行特指工商银行、农业银行、中国银行、建设银行、交通银行、邮政储蓄银行17腾讯金融研究院|腾讯研究院|毕马威企业咨询至亦有流程嵌入型的应用进行投产,重新定义人机协同的流程组织,同步推进知识体系建设。区域性银行场景化应用突围:区域行经过 2024 年的蛰伏,于 2025 年以经过市场验证的PMF 进行速赢建设。其中某头部城商行聚焦构建全行统一智能技术体系,并在此基础上拓展 AI 金融业务场景应用,如代码助手、智能会议、智能报告等;总体来看其他区域性银行采购需求涉及知识检索问答、智能客服、数字人在内的通用工具和前中台应用。政策性银行以客户为核心的服务深化:以某政策性银行举例,对 AI 大模型的应用需求主要集中在智能客服的部署,以及客服垂直领域模型的参数调优和升级,深度开发生成式 AI 的能力,提升自然语言处理、知识推理、场景问答和创新解决方案生成的核心技术实力,优化客户服务体验。2024Q1-2025Q2 银行业 AI 应用类项目分布(同一标段包含多个应用类型)182025金融业大模型应用报告前台业务提升和通用工具是银行应用落地的两大重点。银行业当前已基本构建了三级递进策略框架,即基础层重投入、平台层快迭代、应用层求突破。此框架下,应用类项目的实施焦点显著集中于前台业务优化与通用智能工具的应用两大核心领域。在前台业务提升方面,通过引入智能客服、数字人增强客户互动体验,提高响应速度和问题解决效率,打造更加个性化与沉浸式的服务场景;智能投研为投资决策与市场洞察提供了强有力的辅助,进一步增强金融服务能力;通用工具加速推动知识检索与智能搜索服务的革新,实现信息的快速获取与高效传播。值得注意,公开采购数据并非等同于战略重要性,据调研,最核心、最敏感的风控类系统,更多通过自研或深度合作开发,而非公开招标采购。以 2025 年的采购场景与类型来看,公开采购的多为经过市场验证的 PMF 可速赢应用,面向流程嵌入型、模式重塑型的应用多为自研或深度合作开发。2.2 建设模式:以实际效益为导向,建设方式渐进收敛面对大模型热潮,金融业正积极探索适合自身的应用建设模式,并呈现出以投入产出比(ROI)为导向的渐进收敛趋势。由于大模型训练成本高昂,金融机构更加注重应用落地的实际效益。目前,无论是购买基础算法框架,还是与顶尖研究机构、模型公司开展深度合作,金融机构都致力于在风险控制、客户服务、效率提升等方面培育潜在场景应用,并通过不断优化模型性能、降低部署成本等方式,追求更高的投入产出比。在这一过程中,金融业在应用部署方式、能力建设方式、模型构建方式等方面,逐步形成了几种较为普遍且更注重实际效益的建设模式。2.2.1 大模型应用部署策略大模型应用相关的算力配置顺序通常为:开发环境(训练)-测试环境(推理)-生产环境(推理)。针对这一特点,金融机构在部署大模型应用时,主要有以下三种方式:本地数据中心部署:安全优先和自主可控金融机构将数据处理、模型预训练与微调、模型推理等环节全部在本地数据中心完成。这种方式的优势在于数据安全性和隐私保护程度较高,金融机构可以完全掌控数据的存储和处理过程,符合金融行业对数据安全和合规性的严格要求。然而,这种方式也存在一些挑战,自行建设和维护大规模算力基础设施的成本较高,且在面对业务峰值流量时可能算力弹性不足。私有云与本地结合的混合云部署:兼顾安全与弹性金融机构将大算力侧置于私有云,利用私有云的弹性计算能力进行模型预训练和微调等计算19腾讯金融研究院|腾讯研究院|毕马威企业咨询密集型任务,而将模型推理环节放在本地进行,实现大规模在离线混部。这种部署方式既能够充分利用私有云的弹性算力资源,又能够保证模型推理的稳定性和数据的安全性。同时,在增强预训练或 SFT 环节,数据可以在私有云中进行处理和分析,进一步提高模型的性能和准确性。公有云/团体云与本地结合的混合云部署:灵活高效金融机构可以在公有云或团体云上完成模型的预训练和场景试验,解耦训练推理资源与环境,而将核心系统及其数据仍然保留在本地。在保证数据安全的前提下,加速大模型的应用落地和业务创新。同时,金融机构可以利用公有云提供的丰富的大模型训练资源和先进的训练工具,快速进行模型的原型开发和验证,当模型达到一定成熟度后,再将其部署到本地进行实际业务应用。团体云场景则专指使用联邦大模型以进行数据共享且能保障数据隐私的技术架构。在金融行业数据合作中,不同金融机构可以通过团体云平台,利用联邦学习技术共同训练大模型,实现数据价值的最大化挖掘,同时确保各参与方的数据隐私和安全。大模型应用部署方式应用部署方式方式特性适用场景本地数据中心全流程封闭式管理,数据零外传全量私有云 本地混合部署训练上云,推理本地,实现计算弹性与数据安全平衡全量团体云 本地混合部署训练上云,推理本地,利用联邦学习技术共同训练大模型,保障数据隐私和安全非核心系统或非强监管场景(建议)公有云 本地生产云端原型验证,本地化部署成熟方案仅使用公开数据或领域数据的 MVP 验证/demo 试验/Agent 探索202025金融业大模型应用报告金融机构在选取部署方式时,需考量当前成熟的算力调度方案、目标场景的数据隐私与模型安全要求,按需选择上述方式。2.2.2 大模型能力建设方式模型能力获取方面,金融业主要采取以下五种方式:端到端自建:金融机构全面掌控从模型训练、优化到部署的全流程技术能力,涵盖算力、算力调度、算法模型及工程落地的全周期;自行采购并搭建算力基础设施,包括高性能的 GPU服务器等硬件设备,以及相应的网络和存储设施;组建专业的数据科学团队,负责从数据收集、清洗、标注到模型训练、验证和优化的全过程。这种模式需要强大的技术实力和资源投入能力。基于基础大模型开发专有模型:金融机构选择闭源或开源的基础大模型,在此基础上,结合自身业务数据进行进一步的训练和优化,开发出具有特定功能的专有模型。例如,与科研机构/高校合作,共同投入资源进行模型训练,共享成果。基于 Agent 编排平台构建大模型应用:金融机构采购私有化 Agent 编排平台及相应的基础设施,将多个大模型或模型组件进行有机组合,灵活地构建和管理大模型应用,实现复杂业务逻辑的自动化处理。Agent 平台通常会集成开源的基础大模型或行业大模型,作为应用编排的模型库。基于大模型 API 开发特定场景应用:金融机构通过调用第三方提供的 API 接口,结合自身业务需求进行应用探索,无需自行搭建和训练大模型。API 接口按 token 计费的模式可以灵活控制成本,适用于在一些非核心业务或非强监管领域的应用场景进行试验。采购具备成熟大模型能力的相关应用:金融机构直接采购市场上已有的、针对金融行业特定业务场景进行过优化的、具备成熟大模型能力的应用软件。21腾讯金融研究院|腾讯研究院|毕马威企业咨询大模型能力建设方式建设方式技术特征适用场景端到端自建全栈自主可控,需大规模算力基建与专业团队支撑强监管、战略引领的能力建设/领域能力的价值深化专有模型开发基于闭源/开源基模进行领域微调,数据安全与性能平衡战略引领的能力建设/领域能力的价值深化Agent 编排平台多模型协同调度,实现复杂业务逻辑的动态组合复杂场景创新试验API 调用模式按需付费的敏捷试验,适合非敏感场景快速验证轻型应用探索/试验成熟方案采购即插即用的行业解决方案,缩短价值兑现周期中小机构数智能力补足*以上建设方式亦可混合并行金融机构在选取建设方式时,需考量当前所处的技术周期、目标场景的可控性与性能要求,按需选择以上能力;当前并无绝对正确的建设方式,开源基模的使用与垂域模型的定制化开发更需理性选择。2.2.3 大模型体系构建路径 模型训练在模型训练侧,分布式并行计算框架构成算力基座,配合混合精度训练、梯度压缩算法等优化方案,以及参数高效微调技术,模型训练效率得以提升,模型规模得以控制,有利于模型轻量化部署,构建了从通用基座到垂直领域模型的参数集约化路径。当前,大模型训练主要包含预训练基座构建、监督微调(SFT)和人类反馈强化学习(RLHF)222025金融业大模型应用报告三大核心环节。当前,金融机构多采用基座模型进行领域知识注入和价值观对齐,仅少数头部机构具备从零预训练千亿级大模型的算力储备与时间。模型应用在模型应用侧,检索增强生成(RAG)技术成为构建可信金融大模型的关键。RAG 技术融合向量化数据库与行业知识图谱,形成数据检索-知识增强-智能生成的动态闭环,推动大模型从通用对话向专业决策场景延伸。该架构类似于开卷考试机制,借助实时数据检索更新,突破了模型静态知识局限,有效缓解了生成内容的时效偏差与事实性错误。目前,在金融领域,超过80%的智能投研、监管合规等场景依赖 RAG 技术实现业务落地。相比之下,单纯依赖提示词工程的原生大模型应用尽管部署快捷,但受制于训练数据的时效性,难以满足高频市场分析等动态场景需求。模型协同(异构模型管理)为了更好地管理和利用不同类型、不同规模的模型,部分领先金融机构正在构建智能化的异构模型协同管理平台。这类平台通过构建动态调度中枢,实现了大模型与小模型的有机协同。平台基于实时流量监测与资源调度算法,系统能精准识别用户请求的复杂度,在轻量模型与超大规模参数模型之间实现毫秒级智能切换,既保障高价值场景的分析深度,又避免算力资源的无效消耗;其次,通过建立模型效果与成本核算的动态平衡机制,平台可依据业务场景的容错阈值和成本约束,自主配置最优模型组合,使单位算力投入产出比提升;再者,平台创新的知识蒸馏机制支持将大模型输出的高质量分析结果反哺小模型训练,形成持续优化的技术闭环。在金融大模型的实践落地中,单一模型难以经济高效地应对所有复杂场景,因此金融机构已经或正在构建功能互补、高效协同的混合模型体系。领先的金融机构正在超越大小模型的简单二元划分,构建一个由基础大模型、领域轻量模型和传统机器学习模型三者有机协同、智能调度的混合智能体系。这三类模型基于自身技术特点,承担不同角色:基础大模型:具备强大的通用知识和复杂的推理能力。它们主要负责处理开放式、探索性的任务,例如宏观经济趋势分析、创新构思等需要跨领域知识的场景,同时也可作为后续领域模型微调的基础。领域轻量/蒸馏模型:这是从基础大模型通过微调或蒸馏等技术,面向特定金融业务优化的模型。它们专注于具体任务,如合规文本审核、智能投研摘要、信贷报告要素提取等。这类模型更轻量、响应更快、运营成本更低,是实现金融业务规模化、高效化应用的核心。23腾讯金融研究院|腾讯研究院|毕马威企业咨询 传统机器学习模型:例如梯度提升树、随机森林等经典算法,在处理结构化数据时依然拥有高精度和高可解释性的显著优势。它们在信用评分、量化交易、反欺诈侦测等场景中,持续发挥着关键作用。这三类模型并非独立运作,而是通过智能化的任务编排平台协同工作。异构模型协同应用示意图当一个业务请求进入系统时(例如,客户发起一笔贷款申请),平台会进行任务的智能分解与调度:首先由一个轻量模型快速识别客户意图并提取申请材料中的关键信息;其次将结构化的数值信息交由传统机器学习模型进行精准的信用风险评分;同时可调用基础大模型对客户所在行业的新闻舆情进行分析,作为辅助判断。最终,系统将三者的输出结果进行整合,形成一份全面的决策建议,供人工审核者最终裁定。这种协同模式,实现了模型能力与业务场景的最佳匹配,在成本、效率和精准度之间取得了有效平衡。242025金融业大模型应用报告2.3 场景落地:从效率工具向决策引擎演进2.3.1 金融业大模型的应用版图金融业的大模应用正从零散的点状尝试,向通用工具、前台业务提升、中台精益管理、后台经营决策四大领域全面渗透。金融业大模型应用全景图25腾讯金融研究院|腾讯研究院|毕马威企业咨询通用工具是金融机构引入大模型技术的基础应用领域,其核心特征为技术通用性强、跨场景适用。此类应用主要面向机构内部,涵盖文档图像处理、智能问答、音视频内容分析、代码辅助生成等多个方面,旨在提升组织内部的运营与研发效能。由于该领域技术成熟度高、应用场景明确、风险相对可控,其所带来的价值直观易衡量,因此成为多数金融机构部署大模型的首要实践领域。其应用主要聚焦于机构内部,以确保信息与业务风险可控。前台业务提升领域直接面向客户价值创造,是决定未来市场竞争力的战略关键。其通过对客户行为、金融产品偏好与潜在需求的深度分析,构建精准客户画像,进而赋能个性化营销与服务能力的升级。应用范围覆盖客户服务、精准营销、投资顾问与投资研究等多个直接关系到客户体验与业务增长的领域。受限于金融场景的严谨性要求、模型输出的可控性挑战以及投资回报率的评估周期,多数相关应用仍处于实验室探索或小规模试点阶段。部分成熟度较高的应用,正通过与传统人工智能模型及人工专家协同的模式进行部署。中台精益管理领域是机构稳健运营的基石,侧重于强化机构的运营效率与核心风险管理能力。通过大模型技术对海量交易数据、市场动态与客户行为模式进行实时分析,能够构建更为智能与动态的风险预警、识别与防控体系。应用聚焦于风险识别、合规审查、反欺诈、智能运营等中枢环节。该领域对模型的可靠性、稳定性与专业性均提出极高要求,通常由金融机构主导自研,或与顶级技术厂商进行深度合作定制开发,是体现机构核心风控能力的关键领域,亦是当前行业探索与应用推广的重点方向。后台经营决策领域旨在支撑组织高效运转与科学决策,主要赋能财务管理、人力资源、开发运维等核心职能部门,以提升内部管理的科学性与自动化水平。在财务领域,应用聚焦于财务报告的自动化生成、预算规划的智能推演以及关键经营指标的预测性分析。在开发与运维领域,大模型在代码自动生成、测试用例生成、系统异常智能诊断等方面展现出巨大潜力,正成为部分领先金融机构探索的创新方向,旨在提升软件工程全链路效率,同时辅助提升相关岗位人员的专业能力与决策质量。在领先机构的实践中,上述四大应用领域正走向由统一 AI 战略驱动的协同共振。以保险科技领域的探索为例,微保与腾讯混元共建保险领域大模型,面向 C 端用户开发智能助手,以解答产品、核保、理赔等问题;同时,在后台自建智能体开发平台,将内容生产、数据分析、质检等环节的 AI 赋能门槛显著降低。这种“内外兼修”的布局,将外部客户价值创造与内部运营效率提升相结合,形成良性循环,代表了金融业大模型应用的方向之一。262025金融业大模型应用报告2.3.2 金融业大模型的演进路径金融业大模型应用路线图备注:气泡半径与场景价值成正比;共 30 个金融机构样本量;以可商用作为技术成熟度高的标准。大模型的应用正从最初的效率提升工具逐步向价值创造引擎演进,并带来了应用场景迭代升级。通过技术成熟度、需求频次和场景价值三个维度,我们绘制了当前的应用现状态势,行业对效率的追求和对业务创新的迫切需求塑造了当前的应用路线:代码管理、知识库问答、智能会议是当前 ROI 最明确、落地最快的场景,是效率工具的典型代表,是所有机构都应迅速布局的基础能力;风险管理、营销管理这些场景价值巨大,需求迫切,但技术仍在攻坚。这是未来拉开差距的关键,需要持续的战略投入和耐心;文本生成与审核等技术成熟,需被整合到其他流程中,适合作为插件或组件快速部署。渠27腾讯金融研究院|腾讯研究院|毕马威企业咨询道运营场景的需求频次和场景价值有所下降,可能是因为更有效的新模式尚未出现,当前投入需谨慎评估 ROI。三大现实因素制约具体场景落地的快慢和效果:可控性:如何确保大模型在复杂金融场景下的输出结果可靠、稳定、可控,仍然是制约大模型场景落地的主要因素。可解释性:大模型的决策过程缺乏透明度,难以解释其推理逻辑,成为试验场景向外推广的核心顾虑投入产出比(ROI):金融机构越来越关注大模型应用的投入产出比,尤其是在推理决策场景中,与传统 AI 方案在推理效率、算力投入与场景价值的优势。受限于上述因素,金融业大模型趋于成熟的应用模式主要体现为以下两个层面:辅助工具:大模型主要作为高效的辅助工具,用于提升特定工作环节的执行效率,但尚不深度介入核心业务的决策流程。典型应用包括辅助编程、文档归纳与信息检索等,旨在优化内部员工的日常工作效能。内容生成:大模型被用于自动化或半自动化地生成各类业务内容,显著提升信息生产的规模与速度,以流程嵌入的形式存在于业务流转中。具体应用涵盖市场营销文案撰写、初步行业分析报告生成、基础数据报表制作以及宣传材料的设计等。与此同时,业界正积极探索更具深远影响的应用模式,其商业价值与技术路径的成熟度尚在验证过程中,主要包括以下几个方向:业务流程再造:此方向旨在构建由智能体深度参与的全新业务工作流,以实现端到端的自动化与智能化。当前,金融机构在此领域进行了大量探索。其中,应用于知识库问答、智能数据查询等场景的智能体技术已相对成熟并投入实际应用。然而,涉及更复杂决策逻辑的投资研究分析、动态风险控制等领域的智能体应用,仍处于深入研究与验证阶段。商业模式创新与业态重塑:此方向包含两个层面。第一,在现有业务框架内,利用智能体技术显著提升客户触达、转化与服务的效率,例如探索新型的智能化零售金融服务模式。第二,基于大模型原生的能力,创造全新的金融产品或服务形态。目前,此类应用在金融行业的实践尚处于早期的概念构想阶段。282025金融业大模型应用报告2.3.3 金融业大模型的应用新形态:智能体智能体(Agent)是基于先进大模型构建的应用实体,具备自主感知环境、决策制定与行动执行的全套能力。Agent 的目标是在无需人类干预的情况下,通过观察现实世界并利用内置及外接工具,自主实现预设目标。Agent 具有以下三个特性:自主性:Agent能够独立于人类干预完成任务,通过深度逻辑推理与预测确定下一步行动方案,以实现最终目标。这种自主性使得 Agent 能够在复杂且动态的环境中高效运作,无需持续监督。适应性:Agent具备卓越的环境适应与策略调整能力,通过持续学习与适应不断优化决策过程,以应对市场条件、用户需求或其他外部因素的快速变化。这种适应性确保了 Agent 在多变环境中始终保持高效。交互性:Agent 能够通过自然语言等方式与用户及其他系统进行高效沟通,准确理解用户查询意图、提供及时反馈、清晰解释决策过程,并与其他系统或 Agent 实现无缝协作。这种交互性提升了用户体验,增强了 Agent 在复杂任务中的协作与执行能力。智能体凭借其任务闭环执行能力和动态环境适应性,成为技术落地的核心载体。这一趋势的驱动力体现在三方面的变化:需求升级,从辅助工具到决策执行。传统大模型多局限于文本生成、问答等单点场景,而金融业对业务流程重塑的需求迫切。Agent 通过整合工具调用、环境感知与自主决策能力,可完成信贷审批自动化、实时风控拦截、投研分析等复杂任务,实现从认知支持到行动闭环的质变。技术适配,突破大模型固有局限。大模型的黑箱性与金融场景的高合规要求存在矛盾。基于大模型增强预训练、微调与对齐的输出后,Agent 通过 RAG、插件能力调用及流程编排模式,可在保障数据安全的前提下提升模型专业性与可解释性。生态演进,从单点智能到系统协同。金融业务流程的复杂性需要 AI 具备协同分工能力,Agent 框架天然支持多工具集成与多角色协作。如 Manus 通过动态调度各类大模型,构建覆盖数据获取、分析、执行的智能工作流,解决了传统大模型只建议不行动的痛点。这种生态化能力使其在股票分析、合规审查等场景中展现出超人类团队的效率。29腾讯金融研究院|腾讯研究院|毕马威企业咨询智能体系统正经历从个体智慧向群体智能的范式升级:单智能体犹如专业领域的超级个体户,其核心价值在于独立完成标准化流程,例如自动生成财务报表或执行简单交易指令。这种形态常见于金融后台的自动化场景,其优势在于部署成本低、响应速度快,但面对跨部门协作、多因素决策等复杂场景时往往力不从心。多智能体协同系统则构建了数字神经元网络,每个智能体如同金融组织的专业化神经元,通过动态协商机制形成分布式决策网络。这种架构在风险管理场景中尤为显著:信用评估智能体、市场波动监测智能体、流动性管理智能体等既保持专业独立性,又通过实时数据共享形成风险联防体系。该架构既能保留了专业深度,又实现了系统韧性,正如现代投行交易中不同策略组的协同运作,通过 AI 实现了毫秒级的决策同步。随着 Agent 应用生态的蓬勃发展,如何高效、规模化地连接模型与外部工具,已成为核心议题。在此背景下,虽然功能调用提供了基础的实现路径,但模型上下文协议则代表了更具前瞻性的生态级解决方案:功能调用(Function Call)聚焦于模型自身能力增强。功能调用是赋予大语言模型调用外部工具能力的基础技术。它通过标准化的方式,让模型能够指定工具并传递相关参数,从而完成特定任务。整个调用与执行过程通常发生在智能体(Agent)的进程内部,即使工具的业务逻辑可能部署在远程。其设计初衷是让语言模型能更精准地使用一组已知工具,从而便于后续对模型的行为进行优化和训练。它本质上是一种模型中心化的解决方案。模型上下文协议(MCP)着眼于构建开放、协作的工具生态。与功能调用不同,MCP 将视角从单个模型扩展至整个生态系统,旨在解决多智能体与多工具之间的协同问题。它通过定义一套统一的标准协议,在工具的调用者(Agent)和提供者(Server)之间建立起沟通的桥梁,从而实现了智能体与工具的彻底解耦。MCP 的核心目标是构建一个开放的、类似“应用商店(App Store)”的工具生态系统。在此生态中:工具开发者可以便捷地将自己的工具发布并融入 AI 生态,无需与特定的智能体或模型进行深度绑定。工具本身增强了复用性,并为商业化(如按次收费)提供了可能,最终提升整个生态的运转效率。因此,MCP 不仅是对智能体与工具交互方式的技术优化,更是一次架构层面的范式革新。它通过构建一个更加开放、灵活且可扩展的生态环境,为未来复杂智能体应用的协同工作与商业化落地奠定了坚实的基础。302025金融业大模型应用报告第三章3金融业大模型建设的核心挑战与应对策略金融业大模型的落地绝非单纯技术命题,而是涉及战略重构与组织进化、数据要素治理、体系融合的系统工程。唯有通过统筹规划、机制创新与持续运营的三维突破,方可实现从实验室盆景到业务森林的规模化跃迁。未来,随着多智能体等技术的渗透,金融大模型将逐步迈向人机共生的新范式,但其成功必然建立在跨学科、跨机构的协同基石之上。31腾讯金融研究院|腾讯研究院|毕马威企业咨询金融业大模型建设的核心挑战与应对策略3.1 金融数字化转型背景下的三大平衡关系金融业对于新质生产力的理解已深化至探索金融科技创新动力的价值经营层面,体现在金融机构对于数字化转型三大平衡关系的策略把控与行动落位上。局部突破与整体效能平衡。数字化转型进入精益发展阶段,金融机构需破解碎片化建设与全局效益的协同难题。当前呈现两大策略趋势:一是投入策略更趋审慎,降本增效类项目占比显著提升,形成收益、风险与成本的动态优先级调整机制;二是构建跨部门协同体系,通过产品经理责任制重塑业业融合模式,建立业务、科技与数据三位一体的业技融合机制。某头部机构已经将一体化写入数字化转型的核心战略愿景,强调数字化治理作为数字化转型总体蓝图实现的根本前提,确立数字化统筹管理职能与组织协同机制,营造数字化转型人人负责、人人参与、人人贡献的文化理念,践行落地数字化任务级实施路径。创新投入与资源效能平衡。在资源约束条件下,领先机构正构建差异化资源配置体系。面向小额创新实践项目,通过更为灵活和容错的管理方式以实现前瞻性、探索性、智能化的创新发展目标。同时设立专项创新基金,通过宽进严出机制激发探索活力,对场景获客、中台建设等方向实施敏捷管理;同时聚焦速赢项目,以短周期试点验证核心价值,形成样板复制、信心强化与良性循环的推进逻辑。某领先股份制银行通过建立金融科技基金并执行专项运作机制,以支持场景及生态建设、中台能力提升、领先技术探索、创新组织与机制建设等方面的创新能力突破。前沿探索与风险防控平衡。金融机构在新技术应用领域呈现审慎创新特征。当前聚焦两大实施路径:数据全周期管理成为逆周期投入重点,通过隐私计算等技术升级安全体系,构建治理-平台-应用-赋能的完整链条;AI 大模型应用强调场景适配性,聚焦技术与场景融合探索,以数据为中心、模型为中枢的业务场景持续把握监管合规、安全风控和增长赋能的平衡。某头部机构以业务引领、数据驱动为策略,已形成从数据治理到业务赋能的闭环体系,但大模型在核心业务场景的渗透仍处于验证阶段。金融业大模型的落地挑战本质上是数字化转型三大平衡关系在智能技术深化阶段的集中映射,需以系统性思维重构技术、数据、组织与商业模式的协同机制。322025金融业大模型应用报告金融业数字化 转型平衡关系金融业大模型 能力体系建设局部突破与整体效能平衡要求大模型建设从单点技术验证转向系统性价值创造。局部场景的算法突破若缺乏与业务流程、数据中台及组织架构的深度耦合,易导致技术能力悬浮于业务需求之上,形成技术孤岛;当前金融机构普遍面临模型能力与业务价值传导链断裂的问题,部分试点项目因无法融入核心风控、客户运营等价值链环节而陷入重复建设。创新投入与资源效能平衡算力基建、数据治理等底层投入的刚性约束,倒逼大模型建设必须实施精准投资策略。当前行业普遍存在大势紧追与场景价值迷失的现象,且仅有少部分机构聚焦 ROI(投资回报率)测算;差异化资源分配的前提是完备的数据资产、充分的业务流程融合基础,以探明 AI 就绪评估分级分类评定速赢项目。前沿探索与风险防控平衡以数据为中心、模型为中枢的业务场景应持续把握监管合规、安全风控和增长赋能的平衡;应用场景的建设由内部效率工具向对外决策支撑审慎推进;以大模型为核心的应用场景当前仍应以人机协同的方式规避风险,尽可能降低由技术成熟度所带来的 AI 幻觉风险;按照监管要求,构建可信 AI 体系。三大平衡逻辑交叉影响面向科技创新与产品孵化的敏捷协作机制;面向复合人才的培养计划与激励机制;AI 影响下的组织、流程的重构式创新。以大模型能力建设为代表的新质生产力在金融业的成功践行从来不是金融科技创新单方面的一腔热血、孤掌而鸣,如何把握由面及点的多层级平衡关系,回归价值经营本质,最大化释放资源效能,是金融机构迈入发展新阶段的必要性命题,也关乎数字金融的发展与未来。33腾讯金融研究院|腾讯研究院|毕马威企业咨询3.2 大模型建设的四大核心挑战与应对策略一切生产力转型的根本目的仍然在于业务增长和管理提效,因此,在金融行业积极拥抱大模型浪潮时,更需要保持冷静,切勿拿着锤子找钉子,盲目追赶技术热点。企业需要立足自身业务,梳理出具备实际产业价值的可落地应用场景,并基于自身丰富的数据语料,训练和调教适合自身业务和管理需求的智能体,使其能够真正解决业务痛点,释放管理效能。更进一步,要推动 AI 应用从单纯的对话机器人模式升级到 Agent,并逐步融入一线员工习惯使用的业务应用系统,让 AI真正成为业务助手,这才是让业务前线具体感知 AI 能力并推动业务智能化转型的关键。尽管引入人工智能已被金融业广泛认可为提升运营效率和客户体验的关键驱动力,大模型技术正重塑金融业态,但其落地过程面临多维挑战。3.2.1 数据挑战:从碎片化资源到规模化语料的转化困境【具体问题】私域数据资产的激活障碍与专业模型能力的供给稀缺:金融机构虽拥有海量高价值的私域数据,但这些数据因系统壁垒而碎片化,导致难以被有效激活,形成统一、可用的知识资产以供大模型实时利用。与此同时,公开市场上缺乏能满足金融风控、财富管理等场景严苛要求的专业训练语料,使得通过传统方式训练或微调出具备深度领域能力的模型成本高昂且周期漫长。这形成了内部知识无法释放、外部能力无法精准补给的困境。非结构化数据向可用知识转化的治理体系缺失:金融业务流程中产生海量的非结构化数据,例如法律合同、信贷审批报告、券商研究报告、财务报表附注以及客户服务中心的语音与文本记录。现有数据治理体系大多围绕结构化数据构建,对于如何从这些蕴含了丰富上下文与深度知识的非结构化载体中进行高效、精准的信息抽取、语义理解与知识连接,缺乏成熟的技术框架与治理标准。这使得大模型无法充分消化利用这些关键信息,其在文档智能审核、市场舆情深度分析、客户意图精准识别等高级应用场景中的潜力因此受到极大限制。面向复杂业务流程的思维链推理与工具调用数据集构建严重不足:金融领域的核心业务,如信贷审批决策、资产配置建议或复杂衍生品定价,其业务逻辑并非简单的问答,而是需要模型具备执行多步骤推理以及与外部数据系统、业务执行系统进行交互的能力。当前行业内相对缺乏能够有效训练并评测模型此类高级能力的专用数据集。没有经过此类数据训练的模型,难以准确理解并顺序执行复杂的金融指令,无法保证业务流程的逻辑严谨性与最终结果的准确性,从而限制342025金融业大模型应用报告了其在核心业务环节的深度应用。【影响分析】模型在金融垂直领域的应用效果不佳,价值难以彰显。由于缺乏高质量的专业数据进行训练与微调,模型对金融领域的专有术语、复杂产品与业务逻辑理解存在偏差,导致其在智能投顾、信贷审批、合规审查等核心场景中表现平庸,甚至出现事实性错误与内容幻觉,无法达到辅助决策或替代人工的预期目标,使得技术投入的商业价值难以实现。自动化测试与验证体系缺失,模型风险难以管控。由于缺乏面向复杂推理与工具调用的高质量测试样本集,金融机构难以对模型的逻辑能力、安全红线与合规性进行系统、自动化的压力测试与持续监控。这导致对模型的行为缺乏充分的预判与控制,一旦模型在实际生产环境中出现误判或违规操作,将可能引发客户纠纷、资产损失或监管处罚,增大模型相关的操作风险与声誉风险敞口。【应对策略】策略 1:实现以终为始的技术能力现代化储备为应对挑战并规避风险,技术能力的储备必须从传统的数据仓库和机器学习平台,向适应大模型范式的新一代技术架构升级。构建统一的数据底座与务实的平台集成策略:依托湖仓一体架构,实现对结构化、半结构化乃至多模态数据的统一管理与高效处理,并利用自动化标注技术提升非结构化数据的标准化速率。同时,清晰规划机器学习平台、数据中台等现有资产与知识管理、LLM 研发运维等新型平台的集成关系。应根据自身资源禀赋与战略优先级,采取利旧与创新结合的务实路径,分阶段、有重点地构建核心能力域,避免重复建设,确保技术投入的精准性与高效性。全面拥抱检索增强生成(RAG)架构:将 RAG 作为盘活内部私域知识的核心技术。通过构建企业级向量数据库,将内部海量的碎片化、非结构化文档与数据转化为模型可检索的知识库。模型在响应用户请求时,能够实时、精准地从该知识库中检索相关信息作为上下文,这不仅能极大提升回答的准确性与时效性,还能有效降低模型产生内容幻觉的风险,确保输出内容有据可循。推行参数高效微调(PEFT)策略与合成数据生成:PEFT 微调:针对特定的、高价值的金融场景,采用 PEFT 技术对基础大模型进行轻量35腾讯金融研究院|腾讯研究院|毕马威企业咨询级微调。该策略利用少量高质量的自有数据,即可获得在特定任务上表现卓越的领域专用模型。合成数据:为解决高质量训练数据不足的难题,可由金融专家提供少量高价值种子数据,利用大模型的数据生成与扩充能力,生产规模化的训练数据。此过程需建立严格的评估机制,确保合成数据的质量、多样性,并规避引入新的偏见。可借助小参数模型进行快速迭代实验,验证合成数据对场景性能的提升效果。构建并治理面向工具调用的 API 框架:将机构内部的业务系统功能(如账户查询、下单交易、风险计算)封装为标准化的 API 接口,并建立一套严格的 API 治理与安全管控机制。同时,构建相应的训练数据,让模型学习理解何时、何种场景下以及如何正确、安全地调用这些工具接口。这是打通模型与实际业务流程、使其从“能说”到“能做”的关键一步。策略 2:推动数据治理与 AI 治理体系的深度融合数据治理必须超越传统的数据质量管理范畴,与新兴的 AI 治理框架进行深度融合,将数据治理前置到业务全流程。实现从数据治理到知识治理的战略演进:将治理的焦点从孤立的数据项,提升到结构化的知识体系。目标是将碎片化的数据、零散的文档、内隐的规则与流程,整合为一个相互连接、可供模型高效理解与利用的机构级知识大脑。具体措施包含:建立覆盖知识全生命周期管理的责任矩阵(RACI),明确知识的版本控制、审核流程与反馈闭环,形成企业级的知识管理体系,构建能够持续自我优化的“知识飞轮”。建立场景驱动的数据与模型迭代闭环:场景化语料工厂:锚定特定灯塔业务领域(如财富管理、风险控制),深度治理其所需的多模态数据,明确数据标准、质量要求与元数据规范,构建面向场景的领域推理数据集与语料工厂。Agent 反馈闭环:面向智能体(Agent)落地场景,建立领域思维链(CoT)的作业与反馈机制。通过系统化收集真实用户的显性反馈(如点赞、投诉)与隐性反馈(如操作路径),形成策略化的数据回流,用以持续优化模型性能与场景价值表现,远期形成以场景 Agent 交互数据为核心的、独特的模型能力禀赋。将数据治理与 AI 模型风险管理一体化:将数据治理作为 AI 模型风险管理的第一道防线。在模型开发与应用的每一个环节,都必须嵌入对数据来源、数据质量、数据偏见、数据隐私与安全的审查与控制。确保输入模型的数据是高质量、无偏见且合规的,这是保障模型输出结果公平、362025金融业大模型应用报告可解释、合规的根本前提,形成覆盖数据到模型的全链路风险闭环管理。将数据治理前置到业务全流程:将数据治理体系与业务创新、产品研发、项目管理、IT 开发等体系有机融合,减少业务、科技、数据由于流程冗余带来的管理羁绊;从业务需求和商业论证之初就开始关注数据要素和数据治理的需求,从结果导向的数据治理逐步转变为源头治理。策略 3:搭建以价值实现为导向的数据资产化框架数据资产化的核心在于其价值的实现,而非形式上的盘点。为此,需要构建一个全新的、以驱动业务为目标的框架,盘活数据价值。建立以业务价值贡献为核心的度量体系:数据资产的价值不应仅通过其规模或完整性来衡量,而应通过其在具体业务场景中创造的价值来量化。需建立一套清晰的度量体系,追踪并评估数据资产在支持大型模型应用、优化核心业务流程(如降低信贷风险、提升营销转化率)、改善客户体验以及增强合规能力等方面的具体贡献与投资回报率(ROI),以此驱动数据战略的持续优化与投入,并为数据资产的会计确认和计量(数据资产入表)提供可靠依据。3.2.2 战略挑战:规划不清与价值验证困难引发的投资失衡【具体问题】(1)战略规划的前瞻性与全局性不足金融机构在引入大模型技术时,其战略规划常表现出一定的局限性,未能充分实现前瞻性与全局性的统一。部分机构可能将大模型视为现有业务流程的补充或局部优化的工具,而未将其置于企业整体发展战略的核心位置。这种视角限制了对大模型颠覆性潜力的认知,导致战略规划多呈现为短期、分散的项目驱动模式,缺乏与公司长期愿景、数字化转型目标以及核心业务发展的深度协同。具体而言,战略规划的不足体现在以下方面:总体战略与机构战略的协同缺失:金融业的总体战略日益强调普惠金融、风险合规与数字化运营。然而,部分机构在制定大模型战略时,未能将这些宏观导向与自身的差异化竞争优势和客群定位紧密结合。例如,大型金融机构需思考如何利用大模型提升全球资产配置和风险管理能力,而中小型金融机构则需探索如何借助大模型能力在特定细分市场或特色业务上实现突破。若战略脱离实际,将导致技术投入与业务发展脱节。对技术发展趋势的认知滞后:当前大模型技术正朝着多模态、轻量化、自主智能体等方向快37腾讯金融研究院|腾讯研究院|毕马威企业咨询速演进。若金融机构的战略规划仍停留在对通用文本生成等基础能力的认知上,将错失利用多模态融合、检索增强生成等技术提升金融场景的覆盖度与可控性,以及部署智能体自动执行复杂金融任务的机遇,从而在未来的市场竞争中处于被动地位。场景选择的广度与深度不足:在应用场景的选择上,许多机构倾向于从成熟度较高的智能客服、营销文案生成等领域切入。这虽然降低了初期落地风险,但也限制了价值创造的空间。战略层面需要更具前瞻性的布局,系统性规划大模型在风险管理、量化投资、合规审查、产品创新乃至组织管理等核心业务领域的应用路径,形成由点及面的推广策略,避免应用场景的碎片化和浅层化。未充分考虑组织与文化的协同变革:大模型的引入不仅是技术升级,更是一场组织变革。战略规划若忽视了对现有组织架构、人才体系、工作流程和企业文化的系统性重塑,将导致技术难以融入业务。例如,数据科学家、业务专家与 IT 工程师之间的协同机制、AI Agent 上线后与业务专家的变革融合等。同时,鼓励创新、允许试错的文化氛围,是保障大模型战略成功落地的基础。(2)价值实现的路径模糊与效益评估的复杂性由于大模型的投入成本高、技术复杂性强,且其影响深远,传统的项目评估方法难以完全适用。价值实现的路径模糊和评估体系的缺失,导致机构在决策时犹豫不决,在实施后难以衡量成效。具体而言,这一挑战体现在:短期效益与长期价值的平衡困难:金融机构的决策往往受短期财务指标驱动。大模型的价值释放通常需要较长周期,其在优化客户体验、重塑品牌形象、激发组织创新活力等方面的长期、无形价值,难以通过传统的投资回报率(ROI)等短期指标来衡量。过分关注短期效益,可能导致机构放弃对具有长远战略意义但短期见效慢的项目的投入。间接效益与隐性成本的量化难题:大模型带来的效益通常是间接的,例如,通过提升客户满意度来增加客户粘性,或通过优化风险模型来降低未来的潜在损失。这些间接效益难以精确量化并归因于特定的技术投入。同时,隐性成本,如数据治理成本、模型持续维护与迭代成本、合规风险管理成本以及组织变革带来的摩擦成本,也容易被低估。缺乏统一的、多维度的评估框架:目前业界尚未形成一套公认的、适用于大模型项目的价值评估标准。金融机构内部往往也缺乏一个能够整合财务指标、业务指标、客户指标和技术指标的多维度评估框架。评估维度的单一化,使得对大模型项目价值的判断出现偏差,无法全面反映其综合贡献。382025金融业大模型应用报告动态调整与持续优化的机制缺失:大模型项目并非一次性交付的工程,而是一个需要持续迭代和优化的动态过程。市场环境、客户需求和技术本身都在不断变化。如果缺乏一个动态的价值评估与调整机制,项目可能会偏离最初的目标,或者无法根据反馈进行及时优化,从而影响最终的价值实现。【影响分析】缺乏前瞻性与全局性的战略规划,将导致大模型应用陷入项目孤岛的困境。机构内部不同部门基于自身需求各自为战,进行重复性的技术探索与系统建设,不仅造成了资金、算力和人才等核心资源的巨大浪费,更形成了新的技术壁垒,增加了未来系统整合与数据贯通的难度和成本。更严重的是,这种碎片化的应用无法汇聚成体系化的、难以被竞争对手模仿的核心能力,使得技术投入仅仅停留在对现有流程的点状优化,而非驱动业务模式变革的结构性重塑,最终导致机构在由 AI 定义的未来金融竞争格局中,因反应迟缓而丧失战略主动权与市场先机。价值路径的模糊与评估体系的缺失,会直接削弱大模型项目获取持续内部支持。即项目虽有初步成果但因价值难以清晰阐释而无法获得推广资源,最终不了了之。这不仅导致前期的技术投资无法转化为可衡量的业务成果,形成了沉没成本,更重要的是,它阻碍了技术与业务的深度融合。当业务部门无法感知到技术的明确价值时,其参与意愿和协作深度将大打折扣,导致模型应用场景无法切中真实痛点,长此以往将动摇组织推动深度变革的信心,使数智变革流于表面。【应对措施】策略 1:构建与企业战略相匹配的大模型战略体系与机制构建与企业战略相匹配的大模型蓝图:将大模型规划提升至公司战略高度,确保其与机构的长期发展目标、数字化转型路径及核心业务策略同频共振。明确大模型在实现普惠金融、提升风险管理能力、优化客户体验等关键战略议题中的角色和贡献,并为不同规模和定位的机构制定差异化的战略重点。建立动态的技术认知与评估机制:组建跨学科的专业团队,持续追踪多模态模型、RAG、智能体、轻量化微调等前沿技术的发展,并定期评估其在金融场景中的适用性和潜在价值。通过技术研讨、外部合作等方式,保持战略决策层对技术趋势的敏锐洞察力,确保战略规划的先进性。系统性规划与分阶段实施应用场景:制定一份覆盖前、中、后台业务的全景式应用地图,并根据业务价值、技术成熟度和数据可用性等维度,确定场景落地的优先级和时间表。采取价值引领、39腾讯金融研究院|腾讯研究院|毕马威企业咨询试点先行、逐步推广的实施路径,先在核心业务领域打造可复制的成功案例,再逐步扩展至更广泛的业务范围,形成规模化效应。推动组织与人才的协同发展:将组织变革作为大模型战略的重要组成部分,建立敏捷的、跨职能的合作团队,打破部门壁壁垒。同时,制定系统性的人才培养计划,引进顶尖 AI 人才,并对现有员工进行技能培训,培育既懂技术又懂业务的复合型人才,营造支持创新的企业文化。策略 2:建立健康、适度的价值评估体系制定兼顾长短期的价值实现路线图:围绕核心业务痛点和战略机遇,设计清晰的价值实现路线图。将最终的战略目标分解为一系列可衡量、可实现的中短期业务目标(OKRs),如将“提升客户体验”分解为“降低客户平均等待时长”、“提升问题首次解决率”等具体指标,从而将长期价值与短期效益相结合。采用“测试与学习”的敏捷评估方法:对于创新性强、价值不确定性高的项目,采用敏捷的测试与学习方法。通过小规模试点快速验证商业假设,并利用试点数据来校准和优化价值评估模型。这种方法有助于降低不确定性,并为更大规模的投入提供数据支持。建立持续的价值追踪与反馈循环:将价值评估嵌入项目的全生命周期管理中,从项目立项、过程监控到事后复盘,进行持续的价值追踪。建立定期的沟通与汇报机制,向管理层和业务部门清晰地展示项目进展与阶段性成果,并根据反馈及时调整项目方向和资源配置,形成一个闭环的价值管理体系。构建多维度的价值评估模型:建立一个超越传统财务指标的综合性价值评估模型。具体体现为:统筹成本管理:建立全生命周期成本核算机制:将算力资源、模型微调、安全对齐等成本纳入财务模型,明确成本归属部门,实现统一管理和核算。可借鉴全生命周期成本(TCO)模型,全面评估大模型应用的总拥有成本。建立跨部门成本分摊机制:针对不同成本类型,制定合理的成本分摊机制。例如将安全对齐成本按场景业务线使用量分摊。管控和业务双指标体系牵引:402025金融业大模型应用报告 构建量化的效益评估指标体系:区分决策类场景和非决策类场景,制定差异化的评估指标。决策类场景关注模型对业务决策的提升效果,如风控场景中的违约率降低比例、风险识别准确率提升幅度等。非决策类场景重点关注模型对工作效率的提升效果,如单位人效、流程效率等。评估模板示例:评估模板一:内部效能提升类场景 ROI 计算模板 适用场景:主要通过节约人工时、提升工作效率来创造价值的场景。核心计算逻辑:将节省的工时量化为人力成本。测算维度计算项计算公式/说明金额(万元)年化收益(A)年化人力成本节约=(B)*(C)*(D)*12 月/10000(B)单次任务节省工时(小时)访谈相关岗位员工,评估 AI 辅助前后单次任务平均处理时长的差异。(C)月均任务发生次数统计相关业务系统的月均业务量或相关岗位的月均任务处理量。(D)相关岗位平均小时薪酬(元)=岗位年均总人力成本(含薪酬、福利、社保等)/(年工作日*8 小时)。年化成本(E)年化总成本=(F) (G)(F)一次性投入成本(年化分摊)=(项目开发成本 首次数据处理成本)/预计使用年限(建议 3 年)。(G)年化持续运营成本=年化平台资源分摊成本 年化人工维护成本。平台资源分摊成本由 AI 平台运营方根据模型调用量、算力消耗等进行核算。核心指标投资回报率(ROI)=(A-E)/E*100%投资回收期(月)=F/(A-G)*1241腾讯金融研究院|腾讯研究院|毕马威企业咨询评估模板二:风险控制与合规增强类场景 ROI 计算模板 适用场景:主要通过降低风险损失、减少合规罚款来创造价值的场景。核心计算逻辑:将规避的损失或节省的成本进行量化。测算维度计算项计算公式/说明金额(万元)年化收益(A)年化风险损失规避=(B)*(C)*(D)(B)相关业务年交易/管理总额统计场景相关的业务总规模。例如,客户流失预警场景中,为目标客群的总资产管理规模(AUM)。(C)预计风险发生率降低值=部署前风险发生率-部署后预计风险发生率。需基于历史数据和模型回测结果进行预估。(D)风险事件平均损失率每次风险事件造成的平均资金损失比例。或 年化合规成本节约如场景为提升合规审查效率,可参考模板一计算人力成本节约。年化成本(E)年化总成本=(F) (G)(计算方法同模板一)核心指标投资回报率(ROI)=(A-E)/E*100%投资回收期(月)=F/(A-G)*12422025金融业大模型应用报告评估模板三:业务增长与创收类场景 ROI 计算模板 适用场景:主要通过提升营销转化率、增加客户价值、创造新收入来源来创造价值的场景。核心计算逻辑:将新增的业务收益进行量化。测算维度计算项计算公式/说明金额(万元)年化收益(A)年化新增业务收益=(B)*(C)*(D)(B)目标客群规模项目覆盖的客户总数。(C)预计转化率提升值=部署后预计转化率-部署前基线转化率。需基于 A/B测试或小范围试点结果进行预估。(D)单客年均贡献价值(元)客户转化后,预计在一年内为银行带来的平均利润或收入。年化成本(E)年化总成本=(F) (G)(计算方法同模板一)核心指标投资回报率(ROI)=(A-E)/E*100%投资回收期(月)=F/(A-G)*1243腾讯金融研究院|腾讯研究院|毕马威企业咨询3.2.3 应用挑战:严监管场景对模型可控性的极高要求【具体问题】大模型在应用中生成的内容与客观事实不符或缺乏事实依据的现象,即模型幻觉,是其在金融领域落地的核心障碍之一。幻觉产生的根本原因在于模型固有的技术局限,包括训练数据的压缩损失与潜在矛盾、特定领域知识的覆盖不足、模型对复杂逻辑的理解能力有限,以及推理过程中固有的概率性。这些通用原因在金融领域被显著放大,构成了更严峻的挑战:金融数据的极端复杂性与高噪音:金融数据不仅包含结构化的财务报表,还涵盖大量非结构化的法律文件、监管公告与新闻舆情。这些数据通常具有低信噪比、高时效性、专业术语晦涩等特点,大幅增加了模型准确理解和推理的难度。金融知识体系的快速迭代:金融市场、产品工具及监管法规均处于高速动态变化中,模型依赖的静态训练数据极易过时,无法及时反映最新的市场状态或监管要求,从而产生与现实脱节的输出。对跨源信息综合研判的刚性需求:金融决策,如信贷审批或投资分析,往往需要模型具备跨越多个段落、甚至多份独立文档进行信息整合、逻辑推理和一致性检验的能力。当前模型在处理此类任务时,信息丢失、逻辑断裂或错误推断的风险较高,容易诱发幻觉。【影响分析】模型幻觉与可控性不足对金融机构的负面影响是深远且多层次的:直接的业务与财务风险:在信贷审批、资产评估、投资决策等核心业务环节,幻觉可能导致错误的信用评级、资产定价或投资建议,直接引发信贷违约、投资亏损等财务后果。即使是极低概率的错误,在金融杠杆的放大下也可能造成严重损失。严峻的合规与法律风险:金融业受到严格监管,对信息披露的准确性、完整性和公平性有极高要求。模型的幻觉内容一旦被用于客户报告、信息披露或监管报送,即可能构成虚假陈述或误导,引发监管机构的巨额罚款。同时,基于错误信息向客户提供建议可能导致法律诉纷,严重损害机构声誉。用户信任的侵蚀与战略推进的迟滞:当客户或内部使用者发现 AI 系统提供的信息频繁出错、不可依赖时,会迅速丧失对机构数字化和智能化能力的信任。这种信任赤字不仅会阻碍当前 AI 工442025金融业大模型应用报告具的采纳,更会影响机构整体数智变革的战略布局,导致在人工智能领域的重大投入无法转化为预期的业务价值。【应对措施】策略 1:技术层面的解决方案高级检索增强生成:替代传统的 RAG 技术,采用如知识图谱检索增强生成等更先进的架构。通过构建连接内部碎片化信息的知识图谱,模型可以进行更精准、更具关联性的信息检索,有效解决因信息不完整或过时导致的幻觉问题,尤其适用于需要综合多份文档进行分析的复杂金融场景。直接偏好优化(DPO):作为新一代模型对齐技术,DPO 通过直接在偏好数据上进行优化,替代了传统 RLHF 中复杂的奖励模型训练环节。这使得模型微调过程更稳定、高效,能够更可控地引导模型生成符合金融行业规范、价值观和监管要求的专业内容,显著提升输出的可控性。系统性评估与验证:建立常态化的模型评估机制,采用专为金融领域设计的、开放的、可复现的评估基准,以能够对模型在真实金融任务中的事实一致性、知识准确性进行全面、量化的评估,作为模型上线前和运行中持续监控其可靠性的重要依据。模型协同与解耦:构建模型协同工作的体系,将具备强大通用推理能力的基座模型与经过专门领域知识训练的、小而精的垂直领域模型相结合。在处理复杂任务时,由基座模型负责逻辑分解与规划,再调用多个专家模型完成具体的、高准确性要求子任务,最后进行结果汇总。这种策略确保了分析的深度与执行的精度。策略 2:管理层面的保障措施建立系统的 AI 模型风险管理框架:将传统的金融模型风险管理体系扩展至 AI 领域,建立覆盖模型全生命周期的治理框架,替代简单的业务兜底机制。该框架应包含以下核心支柱:模型开发与文档化:制定严格的模型开发标准,并要求对数据来源、模型设计、训练过程、已知局限性等进行全面、透明的文档记录。模型清单与集中化管理:建立全机构统一的模型清单,对所有线上AI模型进行集中化追踪、分类和风险评级。45腾讯金融研究院|腾讯研究院|毕马威企业咨询 独立的模型验证:在模型部署前及运行期间,由独立于开发团队的部门进行验证,包括性能测试、稳定性测试、偏见检测和稳健性压力测试。持续监控与审计:部署自动化工具,对模型的实时表现、数据输入分布、输出结果进行持续监控,及时发现性能衰退或数据漂移,并保留完整的审计日志。明确的角色与职责:清晰界定模型所有者、使用者、开发者和验证者的职责,确保问责机制的有效落地。严格的第三方模型治理:对于从外部供应商采购的 AI 模型,特别是“黑箱”模型,必须建立专门的治理流程。这包括对供应商进行深入的尽职调查,在合同中明确要求其提供详尽的模型文档、解释性工具和性能数据,并保留机构内部进行独立测试与验证的权利,以管理供应链风险。强化人机协同与人工审核闭环:在自动化决策流程中嵌入关键的人工审核节点,特别是在高风险或核心决策场景。AI 的输出应被视为对人类专家的决策辅助,而非最终决策本身。这构成了最后的防线,确保所有输出在交付或执行前都经过了人类专家的审核与确认,满足金融监管对审慎经营的要求。3.2.4 能力挑战:技术迭代提速倒逼组织变革与人才升级【具体问题】(1)复合型人才瓶颈战略规划与治理人才的缺失:缺乏能够洞察大模型技术发展趋势,并将其与金融机构总体战略、风险偏好、合规框架相结合的领导者。该人才需要制定企业级 AI 治理体系,平衡创新与风险,确保技术应用符合监管要求。模型应用与业务融合人才的断层:业务团队与技术团队之间存在认知鸿沟。业务专家通常不了解大模型的能力边界与技术细节,技术专家则往往对金融业务的复杂逻辑、合规要求和风险控制点缺乏深入理解,导致研发出的工具无法紧密贴合实际业务流程。模型持续运维与迭代人才的不足:大模型的有效落地不仅是初期的开发与部署,更在于后期的持续监控、评估、迭代与优化。机构普遍缺少能够对模型性能进行长期跟踪,处理模型幻觉,管理数据漂移,并根据业务反馈进行敏捷迭代的专业运维与算法优化人才。462025金融业大模型应用报告(2)跨部门组织协同的系统性障碍传统 IT 架构与敏捷开发模式的冲突:金融机构普遍依赖的、以稳定性和安全性为核心的传统IT 架构,其迭代周期长、流程僵化,难以支撑大模型应用所要求的快速迭代、持续集成的敏捷开发与运维一体化模式。这种结构性冲突导致模型从开发到部署的周期被大大拉长。敏捷模式下跨团队协同障碍,任务目标与激励机制的不兼容:大模型项目的成功依赖于底层平台、数据中台、业务应用和风险合规等多个团队的紧密协作。但各团队的考核指标往往是独立的,甚至相互矛盾。例如,业务团队为快速上线而选择牺牲一部分模型通用性,这与平台团队追求架构长期可扩展性的目标直接冲突,导致决策内耗与资源争抢。短期追求背后的预算难以平衡:大模型应用通常兼具平台级投入与应用级产出的属性。但在传统的预算审批与组织架构下,用于构建通用能力的基础性投入,难以被归属到任何一个独立的业务部门。各个业务线更倾向于申请用于开发本部门应用的短平快项目预算,使得支撑长远发展的、跨部门共享的基础设施建设停滞不前。(3)场景上线后对组织运营与流程架构的冲击与变革人机交互模式的根本性重塑:原有基于固定规则和线性流程的岗位,将被全新的人机协同模式所取代。员工的角色从流程的执行者,转变为 AI 工具的使用者、监督者与优化者。例如,理财经理需要学会利用 AI 生成的投资建议,并结合自身专业判断与客户进行更高质量的沟通。这要求员工具备全新的技能组合,而现有的岗位说明、培训体系和能力模型已失效。决策责任与风险归属的模糊化:在 AI 辅助决策的场景中,一旦出现错误,责任归属变得异常复杂。是批准 AI 建议的一线员工、设计模型的算法团队,还是提供数据的平台部门应承担责任。这种责任链条的模糊化,不仅会引发内部权责纠纷,更可能导致无人敢于在关键节点做出决策,使得 AI 应用难以在核心业务中发挥作用。现有业务流程与组织架构的失效:将强大的 AI 工具塞入为人工操作而设计的旧有流程中,不仅无法发挥其最大效能,反而可能因为流程断点而导致效率进一步降低。大模型的应用要求对整个业务流程进行端到端的重构,这必然会触及甚至打破原有的部门墙与组织架构。【影响分析】关键人才的缺失将导致三个层面的负面影响。第一,战略失焦与资源错配;第二,应用落地水土不服;第三,运营风险与合规风险积聚。47腾讯金融研究院|腾讯研究院|毕马威企业咨询组织协同瓶颈将使得应用重复建设,并不断累积技术债。同时对基础平台投入的系统性不足,使得机构的 AI 能力始终停留在对单个应用的修补上,无法形成规模化、体系化的创新能力,逐渐丧失长期竞争力;协同内耗拖垮项目进程。团队间因目标冲突而产生的持续拉扯,将大量时间与精力消耗在内部协调而非价值创造上,使得项目周期被无限拉长,错失市场机遇。场景上线即性能巅峰,无法充分发挥大模型的演进特性。如若不及时调整岗位技能与工作模式,将导致员工无法有效使用新工具,造成技术投资的浪费,并因技能恐慌而产生对变革的抵触情绪;权责不清将导致无人敢于在信贷审批、风险交易等核心环节依赖 AI,使得大模型应用被局限在非关键的、外围的场景,无法触及真正的价值核心;颠覆性的流程重构必然触动部门利益,若无强有力的顶层推动与清晰的变革管理,极易在中途受阻,导致整个数智变革战略搁浅。【应对措施 面向人才】策略 1:实施分层分类的、与业务场景强绑定的培养计划面向管理者:设计 AI 战略与治理课程,聚焦于大模型的商业价值、应用边界与风险管理,提升其战略决策与顶层设计能力。面向业务专家:开展 AI 赋能业务工作坊,通过真实案例与沙盘演练,使其掌握如何识别业务中的 AI 应用机会,并能与技术团队进行高效沟通。面向技术人才:启动金融领域知识强化项目,使其深入理解特定金融场景的业务逻辑与合规要求,确保技术方案的业务适切性。策略 2:构建内培外引并重、以项目实践为核心的人才发展生态与外部顶尖 AI 公司或学术机构建立战略合作,定向引进成熟人才以快速补齐短板。同时,设立内部创新基金与真实业务场景挑战赛,激励内部员工组建跨职能团队,在解决实际问题的过程中,将外部知识与内部经验相融合,加速复合能力的养成。【应对措施 面向组织】策略 3:建立由高层领导的、具备资源与决策权威的虚拟项目组针对战略级大模型项目,成立由高级管理层直接领导的、跨职能的专项任务小组。该小组被授予独立的预算审批权与跨部门资源协调权,其唯一目标是确保项目的最终成功。通过设定统一的、482025金融业大模型应用报告贯穿所有参与团队的共享 OKR,将所有人的利益与最终业务成果绑定,从根本上解决激励不兼容问题。策略 4:推行平台即服务的内部运营模式将数据、模型训练、合规检查等通用能力,作为标准化的内部服务,由专门的平台团队负责建设与运营。业务应用团队则作为平台的用户,通过调用服务来快速构建上层应用。平台团队的考核指标与其服务的稳定性、易用性以及被业务部门调用的频率挂钩,从而激励其主动提升平台能力,形成良性循环。策略 5:实施嵌入式的风险与合规协同机制将风险、法务与合规专家从项目启动初期就作为核心成员嵌入敏捷开发团队。他们不再是项目末端的审查者,而是在需求分析、数据处理、模型设计的每个环节提供实时指导的共建者。这种模式将合规要求内化为产品设计的固有属性,极大提升了研发效率,避免了因后期发现重大问题而推倒重来的风险。【应对措施 面向变革】策略 6:面向流程嵌入型应用,实施以人机协同为核心的流程再造对于将大模型作为增强工具嵌入现有业务流程的场景,变革的重点是进行精细化的流程再造。具体措施:核心是重新定义流程中人与 AI 的交互节点、各自的权责边界以及信息传递方式。需明确哪些环节由 AI 自动完成,哪些环节必须由人工复核,以及人工干预的触发条件。同时,必须配套建立以人机协作效能为导向的新考核体系。策略 7:面向流程颠覆型应用,推动以终为始的系统性组织变革对于大模型能够端到端重塑甚至完全替代原有核心业务流程的场景,则必须进行更为彻底的系统性组织变革。具体措施:这类变革需要由最高管理层直接驱动,其核心不再是优化局部流程,而是基于未来业务形态,重新设计组织架构。可能涉及撤并原有职能部门,建立全新的、跨领域的 AI 运营与监督中心或人机协同作战单元。变革的成功与否,取决于能否打破部门壁垒,重构预算与资源分配机制,并建立与全新组织形态相匹配的、以最终业务价值为衡量标准的顶层考核体系。49腾讯金融研究院|腾讯研究院|毕马威企业咨询策略 8:启动以人机协同为核心的岗位重塑与赋能计划开展未来岗位画像分析:联合业务与人力资源部门,提前研判受 AI 冲击最严重的岗位,并重新设计其在人机协同模式下的核心职责、能力要求与绩效衡量标准。设计场景化、伴随式的赋能项目:摒弃一次性的通用培训,转而开发与新工具、新流程强绑定的线上学习模块与实操演练,让员工快速掌握与 AI 协同工作的新技能。策略 9:建立清晰的 AI 伦理与决策责任框架在 AI 应用上线前,必须由 AI 治理委员会牵头,联合业务、法律、合规部门,共同制定并发布清晰的 AI 伦理准则与人机决策责任划分矩阵。该矩阵需明确定义不同场景下,AI 的决策权限边界、人工审批的层级与标准,以及出现问题后的追责流程。这为一线员工提供了清晰的行动指引与心理安全保障,是确保 AI 在核心业务中被放心、大胆使用的前提。3.3 金融业大模型落地实践案例与洞察3.3.1 智能理财助理从低风险场景切入,实现价值快速验证背景:本案例聚焦的智能理财助理系统,以生成式大模型为核心引擎,构建 AI 主导 人工辅助的对话式服务模式。通过整合用户交易数据、业务知识库及实时 API 接口,重点解决传统客服系统在复杂多轮对话、个性化服务响应、操作合规性等方面的不足,旨在打造具备拟人化交互、超预期增值服务能力的智能理财顾问。场景定位:根据用户工单数据分析,基金赎回场景呈现三大特征:其一,用户诉求集中于封闭式高频问题,典型问题集中度显著;其二,问题类型以客观事实确认为主,涉及账户状态查询、到账时效确认等可量化信息;其三,相比其他业务场景,该场景的合规风险系数较低。基于此业务特性,选择赎回场景作为首期突破点,既能验证技术可行性,又能有效控制风险敞口。场景难点:回答的可控生成 需同步处理用户交易记录(含时间戳、金额等数值型数据)、知识库结构化条款、FAQ 非结构化文本,模型在数值推理环节易出现计算误差;502025金融业大模型应用报告 训练数据缺失,已有的客服工单数据多为按照知识库内容进行回答,不符合场景要求;开放式对话的产品形态无法限制用户问题聚焦在赎回范围内。RAG 精准召回 金融场景专业术语多,常面临用户提问时用词有歧义、错别字、意图模糊等情况,直接影响传统检索系统召回准确率;多轮意图漂移,连续对话中存在较高的意图转移概率,简单拼接对话历史将导致意图识别准确率下降,需要结合上下文总结出当前用户的真实意图。总体思路:前端部署查询重构模块实现意图净化,后端建立分层知识体系。通过构建业务逻辑框架,将知识库按产品规则、交易流程等维度分类,有效降低信息冗余。专题解决办法:基座模型问题除了基座模型外,其他模块的问题都能够收敛解决并且能够迅速优化上线,最难解决的是基座模型问题,其缺乏基金赎回的业务知识(如活期产品和零钱产品的关系),模型还没有按照业务要求的逻辑和关键点来回答问题,因此需要将业务逻辑注入到模型中,并对其进行微调。将基金赎回规则转化为链式推理模板,构建包含典型场景的微调数据集。通过控制微调数据比例,保持模型在开放域问答中的通用能力。建立动态知识提示机制,将关键业务参数固化至系统提示模板,确保业务规则遵守率。专题解决办法:高质量训练数据缺失面对用户需求的高度复杂性,为保障应答质量需实现三重目标:保持基座模型的通用推理与指令跟随能力,提升场景专业化水平,同时满足拟人化话术要求。基于不同语料储备情况,可制定差异化训练策略:在语料充足时实施增强预训练;语料不足时采用大模型数据蒸馏技术结合人工标注生成大规模数据,并通过调整通用数据与业务数据配比进行有监督微调。核心原则是确保通用能力与场景需求均具备高质量数据支撑,为此重点引入数据合成技术实现高效生成优质场景数据。现实挑战主要来自三方面:真实用户对话样本稀缺、业务专家资源受限、样本快速生成能力不足。针对这些瓶颈,提出并进方案:一方面通过外部知识检索系统增强生成准确性;另一方面构51腾讯金融研究院|腾讯研究院|毕马威企业咨询建专家思维范式,将业务逻辑转化为可执行的思维链,结合动态检索召回机制辅助模型生成。该方案的实施前提是必须保证微调后模型在逻辑推理与指令跟随层面的基础能力不衰减。专题解决办法:大模型幻觉金融场景直接面向 C 端落地需应对双重挑战:既要满足严格的合规要求与数值精确性(尤其是涉及金额计算的场景),又要克服大模型固有的幻觉。由于对话式产品存在开放式提问特性,用户可能提出超出模型能力边界的问题,强行应答将显著增加错误风险。为此构建系统性防控体系:通过三级递进式反思框架严控幻觉生成,首层执行可应答性判断以明确问题处理边界,第二层监控推理链条的逻辑完备性,第三层实施合规与数值精确性终检,形成从问题识别到结果输出的全链路校验。同步建立多级意图识别体系提升生成精准度,设立其他类意图容器归集非赎回类基金咨询、业务无关闲聊等长尾请求,结合意图-API 动态映射机制降低计算复杂度,聚焦核心业务需求响应。经验洞察:场景价值与技术可行性验证:通过大模型与知识库融合方案实现技术可行性验证,在用户体验维度实现突破性提升,具体表现为精准场景适配性、个性化服务能力及 724 小时持续性响应优势;能力协同原则:复杂多轮对话机制在强化场景专业能力的过程中,必须确保基座模型核心能力(通用推理、指令解析等)的稳定性,这是实现精准用户意图理解与有效响应的基础前提;系统工程方法论:大模型应用需构建涵盖数据工程、算法优化、系统架构的完整技术体系。实施路径建议采用单点突破策略:优先在核心业务场景实现极致优化,完成方法论沉淀、技术框架验证及流程标准化建设后,再有序推进多场景扩展,避免盲目追求规模速度;金融应用约束:鉴于金融领域的高严谨特性,需正视大模型存在的幻觉生成、计算偏差及知识边界模糊等技术瓶颈,必须建立兜底方案;迭代协同机制:构建问题驱动-算法优化-产品创新的闭环迭代体系,通过产研协同机制实现能力迭代与功能补位。在模型能力边界外场景,依托产品功能设计实现技术短板的创造性补偿,形成模型能力与产品功能的动态平衡。522025金融业大模型应用报告3.3.2 财富管理风控用领域 LLM 攻克传统 AI 的语义理解难题背景:在用户需求多元化、监管要求趋严的背景下本场景旨在探索如何利用大模型技术,实现对理财顾问对话内容的实时监测与风险预警,有效管理金融风险。场景定位:本方案聚焦理财顾问对话场景的合规风险智能识别,重点解决三个核心问题:第一,在维护客户关系与推动业务增长过程中,如何精准识别理财顾问在服务高净值客户时可能产生的合规风险(包括敏感话题言论、诱导修改风测问卷等);第二,针对口语化对话中存在的语义模糊、上下文缺失等特征,建立适应自然语言场景的风险判定模型;第三,构建可扩展的风险识别体系,满足动态调整的监管要求与业务发展需求。场景难点:其一,月均数十万条对话记录存在显著的自然语言处理难点,包括文本口语化特征显著、语义模糊性突出、主观表述密集,以及对话上下文信息不完整等问题;其二,金融风险判定存在高度复杂性,其判断标准涉及多维模糊边界(如暗示性表述、未经证实的信息、缺乏客观数据支撑及误导性预期等特征),传统上需依赖专业人员的经验型判断。从技术实现层面审视,传统机器学习模型面临两大核心障碍:首先,监督式学习范式需消耗大量人工标注资源,存在标注成本高企与效率瓶颈;其次,模型泛化能力受限于训练数据覆盖度,难以满足金融场景对风险判定的精准性要求。以下为典型风险判例:使用了“预期收益、预期收益率”禁止性词汇;预测基金业绩是对基金未来收益率、净值表现或者市场排名等进行的预测或者承诺,包括:(1)业绩保证:承诺基金将会达到某个具体的收益率或者净值水平;(2)明示或暗示保证:直接或通过含糊其辞的方式暗示基金将会有良好的表现;(3)未来业绩预测:预测基金未来业绩,而没有明确依据且明确指出这只是一种可能性;(4)排名预测:预测基金在未来某个时期内的市场排名或比较基准的表现;(5)未经证实的声明:发布或传播未经证实的基金业绩预测信息。在无客观数据支持下预测或评论个股、行业的业绩;承诺提供符合客户收益率要求的理财产品,误导客户对产品收益的期望解决思路:两种方案并行53腾讯金融研究院|腾讯研究院|毕马威企业咨询方案一:基于金融大模型 Prompt10(风险定义、典型案例)进行识别依托金融领域增强预训练模型,通过融合金融法规文本、风控管理案例等专业语料进行领域适配训练,并针对具体场景实施监督式微调(SFT)。验证测试表明,经专项优化的金融大模型在风控场景具备显著效能优势。具体实施时,采用风险定义框架与典型违规案例构建动态提示模板,通过增量式注入风险特征描述与负向样本实现 prompt 迭代升级。但随着负向案例积累导致的 prompt 复杂度指数级增长,模型幻觉现象加剧,最终引发识别准确率边际效益递减的技术瓶颈。方案二:通过作业与反馈机制构建有监督微调数据集迭代优化针对方案一中负样本无法解决的问题,构建了数据飞轮的反馈链路,首先建立人工校验标注-模型反馈的机制,将专家确认的高价值案例转化为训练数据,其次对原始对话进行语义扩展与对抗样本生成,自动产出合规判定依据说明文本,以此提升微调效果,案例解决率大大提升。经验洞察:通用大模型在垂直场景存在显著领域适配局限。比如在理财师对话风险识别中,通用大模型识别效果没有达到使用预期,而金融大模型由于在增量预训练阶段增加金融法律法规、风险管理书籍、考试等语料,在真实风险识别中表现出较好的能力;过去机器学习等传统解决方案往往需要大量样本和建模调优时间,而大模型 few-shot Prompt 的应用范式,相比数据标注与传统模型,验证了在风险识别,尤其是自然语言(客服、工单等)场景下,大模型具有明显优势,模型准确率及效率可以大幅提升,新模型上线效率从月级到周级;同时能够解决传统技术方案无法解决的少样本甚至无样本、识别效果差、解释性差等的问题;当处于正负样本数据缺失的环境中,合成数据与作业与反馈机制可助力大模型突破效果瓶颈,成为模型迭代的有效手段。3.3.3 超级保险代理人AI 重塑展业与培训新范式背景:保险代理人渠道作为连接保险公司与客户的核心桥梁,其专业能力与服务效率直接决定了客户体验与业务增长。然而,传统代理人模式普遍面临展业效率不高、新人培养周期长、服务质量难以标准化、合规风险管控难度大等多重挑战。尤其在制作保险建议书环节,往往耗费大10Prompt:提示工程542025金融业大模型应用报告量时间进行客户信息整理、需求分析和产品匹配,且难以确保每一次输出都兼具个性化与合规性。因此,某领先寿险公司启动 AI 赋能项目,旨在利用大模型技术,系统性提升代理人渠道的整体效能。场景定位:本案例聚焦于构建一个 AI 代理人智能作业平台,核心解决代理人作业流程中的两大关键痛点:一是通过智能建议书生成功能,大幅提升展业效率与方案专业度;二是通过 AI 模拟销售对练功能,缩短新代理人的成长周期,强化专业销售技能。该平台并非单一工具的集合,而是旨在将 AI 深度嵌入代理人从学习、准备到展业的全流程,实现从辅助工具到智能伙伴的角色跃迁。场景难点:将大模型应用于保险建议书生成与销售对练场景,需克服四重核心挑战:其一,动态知识的精准应用。保险产品条款、核保规则、费率表等知识体系复杂且更新频繁,模型必须能够实时、准确地调用最新信息,任何细微的错误都可能导致方案失效或客户误解。其二,个性化与合规的平衡。一份高质量的建议书,既要深度契合客户独特的家庭结构、财务状况和风险偏好,又必须严格遵循监管部门和公司的合规要求,规避任何形式的误导性销售言论。其三,复杂任务的逻辑推理。建议书的生成是一个严谨的逻辑链条,涉及客户画像构建、保障缺口量化分析、多产品组合策略、保费精算等多个步骤,对模型的多步推理和数学计算能力提出了极高要求。其四,交互式辅导的真实感与有效性。在销售对练中,AI 不仅要扮演一个具有真实情感和异议的客户,还要能作为专业教练,对代理人的话术、逻辑和情感表达进行精准评估,并提供具体、可行的改进建议。解决思路:为应对上述挑战,采用了知识增强与流程编排相结合的总体解决思路。技术路线上,构建了一个由通用大模型、领域微调模型和规则引擎协同工作的混合智能架构。首先,以检索增强生成为核心,构建覆盖产品、合规、销售全流程的动态知识库。这是确保所有输出内容准确、合规的基石,模型在执行任务时,被强制要求从该知识库中检索信息作为决策依据。其次,将复杂的业务流程进行拆解,通过多智能体协作的模式执行。例如,建议书生成任务被分解为客户信息理解、需求分析、产品匹配、文案生成、合规审核等多个子任务,由不同但协同工作的智能体完成,确保了流程的严谨性和专业性。专题解决办法:以智能建议书生成为例 在建议书生成模块中,为确保最终输出的质量,系统性地解决了知识注入和逻辑可控性问题。在知识注入层面,项目团队构建了一个多模态知识库,将 PDF 格式的产品条款、说明书,Excel格式的费率表,以及 Word 文档形式的销售话术、异议解答脚本等非结构化与半结构化数据,通过 ETL 流程处理后,统一向量化存储。这使得 AI 在面对“特定年龄、非标职业客户的重疾险保55腾讯金融研究院|腾讯研究院|毕马威企业咨询费是多少”这类复杂查询时,能精准地从多个数据源中提取、整合信息并作答。在逻辑可控性层面,项目引入了思维链与业务规则引擎相结合的机制。当代理人输入客户信息后,系统并非直接让大模型自由生成,而是通过一个预设的思维链框架,引导模型按步骤执行:第一步,调用客户信息智能体,对输入信息进行结构化整理并生成客户画像;第二步,触发需求分析智能体,根据内置的计算公式(如重疾保额缺口=年收入 5-现有保额)量化保障缺口;第三步,产品匹配智能体根据缺口和客户偏好,从知识库中检索并推荐 2-3 种产品组合,并阐述推荐逻辑;第四步,在所有方案生成后,合规审核智能体启动,利用更侧重于规则执行的微调模型或规则引擎,对建议书全文进行扫描,核查是否存在禁止性词汇、超范围承诺等问题,形成生成与审核的技术闭环。经验洞察:业务流程重构是 AI 成功应用的前提。大模型的价值并非简单替换人工操作,而在于驱动业务流程的再造。在本项目中,成功的关键并非技术本身,而是将传统的、线性的建议书制作流程,重构为一个动态、交互、智能的人机协同流程。该平台并未取代代理人的专业判断,而是将其能力放大。代理人从繁琐的信息搜集和文案撰写中解放出来,将更多精力投入到与客户的情感沟通、对 AI 生成方案的优化微调以及最终决策的把关上,实现了 AI 提效、人增温的理想协作模式。这一协作新范式并非纸上谈兵,其价值已在实践中得到印证:某寿险公司与腾讯云合作的应用实践表明,AI 将代理人从超过 80%的重复性人工录入与复核工作中解放出来,使其能真正聚焦于与客户的情感沟通和信任建立。这种由 AI 驱动的端到端流程再造,其系统性优势更体现在整体运营效率的飞跃上,助力实现了前端单证处理时间从小时级到分钟级、后端理赔周期从数周到 1-3 天的显著优化。知识库是战略资产,而非 IT 成本,知识库的质量决定了应用的上限。高质量、结构化、持续更新的领域知识库,是金融大模型区别于通用大模型、建立专业壁垒的核心。项目实践证明,知识库的建设与运营投入,是确保模型专业性与可靠性的最高价值投资。而这项投资的价值回报是直接且可量化的。例如,某寿险公司依托腾讯乐享构建一个覆盖保险精算、金融法规、业务流程到健康管理等领域的千万级企业知识库,将条款解析准确率提升了 40%,跨领域知识关联效率提高了 60%,为破解复杂场景下的智能决策难题提供了坚实基础。3.3.4 投研报告生成AI 赋能投研决策背景:投资研究业务作为证券公司构建核心竞争力的基石,其产出的专业洞察与价值判断,562025金融业大模型应用报告是服务机构客户与内部决策的关键支撑。然而,传统投研模式普遍面临研究覆盖面受限、信息处理效率低下、知识传承与标准化困难、观点时效性难以保障等多重挑战。尤其在研究报告的撰写环节,研究员需投入大量时间进行海量数据搜集、清洗、分析及基础性内容的撰写,导致其核心精力无法完全聚焦于更高价值的逻辑推理与前瞻性判断上。为应对此困境,某中小券商前瞻性地启动 AI 赋能计划,旨在通过引入大模型技术,系统性重塑投研内容生产流程,提升研究团队的整体产能与专业价值。场景定位:本案例聚焦于构建一个赋能型智能投研工作台。该平台旨在解决研究员工作流程中的两大核心矛盾:通过自动化处理基础研究环节,将研究员从信息与数据的收集者转变为深度洞察的分析者;通过标准化内容生产,确保每一份研究报告的专业性、合规性与品牌一致性。该平台并非单一的写作工具,而是旨在将 AI 能力深度嵌入研究员从选题、资料搜集、数据分析、内容生成到合规审核的全业务流程,实现从辅助工具到智能研究伙伴的角色跃迁。场景难点:实时金融数据的精准融合。投资研究的时效性要求极高,模型必须能够实时接入并准确理解多源异构的数据,包括结构化的财务数据、行情数据,以及非结构化的公司公告、行业新闻、宏观政策文件等,确保所有分析都基于最新、最准确的信息。投研逻辑的深度与一致性。一份有价值的研究报告不仅是信息的堆砌,更需要遵循严谨的分析框架与逻辑。模型需要具备深度推理能力,能够理解并运用如财务模型分析、行业竞争力分析等复杂投研逻辑,并保证在不同报告中逻辑标准的一致性。合规要求与分析师观点的平衡。研究报告必须严格遵守监管机构的合规红线,规避不当陈述或投资建议。同时,报告的价值又在于其独立的分析师观点。如何让 AI 在提供客观数据支持与内容生成的同时,为分析师的独立判断留出空间并确保最终成果合规,是一个核心难点.多模态内容的自动化生成与整合。现代研究报告包含大量的图表、表格等可视化元素。模型不仅要能撰写文本,还需具备理解数据、自动生成相应图表并将其与文本内容无缝整合的能力,保证图文的一致性与专业性。解决思路:以检索增强生成为核心,构建覆盖宏观、行业、公司、产品的多层次动态知识库。模型在执行任何分析任务时,都被强制要求从该知识库中检索信息作为其决策与生成内容的依据。将复杂的研究报告生成任务进行拆解,通过多智能体协作的模式执行。例如,一份公司深度报告的生成任务被分解为数据搜集、财务分析、新闻舆情分析、初稿撰写、图表生成、合规审核等多57腾讯金融研究院|腾讯研究院|毕马威企业咨询个子任务,由不同但相互协同的智能体完成,确保了全流程的严谨性、专业性与自动化水平。专题解决办法:以一篇深度公司研究报告的自动化生成为例在研究报告生成模块中,为确保最终输出的专业质量与合规性,系统性地解决了知识注入与逻辑可控性两大问题。在知识注入层面,项目团队构建了一个多源异构的投研知识中心。该中心能够实时接入并处理多种数据格式,例如通过 API 接口获取的结构化行情与财务数据,通过网络爬虫与订阅源获取的新闻资讯,以及内部存储的 PDF 格式公司财报、Word 格式过往报告等。所有信息经过统一的ETL 流程进行清洗、解析与结构化,最终被向量化存储。这使得 AI 在面对“分析该公司上季度营收同比增长的原因,并结合近期管理层在业绩说明会上的表态”这类复杂查询时,能精准地从多个数据源中提取、整合信息并形成观点。在逻辑可控性层面,项目引入了思维链与业务规则引擎相结合的机制。当研究员发起一项报告生成任务后,系统并非让大模型自由发挥,而是通过一个预设的投研逻辑框架,引导模型按步骤执行:第一步,信息采集智能体启动:根据报告要求,自动从知识中心检索并汇总目标公司的财务报表、历史股价、重大公告、相关行业政策及最新的市场舆情。第二步,数据分析智能体介入:调用内置的财务分析模型,对采集到的数据进行自动化计算,生成核心财务比率、增长趋势分析等量化结果,并识别出关键的财务亮点或风险点。第三步,内容草拟智能体执行:基于前两步的结构化信息与量化结果,并遵循经过微调学习的报告模板与行文风格,自动生成报告的初稿,包括数据描述、基础分析及图表占位说明。第四步,合规审核智能体把关:在初稿生成后,合规审核智能体利用更侧重于规则执行的微调模型或规则引擎,对报告全文进行扫描,核查是否存在夸大宣传、承诺收益等禁止性词汇,并自动添加必要的风险提示与免责声明,形成生成与审核的技术闭环。投入产出分析,该项目精准地平衡了技术投入与业务产出,实现了显著的投资回报。投入分析:技术成本:采用私有化部署的开源轻量级模型,并结合知识库与检索增强生成技术,相较于直接采购或独立训练大规模闭源模型,大幅降低了算力基础设施投入与模型许可费用。582025金融业大模型应用报告 人力成本:项目初期投入数据工程师与资深研究员,共同构建投研知识库与报告模板,形成一次性知识资产投入。通过引入数据合成等技术,可有效降低对业务专家进行大规模人工标注的依赖。实施路径:遵循单点突破与速赢策略,选择从覆盖范围最广的晨会报告与数据点评作为切入点,快速验证价值并积累经验,再逐步扩展至深度行业报告与公司报告。产出分析:核心效能提升:经测算,智能投研工作台将研究员在每份标准报告上的资料搜集、数据处理及初稿撰写时间平均压缩 40%以上。而在部分高频、标准化的业务场景中,效率提升更为极致。腾讯等行业实践已证明,在金融舆情报告这一高频、标准化的业务中,大模型将单份报告的生成时间可从原先的人工 4 小时大幅压缩至 15 分钟内,为市场响应与风险控制赢得了宝贵的时间窗口。交付质量保障:研究团队在不增加人员编制的情况下,能够显著提升研究报告的覆盖范围与发布频次。此外,相关行业实践数据也表明,基于大模型的报告生成在内容准确率方面可稳定在 90%以上,关键信息抽取完整率也超过 85%,这证明了在提升舆情研究的规模与效率的同时,其产出内容的质量同样获得了保障。经验洞察:业务流程重构是流程嵌入型 AI 应用的成功前提。大模型的价值并非简单替换人工操作的某个环节,而在于驱动投研业务流程的系统性再造。在本项目中,成功的关键并非技术本身,而是将传统的、线性的报告撰写工作,重构为一个动态、高效、智能的人机协同生产流程。领域知识库是构建专业壁垒的战略资产。该平台的专业性并非源于通用大模型的语言能力,而是源于其背后高质量、结构化、持续更新的投研专用知识库。这是区分通用 AI、建立自身核心竞争力的关键。实践证明,在知识库建设与运营上的投入,是确保模型专业性与可靠性的最高价值投资。重新定义研究员的价值,人机协同是价值实现的最终形态。该工作台并未取代研究员的专业判断,而是将其能力从繁琐的数据整理工作中解放出来,使其角色从信息处理者转变为思想创造者。研究员将更多精力投入到与产业专家的交流、对未来的前瞻性思考以及对客户的深度服务上,实现了 AI 提效,人增智的理想协作模式。59腾讯金融研究院|腾讯研究院|毕马威企业咨询3.3.5 AI 编程伙伴金融业软件开发提效新范式背景:金融行业作为技术深度应用的领域,其软件开发过程面临独特的挑战。首先,金融业务逻辑极为复杂,对从业人员的专业门槛要求高,开发者不仅需要具备扎实的技术能力,还必须深入理解相关金融知识。其次,金融系统是社会经济运行的核心基础设施,因此对代码的安全与合规性有极高的标准,任何微小的技术疏漏都可能引发系统性风险。最后,为保障数据安全,金融机构的开发环境通常与公共网络物理隔离,这使得外部先进工具的引入流程复杂且审查严格。在上述严苛的条件下,金融机构的开发者在日常工作中面临诸多具体痛点。例如,为理解遗留系统和复杂的业务逻辑,开发者需投入大量时间研读有限的文档,新员工的培养周期长,知识传承高度依赖资深专家,形成了效率瓶颈。同时,开发人员需耗费大量精力编写满足安全规约的重复性代码,并在漫长的手动代码审查流程中等待反馈,这不仅拖慢了开发节奏,也难以完全避免人为疏漏。物理隔离的开发环境限制了对外部开源工具和知识库的访问,而业务层面又要求产品快速迭代以应对市场变化,导致研发效率与业务敏捷性之间的矛盾日益突出。场景定位:为系统性应对上述挑战,本案例聚焦于为金融开发者打造一款 AI 辅助编程提效工具,旨在成为员工的智能编程伙伴。以腾讯云代码助手 CodeBuddy 为例,此类工具的核心价值在于将大模型能力深度嵌入软件开发全生命周期,提供包括编码辅助(代码补全与生成)、智能问答与诊断(技术问答、代码诊断、单元测试生成)、代码质量保障(智能评审)、团队知识沉淀(知识库管理、Rules 规范管理)以及代码智能化、多研发任务自动化(如通过软件开发智能体Agent 实现 AI 深度理解需求、批量生成多文件代码)、研发生态打通(兼容 MCP 生态协议)等在内的端到端的综合性能力。解决思路:通用能力与行业特性的深度融合为精准应对金融行业的特殊挑战,方案采用通用基础能力、行业特性增强与企业级定制相结合的三层策略。首先,在通用基础能力层面,方案依托性能强大的基础模型,提供高质量的代码补全、代码生成与技术问答等功能。这些功能能够基于代码上下文进行多行、精准的逻辑预测与生成,普适性地解决所有开发者的基础效率瓶颈。具体体现在:代码补全:模型能够理解当前代码文件的上下文,包括已定义的变量、函数签名、引入的类库以及整体代码逻辑,从而提供行内或整段代码块的补全。补全场景覆盖了从简单的变量名、API 调用,到复杂的业务逻辑函数体、循环与条件判断语句,以及特定框架所需的样板代码。602025金融业大模型应用报告 代码生成:开发者可通过自然语言注释描述需求,如 CodeBuddy Agent 智能体自动检索代码仓库,深度理解用户需求,根据关联代码片段或知识库、图片或 Rules 规范召回数据,制定执行计划,自动生成完整的功能代码。典型生成场景包括根据注释创建单元测试用例、依据数据库表结构生成数据访问对象(DAO)与数据传输对象(DTO)、基于功能描述生成正则表达式或SQL 查询语句,以及实现完整的算法或业务处理函数。技术问答:开发者可选中代码片段,向 CodeBuddy 提问以获得功能解释、逻辑梳理或优化建议。CodeBuddy 还可用于快速定位并修复程序错误,或根据问题提供相关的 API 文档说明与最佳实践范例。其次,在行业特性与企业级定制层面,方案通过以下技术路径解决前述痛点:应对高专业门槛:通过检索增强生成(RAG)技术,将企业内部的代码库、技术文档、API 规范等私有知识资产整合为模型可检索的知识库。开发者能够通过自然语言查询,精准召回私域知识库,方便开发者快速获取关于复杂业务逻辑和历史代码实现的说明与范例。这相当于为每位开发者配备了一位全天候可用的、精通本企业业务的资深技术专家,显著缩短了新老员工的学习曲线,促进了知识的有效流转。应对高安全合规要求:构建多层级的代码质量保障体系。在编码阶段,通过在集成开发环境(IDE)中内置由模型基于项目工程、Project Rules 规则约束进行驱动的代码静态分析,依据企业内部的安全规范与历史漏洞数据进行实时诊断,提前预警潜在风险和提供修复意见。在代码审查阶段,通过代码仓库 Web 端和 IDE 端双管齐下,基于团队评审规则,一方面利用模型自动生成代码变更摘要,另一方面基于规范对不符合合规要求的代码进行检测,提出修改建议,作为前置审查环节,提升人工审查的效率与准确性。此外,通过在经过严格审计的企业内部高质量合规代码上对模型进行精调训练,确保模型生成的代码本身就具备高度的内生安全性与合规性。应对高开发环境要求:提供成熟的私有化部署方案,将整套 AI 代码助手系统以容器化的形式部署在企业内网,实现与公共网络的完全隔离,确保所有代码与数据均在企业内部流转,满足金融行业对数据安全和环境隔离的最高标准。同时,通过自动化能力提升敏捷性,例如一键生成需求单、设计稿,批量生成代码,一键生成单元测试用例以及测试报告,根据代码逻辑自动创建 API 文档,结合日志与代码上下文智能推荐调试方案等,将开发者从重复性劳动中解放出来,使其能够更专注于核心业务逻辑的创新与实现,从而有效加速开发进程。61腾讯金融研究院|腾讯研究院|毕马威企业咨询项目成效:AI 代码助手已成为大模型在金融行业落地最广泛、成效最显著的应用之一,并已经在银行、证券、保险等金融机构推广。在某头部金融机构,已有超过 8000 名程序员在日常工作中使用。腾讯云 AI 代码 CodeBuddy 的实践数据显示,该工具普遍可达到 40%的字符生成率和 30%以上的代码采纳率。综合代码生成、智能问答、代码诊断和自动化测试等能力,可为研发团队带来超过 40%的整体编码效率提升,有效缩短了新产品和新功能的上线周期。经验洞察:数据治理与模型安全是落地的前提。金融机构在引入 AI 编程工具时,必须建立严格的数据治理框架,确保用于模型训练与检索的内部代码、文档不包含任何敏感信息。同时,私有化部署环境下的模型自身安全、访问控制与输出内容审计机制是保障技术应用合规与风险可控的必要条件。试点验证与量化指标是建立信任的基础。在金融机构内部,新技术的推广需审慎。建议选取代表性的业务线(例如核心交易、风险管理)开展小范围试点,并建立与业务目标强相关的量化评估指标,例如缩短监管需求响应时间、降低生产环境安全漏洞数量等。通过试点获得的实证数据是获得管理层与业务部门支持的关键。深度适配是跨越可用到好用的桥梁。AI 编程工具的价值不仅在于提升通用编码效率,更在于与金融机构特有的安全协议、合规框架及私有代码库深度整合。通过私有化部署、检索增强生成和模型精调等技术手段,使工具能够理解并生成符合本机构规范的代码,是实现其业务价值最大化的核心路径。无缝集成是工具广泛采纳的关键。工具的价值最终需要通过开发者在日常工作和场景中使用来体现。基于腾讯内部及外部大量用户使用场景和诉求,CodeBuddy 提供 AI IDE、终端场景CLI、Plugin 插件等交付形式为开发者提供更好的开发体验,其中 Plugin 插件兼容几乎所有主流IDE(包括 Visual Studio Code,JetBrains 系列、Visual Studio、微信开发者工具等),并无缝嵌入开发者已有的工作流,是降低使用门槛、实现技术广泛推广与采纳的必要条件。3.3.6 金融智能体从概念验证到应用的探索金融投资研究领域作为一个高度依赖知识和分析的行业,面临着三大瓶颈:海量信息带来的认知过载,不同来源数据形成的信息孤岛,以及核心经验随人员流动而流失的知识断代。622025金融业大模型应用报告以资产管理行业为例基金经理和研究员的工作常被重复性的信息搜集所占据,如手动查询公司公告,整理和汇总财务数据,并时刻监控市场新闻和政策变化。这些繁琐的任务不仅易于遗漏,还严重削弱了用于策略制定和深度分析的宝贵时间。此外,现有内容生成工具在准确性和实效性方面存在较大差异,导致内容生成质量参差不齐。在这一背景下,构建能够理解自然语言指令、自动处理信息并根据统一标准进行初步分析的智能投资研究 Agent,已成为提升投研效率、释放核心人才创造力的关键。智能体(Agent)在金融投资研究这一知识密集型领域展现出巨大潜力。一、市场主流金融大模型应用的模式为解决上述瓶颈,市场上已涌现出几种 AI 投资研究应用模式:嵌入式终端助手:以 Bloomberg GPT、Wind Alice 为代表,将 AI 嵌入现有的复杂终端,通过自然语言交互,自动翻译成终端可以执行的精确指令或者专有的代码,将用户的问题编码成查询向量(embedding),匹配已编码的独家后台数据进行比对,并与 LLM 进行多模态生成。用户不再需要记忆复杂的指令,降低了专业工具的操作门槛。增强型搜索引擎:利用向量检索技术在海量、半结构化的文档中实现精准的信息定位,并通过指令生成结构化简报,实现“在 200 页的财报中找一句话”的效果。同时整合专家访谈纪要库并对非结构化对话内容进行向量化,优化信息检索与分析。企业知识管家:利用知识图谱、向量检索等技术,将企业隐性知识转化为结构化资产。一类如 Glean,旨在通过分析文档关联找到内容及专家,以提升协作效率,但需要针对金融场景做二次开发和适配;另一类如腾讯乐享,作为企业级知识库平台,侧重于知识治理,通过严谨的权限管理和动态更新机制,并支持私有化部署,以满足金融等行业的核心安全合规需求。智能体工作流:该模式的实现平台主要分为两类:一类是 Zapier 等在传统流程中融入 AI 决策的自动化平台;另一类则是 Dify、腾讯云智能体开发平台等专注于原生智能体编排的开发平台。它们的共同点在于都提供了低代码/无代码界面,让用户能编排多工具,创建复杂的自动化工作流,快速构建更垂直和定制化的 AI 应用。例如,在实验中,一个自动股票交易助手可自主监控实时指数(如 RSI),交付大模型推理决策,并自动调用交易平台的 API 完成交易。二、当前金融大模型应用的能力边界AI 的应用仍主要集中在信息处理阶段,缺乏成熟且稳定的独立分析与决策能力。智能体依赖63腾讯金融研究院|腾讯研究院|毕马威企业咨询于检索增强生成(RAG)架构高效提取信息,能高效地回答“是什么”和“在哪里”,但无法可靠地回答“为什么”和“会怎样”。此外,RAG 支持的问答生成仍存在幻觉。例如,部分国产大模型在研报问答中的准确率为 90%,问题出在检索阶段的上下文和语义丢失以及生成阶段的缺乏数据库具体事实依据。AI 擅长共识检索消化和生成,而投资的竞争优势源于非共识洞察。高阶的 AI 智能体,其价值不仅体现在对买方共识(Buyside Consensus)内信息的快速响应、做到正确检索被市场充分定价(Priced-in)的数据,更在于从另类数据中挖掘并理解增量信息,发现超越市场共识的阿尔法机会。若缺乏针对性的领域知识训练与模型微调,AI 难以洞悉原始数据背后的含义,无法从原始、嘈杂的数据中有效地区分出真正的投资信号与随机噪声。市场应用呈现出专业深度、开放生态与无缝集成三者难以兼顾的局面。拥有最深金融护城河的平台生态较为封闭;拥有大量专家内容的平台核心生成能力依赖外部;拥有原生工作流的平台则缺乏金融专业性。能完美兼顾三者的解决方案,至今尚未出现。应用的推广必须首先确保信任与合规性,避免因过度依赖技术而削弱市场信任。对于中国本土金融机构而言,数据安全与合规是不可逾越的红线。海外模型对我国特有政策语境和市场环境的理解偏差,加之数据出境的合规风险,是海外应用的最大障碍。这为基于本土大模型的解决方案提供了巨大的发展机遇,其在中文能力、数据安全和私有化部署成本上的优势将愈发凸显。在当前发展机遇下,如何通过扎实的技术工程实现真正的创新和智能化,避免“AI washing”11透支市场信任,是全球大模型企业面临的重大挑战。三、以 MCP 协议构建金融 Agent为破解上述能力边界与生态困境,业界正在探索以模型上下文协议(MCP)为代表的新技术路径。MCP 协议通过提供统一标准,使得不同 Agent 能够发现并调用通用工具,解决了开放性与专业性的矛盾。在这一架构下,每个 Agent 可以专注于自己最擅长的领域,而 MCP 的多视图和调用机制则负责将这些平行且专业的技能模块有机串联,形成协同效应。11 AI washing:即夸大 AI 能力、过度包装 AI 概念以获取市场关注和投资,但实际技术水平有限的行为。642025金融业大模型应用报告金融 Agent MCP 开放协同生态然而,在 MCP 协议架构下,智能体依然面临多个挑战:Agent 的固有问题。主要体现在三个方面:一是可能不完全遵循指令,执行超出预期范围的任务;二是可能产生模型幻觉,编造不存在的工具或参数;三是面对复杂问题时效率低下,易陷入长时间的无效推理循环。在对高风险领域(如金融投资决策)应用时,幻觉导致的错误信息可能会导致重大损失,并且由于模型自身的局限性以及缺乏有效的自我修正机制,往往需要人工干预。灵活性与可靠性的冲突。纯 Agent 模式的灵活性高但可靠性不足,而传统的固定工作流模式则相反。当前的最佳实践是采用混合模式:一方面,用固定的工作流来强化 Agent 能力,特别是在金融领域,需补充背景知识(如当前时间、金融术语/字段映射、股票代码)。通过 RAG 知识库在 Agent 调用工具前提供这些信息,可提高工具调用成功率。另一方面,未来的发展方向是采用多 Agent 协作来应对复杂任务,将大任务分解,由规划 Agent、执行 Agent 等构成的虚拟65腾讯金融研究院|腾讯研究院|毕马威企业咨询团队协同完成,以提升系统鲁棒性和处理能力上限。MCP 工具的精准调用难题。即使有统一协议,Agent 如何精准选择和调用工具仍是难题,且当前高质量 MCP 市场工具数量有限。模型可能更倾向使用自然的表达方式而非工具定义的特定函数。针对此问题,可采用更准确、精简、自然的工具描述,或探索使用小模型总结工具功能,或通过反思 Agent 检查参数有效性。MCP 连接到生产数据库存在潜在的安全风险。虽然 MCP 主要用于开发环境,但如果其启用了可访问互联网的工具,就可能暴露出攻击向量,攻击者通过这些工具能够获取数据并将其外传。在使用如代码编辑类等工具时,Agent 可能会被赋予过高的权限。如果客户提交的请求中包含恶意构造的指令,Agent 可能会将这些指令误解为执行命令并进行操作。只要 Agent 拥有足够的权限,且未构建有效的安全策略,攻击者就可以利用这一点进行攻击,绕过防火墙和基于角色的访问控制,从而导致数据泄漏。四、发展金融 Agent 的思考在技术突破方面,首先需要构建金融领域的因果推理体系,帮助 Agent 理解财务指标和市场事件之间的逻辑关系,并结合符号推理与神经网络建立混合推理架构。同时,重点关注非共识信息挖掘,特别是另类数据的预处理与特征工程,提升 Agent 在识别市场未充分定价信息方面的能力。此外,提升系统的可靠性至关重要,这包括引入不确定性量化技术,让 Agent 能够识别自己的知识边界,并主动寻求人工确认,尤其是在高风险决策时。为进一步提升系统鲁棒性,需要构建自我修正体系,通过多层验证机制减少模型的幻觉风险。在多 Agent 协作方面,建议通过构建一个由规划 Agent、数据收集 Agent、策略分析 Agent 和决策执行 Agent 组成的虚拟团队,将复杂任务分解,并通过专业化协作提升整体决策效率和质量。此外,增量信息提取技术应结合时间序列分析与异常检测,帮助 Agent 更好地识别市场动向与潜在风险,从而增强决策的前瞻性和准确性。在生态整合方面,需要从标准化体系建设入手,首先通过优化 MCP 协议,推动金融行业特有的工具调用规范、数据接口标准及风险控制协议的建立,确保不同厂商的 Agent 在安全性与准确性方面达成统一标准。同时,通过进一步优化 MCP 协议,提升不同工具间的兼容性和协作能力,简化接口设计,减少 Agent 调用过程中的干预需求。在专业工具生态构建方面,建议鼓励金融数据供应商和研究机构开发标准化的 MCP 工具,形成涵盖数据分析与风险控制的完整工具链,提升工具的质量评估机制,通过基准测试和用户反馈不断优化工具的准确性和成功率。在开放合作模式方面,支持金融机构和行业联盟的建设,推动共同制定技术标准,分享最佳实践,避免重662025金融业大模型应用报告复建设。与此同时,探索“平台 生态”模式,由核心平台提供基础设施,第三方开发者贡献专业工具,共同打造良性循环的生态系统。在可信体系构建方面,首先需要构建分级安全架构,根据数据敏感程度和业务风险等级设定差异化的安全控制策略,确保高敏感数据得到本地化部署和加密处理。权限控制机制需要严格限制数据库访问权限,并通过特定安全 API 进行,防止指令注入等攻击手段。在本土化适配保障方面,建议基于国产大模型构建金融 Agent,确保其对中国市场环境和政策语境的准确理解,并建立中文金融语料库和知识图谱,提升模型的专业能力。同时,确保 MCP 协议与国内安全要求和监管政策兼容,通过私有化部署与数据加密保障数据的安全性。在监管审计体系方面,建议建立实时监控机制,记录 Agent 行为,通过动态日志和异常检测确保决策过程的可追溯和可解释。同时,加强合规流程,在 Agent 调用任何工具之前,嵌入背景知识注入和强化 RAG 流程,确保决策的合规性和准确性。67腾讯金融研究院|腾讯研究院|毕马威企业咨询第四章4大模型驱动金融业发展的趋势展望正如水和电力重塑了人类社会的基础设施,远期来看,大模型也将深刻影响金融的运营模式,提升效率,释放更强大的潜能,驱动一场效率、智能和模式上的深刻变革,支持金融更好服务实体经济发展,助力金融强国建设。682025金融业大模型应用报告大模型驱动金融业发展的趋势展望大模型将在未来五年引爆金融业的临界点,触发的不是缓慢演进,而是一场深刻的范式革命。这场革命并非简单的“机器换人”,而是将人类从重复性劳动中解放出来,推向更具创造性、战略性和判断力的角色,并在此过程中创造出全新的职业。4.1 金融服务的专业化和普惠化进程提速过去,尖端的金融分析能力、复杂的风险建模和高度定制化的财富管理策略,如同奢侈品,是少数大型机构和高净值客户的专属。随着高性能开源模型的涌现、模型训练和部署成本的下降,金融机构构建和应用大模型的门槛显著降低,有利于通过 AI 将这些专家级的能力,从金字塔尖逐步下沉至一线,推动普惠金融发展。金融世界充满了复杂的信息和数据,普通用户往往深陷其中,难以做出有效决策。AI 的核心价值之一,便是利用 AI 快速处理海量信息的特点,为普通用户在复杂的金融场景中进行信息降噪,提供清晰、易懂的决策支持。其次,传统金融 APP 和软件的操作往往需要一定的学习成本,随着 APP 和软件的用户界面正从传统的图形用户界面(GUI)向语言用户界面(LUI)演进,用户不再需要学习复杂的操作,只需用自然语言下达指令,AI 便能代替用户使用金融工具,进一步降低使用门槛。综合以上两点,AI 将打破高端金融服务的稀缺性,将原本高度集中在机构和高净值客户的专家级能力,诸如复杂的投资研究、精密的风险建模、专业的合规文本解读,转化为 AI 服务,普及至更广泛的中小机构乃至个人投资者,从而开启一个全民普惠的智能金融新时代。为了实现这个愿景,行业仍需共同克服数据质量、模型可靠性、合规性及伦理等多重挑战。4.2 金融产品更加实时、动态、超个性化多模态大模型正在重构金融服务逻辑。新一代大模型已实现文-图-音-视频的无缝转换。在金融场景中,在确保合规与用户授权前提下,这意味着可以通过分析语音语调、面部微表情、交互行为等非结构化数据,更深入地理解客户需求和风险状况。例如,在远程视频服务中,结合声纹和行为分析辅助身份验证和风险评估;在智能投顾交互中,通过理解客户的语气和表达,动69腾讯金融研究院|腾讯研究院|毕马威企业咨询态调整沟通策略和产品推荐。这种多模态融合有助于构建更立体、精准的客户画像。基于对用户全维度、实时行为数据的动态捕捉与分析(如交易记录、地理位置、设备使用习惯),结合语音情感识别、微表情分析等生物特征解析技术,金融机构正从静态功能交付转向动态场景适配。例如,车险保费可根据驾驶行为的实时反馈动态调整;信用卡额度可能因用户临时的大额消费计划而临时提升;投资组合则会随市场波动与投资者情绪变化自动再平衡。这种“流媒体式”的服务模式将打破传统金融产品的静态框架,推动服务范式从千人一面向千人千时千面跃迁,即同一用户在不同时间、不同场景下获得的服务逻辑个性化。借助多模态交互和生成式 AI,数字员工的能力将大幅提升,并实现更强的个性化和情感连接。这包括:跨渠道的身份与对话记忆、在不同设备终端上保持一致的交互体验、以及根据用户画像和偏好定制沟通风格与服务流程的能力。这种个性化生态将金融软件从工具属性升维为有温度的金融伙伴,通过建立情感连接提升用户粘性与生命周期价值。4.3 人机协同重新定义金融运营与管理模式金融业依赖大量人工的后台开发与运营、中台审核及部分前台交互环节,将越来越多地利用AI 进行流程再造和效率提升。例如,在信贷审批、保险理赔、交易清算等流程中,AI 将承担更多的数据处理、模式识别、风险评估和初步决策建议工作。在投资分析、风险预警等更核心的领域,AI 强大的数据处理和预测能力,将为人类专家提供更精准、高效的决策支持。然而,AI 的应用并非旨在完全取代人类,而是构建更高级的人机协同模式。人类的角色将向监督者、策略制定者、复杂问题解决者和最终决策者转变,专注于设定目标、监督 AI 运行、处理异常情况、进行关键判断,并负责维护客户信任和伦理规范。AI 执行与分析,配合人类监督与决策,将成为金融运营的新常态。大模型的技术迭代对金融人才的能力结构提出了更高、更综合的要求。除了传统的金融专业知识,从业者需要增强 AI 应用与管理能力、定义复杂问题的能力、跨领域整合能力,以及与 AI高效协作并确保其安全合规运行的能力。人类独有的批判性思维、创造力、同理心、伦理判断以及建立信任关系的能力,将更加凸显其价值。702025金融业大模型应用报告4.4 高价值数据的挖掘与应用的重要性提升金融领域对模型的专业性、精准度和时效性要求极高,单纯依赖海量通用数据已不足以构建前沿、具有竞争力的模型,私域数据的利用会进一步释放金融 AI 应用的核心价值。金融机构需要更注重数据精炼,通过构建领域知识图谱、优化特定任务数据集的方式提升训练数据的价值密度,基于思维链 CoT 方法构建的推理数据集,使模型具备更强的专业知识和因果推理能力,同时优化算力效率。在各大模型厂商以公开数据作为模型训练基础的前提下,金融机构构建的 AI 应用的竞争优势,来自于对机构内部私域信息的深度挖掘和利用,特别是客户交易数据、电话会议记录、专家访谈等。面对高质量金融数据稀缺且获取成本高的问题,合成数据技术成为重要的补充手段,特别在处理长尾事件、极端风险、新型欺诈模式时尤为关键。例如,合成数据可用于扩充反洗钱模型的训练样本、生成压力测试所需的极端市场情景数据等。然而,必须谨慎验证合成数据的质量和分布,并有效结合真实数据,采取如合成数据预训练和真实数据微调的策略,避免模型偏见或与现实脱节。金融决策往往需要综合处理来自不同来源和形态的数据,如财报文本、市场行情(时序数据)、交易量(结构化数据)、新闻舆情甚至另类数据。多模态大模型的训练目标是实现跨模态信息的有效融合与语义对齐,使模型能够像人类专家一样,从多维信息中发现关联、洞察趋势,进行更全面的分析与预测。高价值金融数据往往高度敏感,在挖掘数据价值的同时,必须严格遵守隐私保护法规和伦理规范。隐私计算技术(如联邦学习、安全多方计算、同态加密、差分隐私等),在保护数据隐私前提下,进行模型训练和数据协作,例如,机构间可在不共享原始数据的情况下共建风控模型。未来,数据价值的实现将与透明度(如模型可解释性、数据溯源)和安全性(如合规脱敏)的要求紧密协同。4.5 AI 驱动监管科技提升和治理体系升级AI 对金融稳定性的影响已上升为全球监管重要议题。大模型在金融领域的广泛应用带来了新的监管挑战,主要包括:透明度风险,即算法黑箱导致的透明度不足问题;时滞性风险,即技术快速迭代与监管规则更新之间的时滞;共振性风险,即模型趋同可能引发的系统性风险放大效应(如市场共振、顺周期行为加剧)。71腾讯金融研究院|腾讯研究院|毕马威企业咨询以 AI 来驾驭 AI,可推动监管科技(RegTech)进入新的发展阶段。大模型强大的非结构化数据处理与关联分析能力,有效弥补了传统模型依赖结构化数据的短板,能够高效整合分析新闻报道、研究报告、社交媒体情绪等信息,深度洞察风险事件背后的舆论环境与逻辑链条,从而更准确地判断异常波动的性质。另一方面,其动态学习能力使其能够持续适应和发现新型风险模式,当监测到负面舆情与异常交易量等多元信号并发时,能将孤立信号关联判断,提升对黑天鹅与灰犀牛事件的早期预警能力。对此,可以利用大模型构建智能合规审查系统,自动解析、比对多司法辖区监管规则;建立早期风险预警模型,向预测性、主动性监管转型;以及优化监管沙盒机制,在可控环境中测试和评估创新 AI 应用的潜在风险。然而,大模型在风险管理领域的应用仍需构建人机协同、专家把关的决策闭环。大模型擅长发现相关性,但难以有效判断因果性,这可能导致其对风险的分析停留在表面症状,无法触及深层病灶,甚至被虚假关联信号误导。大模型在生成内容时可能出现幻觉,叠加其训练数据源于开放互联网,涉及不实信息、偏见和噪音等信息污染问题。许多风险的研判依赖于深厚的领域知识与专业常识,而大模型对此类基于真实世界经验的系统性理解力仍然严重不足。因此,构建人机协同、专家把关的决策闭环是其在风险管理领域安全应用的必然要求。面对 AI 的能力及风险,金融机构作为 AI 的应用主体,应进一步完善内部治理体系,构建覆盖 AI 应用全生命周期的可信治理框架,在创新与合规之间取得平衡。这包括:对 AI 供应商和模型的准入评估;运营阶段对模型性能、偏见和稳定性的持续监控与审计;建立模型风险的应急处置和退出机制;以及积极落实可信 AI 原则,加强模型可解释性研究,保障在关键决策点上不可或缺的人工监督与最终否决权。通过监管科技与合规 AI 的协同发展,最终实现敏捷监管与负责任创新的动态均衡。4.6 复合型、创新型金融人才需求正在形成大模型正在深刻变革金融行业的组织结构与人才需求,其影响并非简单的岗位替代,而是对各层级岗位职责的系统性重塑,并催生出人机协同的全新工作模式。这一轮转型正沿着执行层、专业层与新兴岗位三个维度展开,对金融机构的人才战略提出了新的要求。现有岗位的职责内涵正在发生结构性演变。在执行层面,大量重复性、规则导向型的工作,如标准化的数据录入与核对、初级信贷审查报告撰写等,正逐步由自动化技术实现。AI 显著提升了对结构化与非结构化数据的处理能力,使得该层级员工的角色正从任务的直接执行者,转变为对自动化流程进行监控、对异常事件进行处置的监督者。初级岗位员工以极小的比例向业务一线722025金融业大模型应用报告转岗,机构应为其提供合理的职业发展路径和激励机制。在专业层面,AI 日益成为辅助专业人士进行深度分析与决策的智能助手。通过赋能精准营销、智能风控等复杂场景,AI 帮助客户经理或风险经理等专业人员,提升了决策效率与质量,其职能也随之向数据驱动的策略分析师方向演进。伴随技术与业务模式的创新,一批全新的岗位有望应运而生。这些新兴职位聚焦于人机协同与 AI 治理的关键环节。例如,智能体编排工程师负责设计与优化基于大模型的自动化业务流程;数据伦理与治理专家则专注于确保 AI 应用的数据合规性、算法公平性与决策可解释性,维护内外部数据质量与知识体系。面向流程颠覆型的 AI 应用场景,衍生出 AI 行为分析师、AI 对齐工程师等专业岗位。AI 行为分析师则通过分析 AI 决策逻辑与反馈信号,判断 AI 系统是否存在系统性偏差或决策偏误;AI 对齐工程师聚焦大模型的伦理偏好、情感表达偏好,通过多轮交互式提示进行引导、对齐和校准,并建立可持续的演进策略。73腾讯金融研究院|腾讯研究院|毕马威企业咨询报告团队 顾问司晓|腾讯集团副总裁、腾讯研究院院长湛炜标|腾讯金融科技副总裁、腾讯投资合伙人杜西库|腾讯金融科技副总裁胡利明|腾讯云副总裁策划柳晓光|毕马威变革咨询数字化转型业务牵头人、“智慧之光”数智解决方案主管合伙人好好|腾讯云战略研究院院长杜晓宇|腾讯金融研究院秘书长周梦|腾讯金融大模型应用负责人主笔陈楚仪|孙箐阳|储宁研究支持杨海松|王江涛|许文浩|洪庚伟|李晓聪|阿梅|贾飞|刘辉刘毅|孔德远|王成|马晓芳|刘玲|卢晓明|陈春歌|巴洁如 2025金融业大模型应用报告联合出品
2025-08-23
83页




5星级
未来网络技术发展系列白皮书(2025)AI大模型跨域训练池化调度技术体系白皮书第九届未来网络发展大会组委会2025年8月 版权声明版权声明 本白皮书版权属于紫金山实验室及其合作单位所有并受法律保护,任何个人或是组织在转载、摘编或以其他方式引用本白皮书中的文字、数据、图片或者观点时,应注明“来源:来源:紫金山实验室紫金山实验室等等”。否则将可能违反中国有关知识产权的相关法律和法规,对此紫金山实验室有权追究侵权者的相关法律责任。编写说明编写说明 主要编写单位:主要编写单位:紫金山实验室、江苏省未来网络研究院 主要编写人员:主要编写人员:周俊、孙远、刘准、张晨、高新平、杨彩云、孙婵娟、王春生、肖玉明、梁木 特别鸣谢特别鸣谢:新华三、天数智芯、浪潮信息、中兴通讯、中国电信 I 前 言 AI 大模型的跨域训练是全球范围关注的前沿技术方向,它是指将多个不同的智算中心组合在一起训练同一个 AI 大模型。为什么需要跨域训练?业界通常的认知在于,当大模型未来发展到万亿、十万亿参数规模时,根据 Scaling Law 需要用到万卡甚至十万卡才能完成其预训练过程,这样的体量规模如果集中到一个集群内部,在技术、能源、配套等方面都存在着严峻的挑战,因此需要通过网络连接多个集群并加以组合,以共同训练同一个万亿/十万亿的大模型。实际上自 OpenAI 发布 GPT-4 后,业界就一直在围绕下一代 GPT的需求进行跨域训练的探索。这样的认知与实践自然无可厚非,它更多地关注于通用大模型的发展问题,是一种“少数人的游戏”。DeepSeek 发布 V3/R1 后,通用大模型不可逆地走上了开源路线,原有牌桌上“少数人”中的大部分又被迫离场,目前已变成了“几个玩家的游戏”。一个令人焦虑的问题是,虽然打牌的人越来越少,但牌桌却无法自动缩小反而仍在不断扩大,这于我国而言是十分明显的。根据国家数据局最新数据,我国算力总规模已排在全球第二位,但由于诸多方面的原因,我国的高端智能算力领域却同时面临着“少、杂、散”的客观困境。破局点在哪?让我们重回 2023 年底关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见(简称意见),意见在基本原则中明确指出“充分发掘重点行业算力需求,盘活存量 II 算力资源”,“探索异属异构异地的算力资源并网调度技术方案和商业模式”,其中即蕴含了破局之道。DeepSeek 开源后,虽然通用大模型的玩家廖然无几,但却极大地带动了行业的算力需求,企业不仅可使用“DeepSeek 知识库”进行推理,还可以基于“DeepSeek 数据集”通过后训练培养出自身专属专用的“企业大模型”。与通用大模型“广而杂”不同,“企业大模型”需要的是“专而精”,百亿级参数通常足够日常生产使用,一次后训练的算力需求大多在几十卡的规模,卡的型号并不追求高端顶尖,出于成本考虑这些企业通常也不会为后训练自建集群,通过租用算力会更经济实惠。与通用大模型预训练“开一单、吃三年”的“算力房地产”模式不同,企业大模型后训练更适合薄利多销、细水长流的“算力网调度”模式,在全国一体化算力网的服务能力加持下,千行百业按需消纳“异属异构异地”的存量算力资源,把“少数人的游戏”变回“一群人的生态”。AI 大模型跨域训练池化调度-技术体系白皮书(简称白皮书)的编制,是基于未来网络团队多年来在 AI 大模型跨域训练与算力网调度方面结合实践的创新成果。与业界面向于通用大模型在“同属、同构/异构、同城/异地”资源上的拉远部署技术路线有所不同,未来网络专注于企业大模型在“异属、异构、异地”资源上的池化调度技术路线,通过“广域确定性网络 智算资源并网 算网协同调度”三位一体的技术架构,可真正实现“异属合训、异构混训、异地同训”的池化调度能力。III 白皮书围绕技术体系视角,对于 AI 大模型跨域训练池化调度的参考架构、关键技术、试验评估等进行了详细的介绍。希望能够通过本白皮书的内容,为业界树立基于“异属异构异地”资源的 AI 大模型跨域训练池化调度范式,为实现全国一台超级计算机的宏伟目标走出未来网络创新路径。IV 目 录 前 言.I 目 录.IV 一、背景与概念.6 1.1 AI 大模型.6 1.2 跨域训练.8 1.3 池化调度.10 二、技术路线分析.11 2.1 专用算力拉远.12 2.2 全局池化调度.14 三、AI 大模型跨域训练池化调度.15 3.1 总体架构.15 3.2 计算通信重叠的跨域训练框架.17 3.3 跨广域的算网存协同调度.19 3.4 异属异构智算资源池化并网.21 3.5 光电融合广域确定性网络.24 四、关键技术创新与突破.26 4.1 异构混训.26 4.2 异地同训.31 4.3 异属合训.57 五、验证与评估.72 V 5.1 试验环境.72 5.2 测试验证.73 六、总结与展望.88 6 一、一、现状现状与与挑战挑战 1.1 AI 大模型大模型“训练推理”这一范式脱胎于早期的深度学习模型,CNN、DNN、RNN 等 AI 模型等虽已具备模型训练、参数优化的框架,但其规模相对有限,训练通常使用单机单卡或单机多卡即可完成。与之相比,AI 大模型的核心特征即在于其庞大的参数量(通常达到百亿、千亿乃至万亿级别)和基于超大规模数据集(TB 级别)的训练,这一过程所需的 GPU 核心和显存资源远超单机承载能力,对分布式并行计算架构提出了前所未有的极高要求。早期模型的分布式并行计算架构通常采用中心化的数据并行架构,以 1 个参数服务器(PS,Parameter Server)为总协调控制 N 个工作节点(WN,Worker Node)并行计算,流行于 TensorFlow 框架的开发生态。随着 GPT 类大模型的发展,去中心化的 3D 混合并行架构(DP 数据并行、TP 张量并行、PP 流水线并行)得到广泛应用,PyTorch也逐步取代 TensorFlow 成为业界事实标准。GPT-4 的问世,将专家并行叠加于 3D 并行之上形成混合专家架构(MoE,Mixture of Experts)。不久前 GPT-5 发布,据有关预计其参数量已达到十万亿量级。如此大规模的模型,来源于全球对于通用人工智能(AGI,Artificial General Intelligence)的狂热追求,以及扩展法则(Scaling Law)7 的持续作用。它们基于互联网上爬到的数据进行训练,要花费成千上万张甚至数十万的 GPU 资源才能训练出来,虽然可以陪人闲聊、回答问题甚至求解方程,但却无法知道的企业流水线的工艺制造方式、学校对学生的个性培养计划、医院为老人的病症诊疗方案。这些大模型被称为“通用大模型”,它知道的很多很杂、但不深不准。如果要让大模型真正服务于千行百业,需要的是把“通用大模型”与行业数据充分结合,再通过算力加工成“行业大模型”。目前,“行业大模型”的发展正处于初期阶段,DeepSeek-V3/R1在年初的开源,使得动辄千万的商用大模型成本直降为 0,企业真正享受到了“大模型平权”:不仅可使用“DeepSeek 知识库”进行推理,还可以基于“DeepSeek 数据集”通过后训练培养出自身专属专用的“企业大模型”。与通用大模型“广而杂”不同,“企业大模型”需要的是“专而精”,百级参数通常足够日常生产使用,一次后训练的算力需求大多在几十卡或百卡的规模,卡的型号也并不追求高端顶尖。出于使用频次和成本考虑,企业自身通常也不会为后训练自建本地集群,通过租用算力会更经济实惠。然而一个客观的情况是,企业并不情愿到公有云上租用算力,简而言之就是“数据传不出、网络运不动、算力信不过”,因此年初DeepSeek 爆火后业界发展一体机的形态更符合现实的需求,但一体机通常只能推理无法训练,企业只能靠知识库“查字典”,而无法学习数据集“举一反三”。行业大模型的发展之路,仍存在巨大挑战。8 1.2 跨域训练跨域训练 AI 大模型的跨域训练,是指将一个大模型的训练任务切分到多个智算中心进行协同训练。在大模型出现前,一类面向 PS 架构较为常见的实现,是对模型采用“分级部署 数据压缩 异步训练”的思路,将数据集拆分到多个智算中心进行跨域数据并行。大模型出现后,面向 3D 并行架构的思路是将模型参数拆分到不同智算中心,根据不同的拆分方法,可将 DP 或 PP 流量基于广域网进行传输,而 TP 和 EP要求超低时延、巨大带宽通常只能在智算中心内部、甚至智算服务器内部通信。跨域训练是全球范围关注的前沿技术。于我国而言,由于智算的产业生态存在着诸多特殊之处,跨域训练也面临着额外的挑战。简言之,我国在高端智算领域正面临着“少、杂、散”的客观困境:(1)受限于 AI 芯片封锁政策,英伟达等先进型号的 AI 芯片极为稀缺并进一步被各路运营渠道所瓜分;(2)国产 AI 芯片 GPGPU、NPU、ASIC等不同技术路线并行发展,同时受英伟达高速发展的牵引不断衍生出各种型号;(3)诸多地方政府将智能算力纳入公共基础设施建设,AI芯片通过各地基建项目被分流至不同城市或区域。针对于此,关于深入实施“东数西算”工程加快构建全国一体化算力网的实施意见(简称意见)中,提出“探索异属、异构、异地算力资源并网调度的技术方案与商业模式”,以此寻求破局之道。“异属”“异属”即各智算中心运营主体是多元化的,如不同市场性质的 9 企业、不同行政管辖的园区、不同的高校科研院所等;“异构”“异构”即智算中心间技术架构上是差异化的,如所用服务器中智算芯片的厂家、架构、型号,内部网络的拓扑与协议,集群软件的管理与控制等;“异“异地地”即智算中心在地理位置上是分散化的,如位于同一城市的不同园区、同一省份的不同城市、不同省份乃至跨东西部区域等。“三异”可组合出多种情况,技术上最简单的情况是单个智算中心的“同属、同构、同地”,最复杂的情况是多个智算中心的“异属、异构、异地”,而我国的 AI 大模型跨域训练就面临着“异属、异构、异地”的巨大技术挑战:“异属”“异属”挑战挑战在于各主体彼此独立规划、建设并运营自身的智算中心,当这些智算中心并入算力网并运行同一个训练任务的不同部分时,由于各资源自身的内部网络规划、管理控制平台、对外运营服务等方面存在着巨大的差异化甚至冲突性;“异构”“异构”挑战挑战在于不同厂家、不同架构、不同型号智算芯片间的适配问题,当同一个训练任务的不同部分运行在多种智算芯片之上,由于各芯片自身的算力/显存大小、互联拓扑/性能、算子库/通信库等方面存在诸多的差异性;“异地”“异地”挑战挑战在于当多个位于不同城市或区域的智算中心运行同一个训练任务的不同部分时,智算中心之间的网络传输带宽、时延/抖动、丢包/乱序等问题会对并行流量产生不同程度的影响;上述“异属”、“异构”、“异地”中任意问题,都可能会导致训练任务执行效率的大幅下降甚至无法运行,而“异属”、“异构”、“异地”10 的组合,更加剧了问题的严峻性。1.3 池化调度池化调度 在 DeepSeek 开源之前,通用大模型预训练是一种可称为“算力房地产”的生态模式,算力的供需双方线下签订合同并交付资源,通过手动部署调优运维的方式开展训练过程,而线上更多是一种过单的操作形式。DeepSeek 开源后,通用大模型的玩家骤然减少,很多“算力房地产”的“模型入住率”大大降低。当大量算力资源被释放之后,如何能够通过“算力网调度”对算力资源进行在网的动态消纳,就成为了亟待解决的迫切问题。业界目前讨论更多的是“算力调度”,何为“算力网调度”?这里,需要先对“算力调度”正本清源。随着东数西算工程与全国一体化算力网的浩荡展开,各类所谓的“调度平台”竞相上岗,深藏在规模建设后的是技术路线的鱼龙混杂。目前来看,大体有以下几类:(1)云计算门户(传统)云计算门户(传统),其业务本质是“用户自选”(供应商/地域/卡型),“歧视定价”(目录价高/线下折扣/周期返点),其商业本质是“算力自营”(自建自销),“纯供方市场”(供方对定价达成联盟协议);(2)多云管理工具(过渡)多云管理工具(过渡),其业务本质是“用户自选”(供应商/地域/卡型)、“代开代维”,其商业本质是“算力管理”,严格说其应属一种工具而不是一种运营模式,为需方提供了管理便利,但不改变云计算的供方市场格局;11(3)算力交易电商(现状)算力交易电商(现状),其业务本质是“信息集中公开”(规格/定价)、“供需交易撮合”(过单/抢单),其商业本质是“算力中介”,随引入渠道服务有利于转为需方市场,但不具备调度能力;(4)算力调度(演进),)算力调度(演进),其业务本质是“任务式服务”(目录价低/按需启停/精准计量/效用付费)、“租机器调任务”,其商业本质是“算力经销”,即先批发再加工转零售,本质上仍属于供方市场且弱化了渠道属性;(5)算力网调度(目标)算力网调度(目标),其业务本质是“任务式服务”(最优匹配/按需启停/精准计量/效用付费)、“调度推荐”(交互式调度/算网协同/全流向调度),其商业本质是“算力分销”,通过调度连接强化渠道服务,充分向需方市场引导。东数西算的终极形态,需要算力网调度来保障支撑。目前,业界对于算力网调度技术的探索刚刚起步,“三异”资源的封装抽象尚未有成功案例。虽然像“用水、用电”一样“用算”已成为大家经常谈起的目标,但实际上我们在智算领域面对的仍然是“多口小水井”而不是“一汪大水池”。如何能够让一个 AI 大模型通过调度系统自动调动、分发到多个“异属异构异地”智算中心去训练,而无需用户关心归属、架构、位置,在全球范围尚无先例。二、二、技术路线分析技术路线分析 AI 大模型跨域训练,业界目前已有诸多实践。国内三大运营商从 12 异地角度切入,纷纷基于其新型广域网能力开展了多样化探索,从同城数十公里、跨城数百公里、跨区域千公里级,逐步强化异地尺度。国内有关模型与芯片公司,从异构角度切入,开展了国产卡与英伟达卡间的异构管理、混合训练。近期,上海人工智能实验室联合中国电信、中国联通发布了跨 1500 公里的异构混训成果,标志着业界对于算力网池化的认知逐步升级。但较为遗憾的是,业界虽有较多发声,但对于其中的细节却甚少披露。不过,从有限的信息中依然能够管中窥豹。无论业界前期的何种尝试,从全国一体化算力网的角度而言,均尚停留在“异地”和“异构”层面,“异属”均未涉及。同时,业界绝大部分实践都是基于手动配置调优,鲜有端到端全流程自动化调度。本节首先分析业界应用场景与技术路线,同时给出未来网络的应用场景与技术路线,以便读者在进入后续技术章节之前,能够更加清晰地把握个中逻辑。2.1 专用算力拉远专用算力拉远 对于 AI 跨域训练,业界的主流认识来自于这样一个预测:当大模型未来发展到万亿、十万亿参数规模时,根据 Scaling Law 需要用到万卡甚至十万卡才能完成其预训练过程,这样的体量规模如果集中到一个集群内部,在技术、能源、配套等方面都存在着严峻的挑战,因此需要通过网络将多个集群进行连接,以协同训练同一个万亿/十万亿的通用大模型。基于这种认识,业界在 AI 跨域训练中所采用的技术路线,可以 13 理解为主要是面向通用大模型场景。不过,客观而言这是一种“少数人的游戏”,尤其在 DeepSeek 开源之后,目前玩家已所剩无几。不过,考虑到 AGI 的战略意义,这种探索实践仍具有重大价值。这种业务场景的特征在于:(1)基础设施为通用大模型所专用,对于万卡/十万的规模体量而言,基础设施上运行这个一个大模型即完全足以“开一单吃三年”,合同签订后一手交钱一手交货,用户自身对于基础设施的理解比算力服务商可能还要高出 1-2 个段位,平台的标准化交付反而会拖累模型性能,而且动辄千万甚至过亿的成交额,也不适合基于平台线上成交;(2)用户通常会精心选择所用的智算中心,即使需要跨域也会尽可能地选择“同城、同构”的机房,不会为了“异地、异构”而舍近求远、舍本逐末,异属就更加不会考虑;(3)智算中心的数量会控制在 3 个以内,以控制系统复杂度。因此,对于用户和算力服务商而言:算力专用于特定的大模型,所有算力资源最好能在同一个机房,如果确实难以实现会尽量把服务器就近搬到同属、同构、同城的机房。技术路线方面,上述业务场景意味着 2 到 3 个特定智算中心的点对点互联,集群管理的服务器直通,以及模型部署的透明化运行:(1)网络方面网络方面,通过光纤直驱或者 OTN 电路交换提供点对点的硬管道带宽;(2)调度方面)调度方面,无论智算中心分布均以一套 K8S 类管理系统直接管理服务器资源;(3)模型方面)模型方面,单个集群内部的 Megatron 等框架最好完全透明地移植到新的环境之上。因此,上述业务场景与技术路线,我们将其称为“专用算力拉远”,14 本质上是对于单集群本地训练的“环境复刻”,这是一种纯商业驱动的市场行为,算力网的生态模式显然并不在其考虑范围之内。2.2 全局池化调度全局池化调度 与通用大模型预训练“开一单、吃三年”的“算力房地产”模式不同,企业大模型后训练更适合薄利多销、细水长流的“算力网调度”模式,在全国一体化算力网的服务能力加持下,千行百业按需消纳“异属异构异地”的存量算力资源,把“少数人的游戏”变回“一群人的生态”。这种业务场景的特征在于:(1)基础设施被不同用户的企业大模型所复用,企业大模型的一次后训练,可能就是几十张卡训练 3 天,用户自身对于基础设施的理解基本为 0,最好能通过平台进行“傻瓜式”的操作;(2)用户并不关心某次训练所用的智算中心,无论是哪一家供应商、使用何种处理器架构、跨越多远的距离,能够快速、便宜地把模型训练出来,是用户唯一关心的问题;(3)不直接排斥在一次训练任务被调度到多个智算中心,只要对速度影响不大、不会增加太多额外成本,就都可以接受。因此,对于用户和算力服务商而言:用户希望能够屏蔽掉与底层资源有关的任何细节,只要模型精度、训练时间、算力成本有所保障;算力服务商愿意尝试与其他服务商训练同一个用户训练任务,只要模型能够无障碍地运行、算力费用能够清晰划分。技术路线方面,上述业务场景意味着“异属异构异地”的“全局 15 池化调度”:(1)网络方面)网络方面,需要通过全互联的路由交换网络实现一线接入全局可达,同时需要保障延迟、带宽与丢包、抖动;(2)调度)调度方面方面,需要实现分层跨域的调度结构,以解决异属的跨运营主体调度以及异地的算网协同调度,同时需兼顾异构算力的自动适配;(3)模)模型方面型方面,尽可能地降低跨域传输的数据体量,必要时需实现大模型框架与广域网络的联动优化。因此,上述业务场景与技术路线,我们将其称为“全局池化调度”,本质上是将全局“三异”资源进行统一抽象,对于用户提供无差别使用,将“多口小水井”变为“一汪大水池”,真正实现“用水用电一样用算”的目标算力网生态。三、三、AI 大模型跨域训练池化调度大模型跨域训练池化调度 3.1 总体架构总体架构 大模型跨域训练池化调度架构如图 1 所示,整体呈现出分层解耦的设计理念,可划分为业务层、管控层、资源层三大核心层级。其中,业务层作为需求入口,负责接收各类大模型训练任务请求,并将其转化为标准化的任务描述;管控层作为架构中枢,通过协同调度机制和资源编排策略,实现跨域资源的统一管理与池化调度、大模型作业的拆分与部署;资源层则作为算力底座,整合分散在不同地域的数据中心、云平台等异构计算资源,为训练任务提供可预期的算力支持。这 16 三层架构相互协作,形成高效的闭环调度体系,有效提升大模型跨域训练的资源利用率和训练效率。图 1 总体架构 业务层聚焦跨域训练任务资源需求与有限供给的适配难题,核心技术包括大模型跨域训练框架、需求解析、模型与数据集管理等,可将训练任务切分为适配异地异构资源的子任务,动态调整并行策略以降低跨域通信依赖,提供“一次提交、全域执行”接口。管控层针对多主体资源协同调度与全局优化难题,涵盖协同调度、算力调度、存储调度、网络调度等技术,旨在打破异属异地资源权属与管理边界,通过统一资源视图实现跨域算网存资源协同匹配。资源层围绕异构硬件兼容互通与长距通信高效可靠难题,由异构智算资源、长距 RDMA、光电融合确定性广域网等构成,构建“算力存储网络”一体化跨域资源底座,屏蔽硬件异构性,突破广域网瓶颈,提供高可靠、低抖动的底层支撑。大模型跨域训练池化调度技术体系是一套面向大模型跨域训练 17 场景的系统性解决方案,部署拓扑结构示意图如图 2 所示。图 2 系统拓扑结构示意图 多地的智算资源通过算力并网接入广域网,形成智算资源算力网拓扑结构。智算资源物理并网时,可在智算资源与广域网间部署RDMA 网关,以提供长距 RDMA 通信能力。与此同时,智算资源逻辑并网时,智算中心的存算管控将分别于大模型跨域训练平台的任务调度、存储调度的接口对接,提供至上而下的任务、数据调度能力。广域网的网络管控和 RDMA 网关将均与平台的网络调度对接,以提供跨域智算资源的高质量网络服务能力。3.2 计算通信重叠的跨域计算通信重叠的跨域训练框架训练框架 在大模型跨域训练场景中,通信效率是制约训练性能的关键瓶颈,通过计算与通信重叠流水线、非阻塞 GPU 通信及流水并行通信量优化等技术的协同应用,可显著降低跨域通信对带宽的依赖,提升整体训练效能。这三项技术从时序优化、资源隔离、数据精简三个维度形成互补,在跨域场景中协同降低通信对训练效率的制约,为大模型跨 18 数据中心联合训练提供了关键技术支撑。(非阻塞)Send_Forward(非阻塞)Recv_Forward(非阻塞)Send_Backward(非阻塞)Recv_Backward计算与通信重叠的流水线.APIGPU张量与CPU张量转换跨域CPU张量传输非阻塞GPU通信流水线并行通信量优化 图 3 计算通信重叠的跨域训练框架(1)计算与通信重叠流水线模块计算与通信重叠流水线模块 计算与通信重叠流水线技术通过精细化的任务拆解与时序编排,在流水线稳定运行阶段实现所有 GPU 通信操作与计算过程的完全掩盖。其核心在于将大模型训练任务按层拆解为连续的子任务单元,当某一层计算在当前 GPU 完成后,立即启动该层参数向后续节点的传输,同时下一层计算在本地 GPU 同步启动,使通信操作嵌入计算间隙,避免因等待数据传输而产生的空闲时间。在跨域场景中,这种机制能将原本串行的“计算通信”过程转化为并行流,理论上可将跨域通信对整体训练时长的影响压缩至趋近于零,从而大幅降低对广域链路带宽的需求。(2)非阻塞非阻塞 GPU 通信模块通信模块 非阻塞 GPU 通信技术通过硬件资源隔离与异步执行机制,实现 19 通信与计算的完全并行,同时消除资源竞争。该技术依托 GPU 架构中的独立通信引擎(如 NVIDIA 的 GPU Direct RDMA),使数据传输操作可在计算核心执行训练任务时独立运行,且二者分别占用不同的显存分区与 PCIe 通道,避免传统阻塞模式下的资源争抢。在异构跨域环境中,这一特性可确保 AMD MI300 与昇腾 910 等不同架构 GPU 在执行计算密集型任务时,同步完成与远端节点的梯度交换,既提升了单 GPU 的资源利用率,又减少了跨域通信的累积延迟。(3)流水线并行通信量优化模块流水线并行通信量优化模块 流水并行通信量优化技术通过重构流水线内的数据交互模式,将跨域通信量压缩至最小粒度。传统流水并行中,每一层计算完成后需向所有后续节点广播完整参数张量,而该技术通过建立层间依赖图谱,仅在相邻阶段间传输必要的中间结果,使单次跨域通信的张量体积缩减为原有的 1/N(N 为流水线阶段数)。例如,在千亿参数模型的跨域训练中,通过将 Transformer 层拆分为 16 个流水阶段,每次跨域传输仅需发送单一层的注意力权重或 FFN 输出,配合张量压缩算法,可使跨域通信带宽需求降低,显著缓解广域网的传输压力。3.3 跨广域的跨广域的算网存协同调度算网存协同调度 大模型训练作业跨广域网协同调度架构示意图如图 4 所示。管控层由协同调度、任务调度、数据调度、流量调度构成。资源层由算力管控、存储管控、网络管控构成。20 图 4 跨广域的算网存协同调度(1)协同调度协同调度 承接大模型训练作业跨广域调度请求,是跨广域调度的业务入口。将大模型需求进行解析为算力、网络、存储需求,并以大模型的需求驱动任务调度、数据调度、流量调度的协同工作。(2)任务调度任务调度 具备处理大模型训练作业的 GPU 算力需求的能力,为大模型训练作业分配合适的算力资源。可将大模型训练作业的 GPU 算力需求拆分到多个算力中心,实现大模型训练作业的跨多算力中心部署。(3)数据调度数据调度 具备处理大模型训练作业数据访存需求的能力,为大模型训练作业的训练数据集、检查点、模型参数文件等数据分配合适的存储资源。可与任务调度协作,将大模型训练作业的训练数据集、检查点与模型参数文件同步到合适的多个算力中心。(4)流量调度流量调度 21 具备处理大模型训练作业通信流量需求与传输流量需求的能力,为大模型训练作业的任务间通信与数据传输分配合适的网络资源。可与任务调度、数据调度协作,为大模型训练作业的任务间通信与数据传输开通确定性网络路径,保障通信与传输的服务质量。(5)算力管控算力管控 算力管控管理算力中心内的算力资源,可承接来自于任务调度的算力需求。算力管控为任务调度提供其所在算力中心的算力资源状态,作为任务调度的依据。(6)存储管控存储管控 存储管控管理算力中心内的存储资源,可承接来自于数据调度的存储需求。存储管控为数据调度提供其所在算力中心的存储资源状态,作为数据调度的依据。(7)网络管控网络管控 网络管控管理其所在广域确定性网络的网络资源,可承接来自于流量调度的网络需求。网络管控为流量调度提供其所在广域网的网络资源状态,作为流量调度的依据。3.4 异属异构异属异构智算智算资源资源池化池化并网并网 在大模型跨域训练场景中,异属(分属不同机构、企业或主体)、异构(涵盖不同架构的 GPU、CPU、AI 加速芯片等)的智算资源呈现高度分散态势,难以形成高效协同的算力集群。为突破资源壁垒,实现全域算力的统筹利用,亟需构建一套统一、灵活且高效的智算资 22 源池化并网体系。通过算力资源池化并网实现异属异构异地的算力资源通过网络连接实现算力资源的可达、可用,并通过 API 接口实现算力资源的管理、调度与计量,为大模型跨域训练等场景提供全域协同的坚实算力支撑。图 5 智能算力并网功能架构图 算力并网功能架构图如图 5 所示。逻辑并网由资源封装、适配转换、标准接口三个功能分层构成,通过逻辑并网端点发生作用。其核心在于依托资源能力封装、功能适配转换与标准接口建模等技术手段,将算力资源抽象为可供平台进行标准化调用的服务能力,进而与平台间实现平台账号/资源监测的标准化管理,以及业务的标准化调度与计量。物理并网分为算力资源接入与网络资源接入,通过物理并网锚点发生作用。其中,算力资源接入实现算力资源与物理并网锚点间的组网连接,对于物理并网锚点而言算力资源接入属于用户侧接口(UNI);网络资源接入实现物理并网锚点与算力网中网络资源间的组网连接,对于物理并网锚点而言网络资源接入属于网络侧接口(NNI);基于算力资源接入与网络资源接入,物理并网锚点对用户业 23 务、平台管控等流量进行路由中继与隔离,进而实现算力资源的可达、可用。如图 6 所示,逻辑并网的内涵是实现算力资源在账号、监测、调度、计量等功能方面接入平台的整体过程。横向分层横向分层:算力资源通过资源封装以 API 接口形式提供能力,算力资源经过资源封装后通过适配转换实现标准接口对齐、算力资源经过适配转换后以标准接口的接口规范对接平台。纵向服务纵向服务:账号服务实现用户的认证授权等能力、监测服务实现智算资源信息(如总量/余量等)的上报调取等能力、调度服务实现业务的开通部署等能力(如容器/作业等)、计量服务实现业务的计量等能力。面向 AI 大模型跨域训练场景,需提供作业队列模式的调度服务,以支撑大模型作业跨多队列协作与同步训练。图 6 逻辑并网核心架构 物理并网的内涵是通过多样化的组网连接传输技术连接算力网中的算力资源与网络资源,打通算力网中的用户业务、平台管控等流量传输的端到端连通性,以实现算力资源的可达、可用。物理并网由算力资源接入和网络资源接入构成,智算资源物理并网流量承载见图 24 7。面向 AI 大模型跨域训练场景,物理并网锚点需具备支撑大模型训练业务流量的 RDMA 传输加速与网络虚拟化等能力,解决异地异属核心技术问题。图 7 物理并网流量承载示意图 3.5 光电融合光电融合广域广域确定性确定性网络网络 广域网面临容量受限、QoS 难承等挑战,难以提供“按需定制”的服务能力,其根本原因在于光传送与数通领域长期独立发展,未能形成有效合力。光电融合确定性广域网重点解决融合组网与灵活调度问题,通过底层全光互联实现大容量长距离的广域传输,融合光电域的多资源维度与全颗粒调度能力,实现资源池化并提供弹性化承载通道,同时构建面向分组的端到端确定性传输能力。25 图 8 光电融合广域确定性网络架构 光电融合确定性广域网总体架构如图 8 所示,包括网络控制平面与基础设施平面。其中,控制平面由决策中枢与域控制器组成,承担业务跨域跨层规划与资源调度控制等任务;基础设施平面由光电转发设备与网关组成,形成“分组 TDM 光”的多层融合转发模式,并通过网关衔接不同自治域提供跨域 QoS 定制能力,实现用户与用户、用户与云/边数据中心间的高质量传输控制。光电融合确定性广域网重点解决光电融合组网与灵活调度问题,通过底层全光互联实现大容量长距离的广域传输,融合光电域的多资源维度与多颗粒调度能力,实现资源池化并提供弹性承载通道,构建面向分组的端到端确定性传输能力,最终围绕用户要求提供多维 QoS 量化可承诺的分组传送能力,实现长距离大容量、确定性、弹性化的高效传输控制。光电融合确定性广域网通过在域内构建基于“分组 TDM 光”的多层组网结构,突破传统物理接口的容量边界,实现承载资源池化并提供统一调度能力,同时结合各层提供不同的数据交换能力与资源调控粒度,实现跨层资源间的协同规划及高效适配。通过发挥 TDM 层与 26 光层的刚性通道能力,满足带宽定制化与路由确定性要求,通过在分组层引入确定性调度机制,解决分组与转发时间的精准映射问题,实现同一接口内的各业务带宽、时延、抖动、丢包的定制化。四、四、关键技术创新与突破关键技术创新与突破 4.1 异构混训异构混训 4.1.1 基于算力基于算力特征特征的模型分层拆解的模型分层拆解 为解决大模型在异构 GPU 混训时,因不同 GPU 算力特征存在差异而导致的混训同步难、训练算效低等问题,设计了一种基于算力特征的模型分层拆分方法。该方法首先构建起异构 GPU 算力特征与大模型架构层算力需求的多维评估体系,突破传统 FLOPS 单一指标的局限,从计算能力、显存特性、通信带宽等多个维度建立量化评估模型;同时,通过对大模型各层计算密度、内存访问模式等特征的量化分析,形成层计算特性,为后续的模型分层拆分提供精准依据。(1)异构异构 GPU 算力量化评估体系构建算力量化评估体系构建 针对异构 GPU 算力评估的复杂性,设计了一个包含计算能力、存储特性和通信能力三维度的评估框架。在计算能力维度,通过测量 FP16/INT8 混合精度下的浮点运算性能和张量计算吞吐量,来量化 GPU 的核心计算能力;存储特性维度则聚焦显存容量、显存带宽以及显存访问延迟等指标,以全面反映 GPU 的存储性能;通信能力维 27 度着重评估 GPU 间 NVLink 或 InfiniBand 等互联技术的通信带宽和延迟情况。可根据实际应用场景进行动态调整,以平衡不同维度对算力评估的权重,从而更精准地评估异构 GPU 的实际可用算力。(2)Transformer 架构层特性分析架构层特性分析 对大模型中广泛采用的 Transformer 架构进行深入研究,将其核心层划分为注意力层、前馈神经网络(FFN)层和层归一化等类型。针对注意力层,重点量化其多头注意力机制下的计算密度,包括矩阵乘法与累加操作的次数,以及因序列长度增长而带来的内存访问强度变化;FFN 层则侧重于分析其在不同激活函数下的计算复杂度,以及数据在多层感知机中流动时的内存读写模式;层归一化部分,详细研究其在不同数据规模下的计算开销,以及与其他层交互时的通信需求。通过对这些关键特征的量化分析,能够更清晰地把握 Transformer 架构各层在计算、存储和通信方面的特性,为后续的调度优化提供坚实的数据基础。(3)异构感知分层拆解算法设计异构感知分层拆解算法设计 为充分发挥异构 GPU 集群的性能优势,设计了异构感知分层拆解算法。通过构建层特性矩阵和层间通信代价矩阵,将 Transformer 架构各层的计算、存储和通信特性,以及层与层之间的数据传输开销进行数字化建模。然后,利用动态规划算法求解初始分配方案,该方案以最小化整体计算时间和通信开销为目标,初步确定各层在不同 GPU 设备上的部署策略。在此基础上,以计算时间、通信时间和能耗惩罚为奖励函数,通 28 过不断的试错与学习,对初始分配方案进行迭代优化。算法能够实现自适应层融合,将计算量较小的层进行合并处理,减少不必要的通信开销;通过通信感知调度,根据 GPU 间的实时通信状态动态调整数据传输路径;借助弹性流水线技术,平衡各 GPU 设备的负载,从而在计算时间、通信时间和能耗惩罚之间找到最优平衡点,显著提升大模型跨域训练的效率和资源利用率。4.1.2 自适应训练任务运行时自适应训练任务运行时配置配置 为动态适配异构跨域 GPU 资源的大模型混训,需根据混训方案动态生成适配异构 GPU 的镜像与配置文件。为此,提出异构跨域 GPU的大模型混训动态镜像与配置文件匹配方法,能够动态地匹配合适的镜像和配置文件,提高模型训练的效率和资源利用率,同时确保任务在不同的计算环境中能够稳定、高效地运行。主要模块与流程如图 9所示。图 9 动态镜像和配置生成工作流程 29 当大模型混训任务发起后,协同调度模块解析任务的计算与数据需求,生成蓝图传递给智能部署模块。智能部署模块依蓝图向镜像管理模块查询,后者从异构仓库筛选匹配镜像并反馈信息;同时,智能部署模块向配置文件管理模块请求配置,该模块调用模板库生成配置文件返回。最终,智能部署模块整合镜像与配置,生成各集群作业描述文件,提交至对应智算集群执行。(1)智能部署模块智能部署模块 智能部署模块负责接收大模型混训任务,根据任务的计算需求、数据分布以及不同地域 GPU 的实时状态(包括算力、显存、负载等),采用智能调度算法将任务合理分配到合适的 GPU 资源上。该模块确定了调度的资源以后向镜像管理模块查询各训练实例上使用的具体镜像,向配置文件管理模块查询训练实例上使用的具体配置,然后根据镜像和配置生成作业描述文件,调度到具体的 AI 平台。(2)镜像管理模块镜像管理模块 镜像管理模块维护动态匹配镜像仓库,存储各类训练镜像,以名称和标签标识镜像特征与能力。用户提交训练代码及信息后,镜像生成模块据此打包镜像,并将其名称、标签存入存储模块。智能调度模块依据任务调度结果,向镜像管理模块查询匹配镜像。此外,该模块支持动态更新与版本管理,可适配 GPU 硬件及软件升级需求。(3)配置文件管理模块配置文件管理模块 配置文件管理模块基于调度模块生成的蓝图中训练任务的特点,根据配置文件模板库生成具体的训练作业的配置参数。模板中包含大 30 模型训练参数、资源参数、存储挂载参数、网络通信库、网络通信参数。该模块能够根据实际调度结果,从模板库中选取合适的模板,并能够根据大模型训练任务的具体情况调整其中的参数,最后动态生成针对特定任务和 GPU 的配置文件。训练参数训练参数 配置文件管理模块存储所有镜像支持的训练参数及传递方式(如启动参数、环境变量等)。生成配置文件时,按对应传递方式构建。训练参数传递方式依场景而定:选择“基础镜像 系统代码”,由代码能力确定;选择“基础镜像 自有代码”,需先将自有代码注册至配置文件管理并指定传递方式;选“自定义镜像 代码内置”,则从镜像信息获取。最终,结合训练需求与传递方式,生成含学习率、批量大小等关键参数的训练作业配置。资源参数资源参数 资源参数包括 GPU 型号、GPU 数量、网卡型号、网卡数量、CPU型号、CPU 大小、内存大小等。配置文件管理模块根据蓝图需求生成具体的资源参数。存储挂载参数存储挂载参数 蓝图中包含了实际数据存储位置、checkpoint 存储位置;当用户选择了基础镜像,训练代码通过存储系统提供时的代码实际存储位置;系统提供的容器启动脚本实际存储位置。配置文件管理模块将这些存储位置映射到容器中的蓝图指定位置。网络通信库网络通信库 31 配置文件管理模块中存储了每个镜像支持那些通信库、选择通信库的方式。若蓝图中指定了通信库,首先判断镜像是否支持通过某种选择通信库,支持的通信库中是否包含指定通信库,如果支持则直接通过指定方式生成配置文件(启动参数、环境变量等);如果不支持则根据其他方式指定通信库,如替换.so 文件。若蓝图中没有指定通信库,那么配置文件管理模块需要判断大模型训练使用的网络特性,比如是否需要跨域,如果跨域则使用支持跨域优化的数据库。网络通信参数网络通信参数 确定网络通信库以后,首先判断蓝图中是否有用户指定的网络优化,如果有,则根据用户的网络优化生成指定的网络通信参数;如果没有则根据收集的网络情况生成网络通信参数:若没有跨域,则使用默认网络通信参数;若需要跨域通信,且广域网可以提供确定性网络传输,则设置缓冲区、消息大小为较大的值(具体根据 RTT);如果需要跨域通信,但广域网不能提供确定性网络传输,则设置为使用指定的网络传输协议。4.2 异地同训异地同训 4.2.1 计算通信重叠的流水线并行计算通信重叠的流水线并行 为解决跨域长距网络环境引发的串行流水线等待问题,设计了一种计算与通信重叠的流水线并行加速技术,如图 10 所示。在该技术方案中,流水线内的大部分 GPU 通信可与 GPU 计算重叠执行,可极 32 大降低对 GPU 服务器之间网络带宽、延迟的要求。当在低带宽、高延迟的网络环境下采用这种重叠执行方式时,可减少 GPU 计算的等待时间,从而提升大模型训练效率以及 GPU 算力利用率。图 10 计算与通信重叠的流水线 该技术方案有两个技术思路:一是在流水线热身阶段,尽可能多得进行前向传播计算,也就是尽可能增加流水线热身阶段微批次数量;二是使前、后传播的 GPU 计算与流水线内的 GPU 通信重叠执行。GPU 计算与 GPU 通信重叠执行的实现方式是在每次前、后传播的GPU 计算开始前,启动一个或多个非阻塞 GPU 通信(即接收、发送前、后传播计算结果)过程。流水线中每一个 Worker 的运行过程包含以下步骤:根据提前约定的策略确定流水线热身、稳定、冷却阶段的微批次数量;以计算与通信重叠的方式执行流水线热身阶段的计算与通信操作;如果流水线稳定阶段的微批次数量不为 0,以计算与通信重叠的方式执行流水线稳定阶段的计算与通信操作;如果流水线稳定冷却的微批次数量不为0,以计算与通信重叠的方式执行流水线冷却阶段的计算与通信操作。(1)流水线热身阶段)流水线热身阶段 流水线热身阶段包含以下计算与通信操作。首先进行初始化设置,33 令 N 和 M 的初始值均为 1,随后接收第 N 个微批次的前向传播计算结果。对于热身阶段的每个微批次,需按以下步骤执行操作:若当前微批次不是当前训练迭代的最后一个,启动第 N 1 个微批次前向传播计算结果的非阻塞接收过程;接着执行第 N 个微批次的前向传播计算。若当前微批次是流水线热身阶段的最后一个,需同时启动第 N 个微批次前向传播计算结果的非阻塞发送过程,以及第 M 个微批次后向传播计算结果的非阻塞接收过程,完成后转入流水线稳定阶段;若不是,则直接启动第 N 个微批次前向传播计算结果的非阻塞发送过程。之后,等待第 N 1 个微批次前向传播计算结果的非阻塞接收完成,并将 N 的值更新为 N 1。(2)流水线稳定阶段)流水线稳定阶段 对于稳定阶段的每个微批次。首先等待第 N 1 个微批次前向传播计算结果的非阻塞接收完成,并将 N 的值更新为 N 1。随后根据当前微批次所处位置执行对应操作:若为流水线热身阶段的第一个微批次,启动第 N 1 个微批次前向传播计算结果的非阻塞接收过程;若为流水线热身阶段的最后一个微批次,启动第 M-1 个微批次后向传播计算结果的非阻塞发送过程;其他情况则同时启动第 N 1 个微批次前向传播计算结果的非阻塞接收过程,以及第 M-1 个微批次后向传播计算结果的非阻塞发送过程。接着执行第 N 个微批次的前向传播计算,等待第 M 个微批次后向传播计算结果的非阻塞接收完成后,启动第 N 个微批次前向传播计算结果的非阻塞发送过程,以及第 M 1 个微批次后向传播计算结 34 果的非阻塞接收过程。随后执行第 M 个微批次的后向传播计算,并将 M 的值更新为 M 1。最后根据当前微批次状态进行收尾处理:若为稳定阶段的最后一个微批次且流水线冷却阶段需处理的微批次数量不为 0,启动第 M-1 个微批次后向传播计算结果的非阻塞发送过程并转入冷却阶段;若为稳定阶段的最后一个微批次且冷却阶段无需处理微批次,则发送第M-1 个微批次的后向传播计算结果并停止流水线运行。(3)流水线冷却阶段流水线冷却阶段 对于冷却阶段的每个微批次,首先等待 M 个微批次后向传播计算结果的非阻塞接收完成。若当前微批次并非冷却阶段的最后一个,启动第 M 1 个微批次后向传播计算结果的非阻塞接收过程。接着执行第 M 个微批次的后向传播计算。若当前微批次是冷却阶段的最后一个,发送第 M 个微批次的后向传播计算结果并停止流水线运行;若不是,则启动第 M 个微批次后向传播计算结果的非阻塞发送过程。最后将 M 的值更新为 M 1。4.2.2 高效非阻塞高效非阻塞 GPU 通信技术通信技术 为解决 GPU 同时运行计算与通信任务时的底层资源竞争问题,设计了一种非阻塞 GPU 通信方法。该方法通过内存作为数据中转枢纽,先将显存中的数据迁移至内存,再基于内存中的数据执行通信操作,最后将通信完成后的数据从内存迁回显存。由于基于内存数据的通信操作仅依赖 CPU 而不占用 GPU 资源,这一机制能大幅减少 GPU 35 通信与计算在同一 GPU 卡上的资源竞争,从而有效避免因资源争抢导致的通信时间增加。该技术方案包含两个核心思路:其一,确立内存的中介地位,构建 显存内存通信内存显存 的数据传输链路,通过内存缓冲实现计算与通信的数据隔离;其二,采用独立的通信进程或线程专门负责基于内存数据的通信操作,使其与 GPU 计算任务在执行层面完全分离,确保通信过程不会干扰 GPU 计算的正常运行节奏。(1)专用通信进程方案专用通信进程方案 在 GPU 计算任务所在进程(即 GPU 计算进程)之外,增加专用通信进程,用于执行基于内存数据的通信操作。GPU 计算进程与通信进程之间通过共享内存传输数据。非阻塞 GPU 通信流程如图 11 所示。GPU 计算进程根据通信操作类型,依次将显存数据传输至非分页内存,再复制到共享内存,随后发送启动信号并启动计算任务。计算完成后,发送等待信号并等待响应,最后将通信后的数据依次复制回非分页内存和显存。专用通信进程接收到启动信号后执行通信操作,收到等待信号时,待通信结束后向 GPU 计算进程发送响应。36 图 11 基于专用通信进程的非阻塞 GPU 通信(2)专用通信线程方案专用通信线程方案 在 GPU 计算任务所在线程(即 GPU 计算线程)之外,增加专用通信线程,用于执行基于内存数据的通信操作。非阻塞 GPU 通信流程如图 12 所示。图 12 基于专用通信线程的非阻塞 GPU 通信 GPU 计算线程和专用通信线程根据通信操作类型协同工作。GPU 计算线程先将显存数据传至非分页内存,发通信启动信号并启动计算任务;计算完成后发等待信号,待通信结束将数据传回显存。专用通信线程收到启动信号执行通信,收到等待信号则完成通信后响应。37 以两节点点对点 Send/Recv 通信为例:发送方节点 1 的 GPU 计算进程,先将显存数据转至非分页内存并复制到共享内存,发 Send 启动信号并开始计算,计算完成后等待 Send 操作结束。接收方节点 2 的 GPU 计算进程,先发 Recv 启动信号并启动计算,计算完成后等待 Recv 结束,最后将通信后的数据依次存入非分页内存和显存。4.2.3 面向大模型跨域训练面向大模型跨域训练的的算网协同调度算网协同调度 为降低大模型跨域训练对广域网带宽需求,减少用户跨越训练大模型时需要付出的额外成本,需要对大模型训练作业的通信需求、网资源拓扑进行建模,通过算网协同调度选择成本最低的算力集群组合以及与之适配的大模型训练作业拆分方案。(1)大模型训练作业需求建模大模型训练作业需求建模 在大模型训练的 3D 并行模式中,通信流量特征因策略而异。混合 3D 并行时,不同策略的流量叠加会引发带宽竞争,加剧网络负载不均衡。这些特性对网络与调度提出特殊要求,是影响训练效率的关键,其中:数据并行 DP 对延迟敏感,千卡级集群需数百 Gbps 带宽;张量并行 TP 需微秒级响应,每层参数切分交换可达数百 GB;流水线并行 PP 单次微批次传输约数 GB,数十 Gbps 带宽即可满足。在跨域训练场景下流水线并行的流量特征与广域网的高延迟、有限带宽特性具有天然适配性。通过将 PP 合理分布于不同域,可有效利用广域网的异构资源,降低全局同步开销,为大模型训练提供更灵活的分布式扩展路径。38 图 13 大模型跨域训练部署示意图 如图 13 所示,根据大模型不同并行模式的通信特征,本技术方案将张量并行约束在单个服务器内部,将数据并行约束在单智算中心内部,将大模型流水线并行的通信流量放在广域网上,由此对大模型训练的 GPU、广域网需求进行建模。在大模型训练中,张量并行限于单服务器内通信,数据并行也仅在同一智算中心内完成。因此,大模型跨广域网训练时,主要需考虑流水线并行的网络流量。其通信量源自前向传播的激活值传输与反向传播的梯度传递,具体数值由模型结构、阶段划分和微批次设置决定。简单来讲,单次前向或反向传播的通信量与序列长度、隐藏层维度及单个数据存储大小相关,且每级流水线通信需求相近。网络要求可用三元组表示为,故跨广域网训练对广域网络的总需求为 d 条流水线的网络需求集合,即。39(2)算网资源拓扑建模算网资源拓扑建模 为实现大模型训练作业的跨广域网调度与部署,需对广域网环境的算网资源进行建模。大模型跨广域训练主要的关注点在于智算中心的各类 GPU 数量与智算中心间的确定性广域网的能力。为此,在算网资源方面,需对智算中心各类 GPU 资源量与各智算中心的网络能力进行建模。如下图所示,将智算中心抽象为节点,将智算中心间的互联网络抽象为节点间的连线。智算中心内部部署多种异构 GPU,需对各类型算力资源进行细粒度计量。由于大模型训练业务对 GPU 算力密度和通信效率具有严苛要求,GPU 节点内并行计算能力、节点间数据传输效率,以及跨数据中心协同性能,均受底层拓扑结构显著影响。因此,资源计量需精确至节点层级,即准确统计各节点 GPU 卡数量,而非简单汇总整个智算中心的 GPU 资源总量,具体统计示例如表 1 所示:表 1 GPU 资源统计表 GPU 型号 单节点卡数 节点数量 英伟达 A100 8 16 昇腾 910B 8 10 智算中心间的网络链路连接关系采用二元组表示,用于刻画任意两个智算中心之间的网络联通状态。网络性能评估采用三元组模型。(3)面向大模型训练作业的跨广域面向大模型训练作业的跨广域协同协同调度策略调度策略 40 该协同调度策略旨在根据大模型训练 GPU 需求与 GPU 资源节点拓扑,求解大模型跨广域训练的部署方案,即大模型训练 Worker 与GPU 资源节点的绑定及其 GPU 资源、存储资源的分配,大模型训练跨域通信与广域网的网络链路的绑定与网络资源的分配。具体协同调度策略由协同调度、算力调度、存储调度、网络调度以及其三者的协同调度四部分构成。协同调度策略协同调度策略 大模型训练作业的协同调度流程为协同调度驱动算力调度、网络调度、存储调度协作的过程。首先检查等待处理的作业队列,若队列空无任务,便等待下一个调度周期;若存在待处理任务,则依照队列的排队规则选取一个大模型训练作业。选中作业后,先对其进行预处理:结合作业描述与预设的需求建模规则,明确每级流水线的 GPU 资源需求。接下来,初始化一个空的待选方案集合,进入算力调度阶段。依据特定的算力调度策略,筛选出满足作业算力需求的资源节点,形成初步的调度方案集合,并标记算力调度完成。之后更新待选方案集合,检查集合是否为空:若为空,说明暂无符合条件的方案,返回初始步骤等待;若不为空,则判断存储资源是否已分配。若存储资源未分配,进入存储调度阶段,按存储需求筛选方案,剔除不满足条件的选项,标记存储调度完成后再次更新待选集合。若存储资源已处理完毕,则检查网络资源分配状态。若网络资源未分配,进入网络调度阶段,依据网络需求筛选方案,移除不符合要求的选项,标记网络调度完成后更新待选集合。当算力、存储、网络调度均完成后,从待选 41 方案集合中输出最终的调度方案。算力调度策略算力调度策略 算力调度核心思想是以大模型流水线的每一级为 GPU 算力的分配单元,确保大模型跨域训练任务按流水线级数进行切分。初始 GPU 需求筛选范围。待分配 GPU 的大模型流水线级数编号即为 i 到 j,其中 0ijp,iN,jN,p 为大模型流水线并行的总级数,i 初始值为 0,j 初始值为 p-1。初始化可选的智算资源节点集合。筛选满足 GPU 需求的智算资源节点。统计从 i 到 j 的所有流水线级数的各类资源需求量。遍历 i 到 j 的各类 GPU 资源需求,对同卡数同类型的 GPU 节点数加和。遍历各智算资源节点集合,若某智算资源节点的各类 GPU 资源节点满足从 i 到 j 的所有流水线级数的各类资源需求量,则将该智算资源加入待优选节点集合。判断GPU的节点集合是否为空。若空,则需调整GPU筛选范围,则 j 更新为 j-1。存在满足 GPU 需求的智算节点,标记 GPU 需求与节点集合的对应关系。遍历满足 GPU 需求的智算节点集,将这些智算节点添加到作业筛选范围内所在流水线级数的训练任务可选 GPU 智算节点集合。判断所有 GPU 需求是否满足。判断从 0 到 p-1 所有级数的 GPU需求均分配智算资源。若还存在未分配资源节点,更新 GPU 需求筛选范围,更新 i 为 j 1,j 更新为 p-1。根据每级流水线与智算节点的分配关系,生成满足 GPU 需求的调度方案。若 i j,则表示筛选范围 42 为空,即算力调度失败,结束。反之,表示筛选范围不为空,可继续算力调度。存储调度策略存储调度策略 存储调度的目标是从待选集合中筛选出满足大模型训练作业存储需求的方案。从待选方案集合中筛选出尚未完成存储资源匹配的方案,作为待处理对象。随后遍历各方案的流水线层级,依据算力调度所确立的流水线 Stagei 与智算节点 Nodek 的映射关系,对每个 Nodek 的存储资源需求进行累加计算,从而获取整体存储需求总量。对各智算节点 Nodek 的存储资源容量与大模型训练作业累计存储需求进行对比分析。若某节点存储资源无法满足需求,则将该方案从待选集合中剔除;若满足需求,则标记该方案为“存储需求匹配完成”,并进入下一阶段处理。核查待选集合中是否仍存在未完成存储资源匹配的方案。若存在,则返回流程初始步骤,继续处理下一个未匹配方案;若全部方案均已完成存储资源匹配,则标志着整个存储调度流程执行完毕。网络调度策略网络调度策略 网络调度的目标是从待选方案集中识别大模型跨域数据传输与通信的需求,并判断网络资源是否满足其需求,进一步从待选方案集中过滤掉不满足网络需求的方案。在待选方案集合中实施筛选操作,甄别出尚未完成网络资源匹配的方案,并将其确定为待处理对象。其次,针对各方案的流水线层级 43 进行系统性遍历,依据算力调度构建的流水线与智算节点的映射关系,对所有流水线判断。若相邻的两个流水线级对应同一智算节点,表明该两级间仅存在智算中心内部通信;若相邻两级对应不同智算节点,则意味着存在跨广域通信需求,即涉及跨广域网的网络资源需求。对广域网承载能力与相邻流水线级间的通信流量需求开展严格的对比分析。若该广域网无法达到需求阈值,则将相应方案从待选集合中移除;若满足需求条件,则将该方案标记为“网络需求匹配完成”,并进入下一处理阶段。对剩余待选方案集合进行核查,判断是否仍存在未完成网络资源匹配的方案。若存在此类方案,则返回流程初始阶段,继续处理下一个未匹配方案;若所有方案均已完成网络资源匹配,则视为整个网络调度流程执行完毕。4.2.4 跨域训练跨域训练 RDMA 加速网关加速网关 为了解决 RDMA 在广域网上效率低下的问题,RDMA 网关通过拥塞控制和精细化的报文处理与会话管理机制加速 RDMA 通信,实现大带宽低时延的 RDMA 操作。图 14 长距 RDMA 拥塞控制 44 长距 RDMA 拥塞控制如图 14 所示,主要流程如下:近源拥塞控近源拥塞控制制。源数据中心内,源服务器至源网关的路径上出现拥塞时,采用预设拥塞控制算法生成拥塞通告报文,并发送至源服务器,源服务器根据拥塞通告报文调整发送速率;近目的端调整发送速率近目的端调整发送速率。目的数据中心内,目的网关发送至目的服务器的数据包形成拥塞时,目的服务器会发出拥塞通告报文至目的网关,目的网关根据到达的拥塞通告报文调整对应流量的发送速率和队列缓存;端到端控制端到端控制。目的网关每隔预设时间段统计队列的发送速率,根据队列发送速率生成长距拥塞通告报文,并发送至源网关;源网关根据长距拥塞通告报文中记录的发送速率和当前队列速率进行比较,以调整转发速率。图 15 长距 RDMA 工作流程 RDMA 网关精细化报文处理与会话管理机制的工作流程如图 15所示,具体流程如下:45(1)QP 业务流表建立业务流表建立 当 RDMA 网关收到来自源端的 RDMA 报文时,首先基于 CM会话交互过程进行会话初始化。在会话建立阶段,网关会为每个独立的通信流创建专属的 QP 业务流表,每个流表绑定独立的队列缓存空间。这种一对一的流表-缓存映射机制,可实现不同通信流的隔离处理,避免跨流数据干扰,同时为后续的丢包检测、重传控制提供精准的粒度支持。(2)数据报文处理逻辑数据报文处理逻辑 报文接收与状态判断报文接收与状态判断。网关收到 RDMA 数据报文后,通过序列号校验检测丢包或乱序。异常时发 NACK 触发上游选择性重传,仅补传缺失片段;正常则发伪 ACK 确认接收,并缓存报文等待下游最终确认,避免上游超时重传。确认报文处理确认报文处理。收到下游 ACK 即释放缓存,收到 NACK 则重发对应报文,确保数据完整传输。(3)重传与超时控制机制重传与超时控制机制 重传次数限制重传次数限制。网关支持重传次数配置,当报文重传达设定阈值,主动释放缓存并标记传输异常,触发重试重启数据传输,避免资源阻塞。超时重传策略超时重传策略。网关为报文设可配置超时定时器(时长大于链路 RTT),超时尚未收到下游 ACK 或 NACK,自动重传报文,弥补链路瞬时故障,保障传输可靠。通过上述机制,RDMA 网关在异属异构智算资源的跨域通信中,实现协议透明传输,优化长距链路性能。46 4.2.5 网络状态感知网络状态感知的的负载均衡负载均衡 在大模型训练的负载分担中,一般使用基于五元组的方式逐流负载分担,或者逐包负载分担。这都是基于域内的数据并行和张量并行数据量很大,需要细粒度的拆分,才能够将大流量分流到不同的链路上。然而,在大模型跨域训练过程中,PP 的 RDMA 流量一般会在网关上做加速处理,这要求 RDMA 流量的往返路径都经过同样的网关;当大模型训练跨域 PP 较多、流量较大时,又希望流量能够在多个网关间负载均衡。传统基于 HASH 的负载均衡无法满足这种要求。使用多网关负载均衡情况下,大模型跨域训练流量单个 QP 对的流量如图16 跨域训练流量示例所示。图 16 跨域训练流量示例 为此,设计大模型跨域训练 RDMA 流量负载均衡方案,适配高流量跨域通信场景。大模型训练常用 RoCEv2 协议,以 UDP/IP 封装 InfiniBand 语义,固定目的端口 4791 标识 RDMA 流量,源端口动态分配区分会话,网络设备仅解析 L4 头部。RoCEv2 中,数据靠 QP 对传输,QP 绑定唯一五元组,路径选择粒度小于五元组会致数据包失序,引发效率下降:47 序列号校验失效:数据包携带序列号,乱序触发接收端 NACK,导致大量重传降速。即便支持 SACK,也需暂存乱序包等待重组,受缓冲区限制影响效率。流控误判:RoCEv2 依赖 ECN 反馈拥塞,乱序易使接收端混淆丢包原因,错误触发发送端流量暂停或降速,造成带宽波动。硬件资源浪费:主流 RoCEv2 网卡接收队列采用 FIFO 结构,乱序包缓存占用额外资源,队列满时后续包会被硬件丢弃。图 17 QP 与流量间的关系图 对于 RoCEv2 来说,负载分担的粒度不宜小于五元组,才能在效率上达到较好的状态。具体到大模型训练时,每个网卡具有一个 IP,一对网卡之间一般使用多个 QP 发送和接收流量。如图 17 QP 与流量间的关系图所示为一个具有两个网卡的 GPU 服务器,地址分别为IP1 和 IP2,每个网卡上各使用了 m 和 n 个 QP,每个 QP 对应唯一的五元组。48 网卡发出的流量如图 18 网卡产生流量与 QP 关系所示,基于大模型训练流量的上述特征,通过不同的服务器架构和大模型训练模式等提取不同流量粒度进行负载分担。图 18 网卡产生流量与 QP 关系 控制器依据 GPU 服务器架构与大模型训练模式,确定负载分担流量粒度;再根据模型特点和部署位置,明确流量通信需求(带宽、时延等),向确定性网络控制器请求开通隧道。隧道开通策略为:优先请求各 PE 上的同路径隧道,若全部失败则转而请求多路径隧道,均失败则返回失败。隧道开通后,通过可插拔算法计算权重选择网关,并将负载分担策略下发至网关,VxLAN 路由下发至网卡。控制器计算并下发完表项后,各转发部件的具体转发过程如图 19 所示:图 19 端到端转发示意图 49 发送端网卡根据流量特性指定下一跳网关,完成 VxLAN 封装后经 Underlay 网络转发。发送端网关解封装后,依据目的网卡负载分担策略(按 PE 隧道带宽比例)将流量发送至 PE。PE 处理时,单隧道单路径模式直接导入指定隧道,单隧道多路径模式则按路径带宽比例负载分担。接收端 PE 按流量目的特性将流量发送至网关,网关完成 VxLAN 封装后送达目的网卡。4.2.6 广域广域 RDMA 通信代理技术通信代理技术 因广域网时延太大、丢包率较高、抖动明显,传统 RDMA 在跨广域网通信时效率很低,为此设计了一种广域网环境下分段 RDMA通信链路建立方法,将 RDMA 连接分成三段:源服务器的 RDMA 通信连接到源代理服务器终结,源代理服务器通过更适应广域的通信协议将数据发送到目的代理服务器,目的代理服务器将数据转换为RDMA 通信发送给目的服务器,如图 20 所示。图 20 分段 RDMA 通信链路建立方法示意图 50 RDMA(远程直接内存访问)控制面的作用是为通信两端建立RDMA 通信链路。RDMA 数据面的作用是在建立好的 RDMA 通信链路上传输业务数据。RDMA 数据面的通信必须依赖 RDMA 网卡来完成。但 RDMA 控制面的通信不依赖 RDMA 网卡,可以采用任何合适的通信技术(如 TCP、UDP、QUIC)。所谓 RDMA 通信建链,就是为通信两端上的 QP(Queue Pair)建立对应关系。在 RDMA 通信建链过程中,通信两端会交换要建立对应关系的 QP 的相关信息,包括但不限于 QP 编号、数据包序列号、全局 ID。使用多算力跨域协同训练的情况,此时需要把训练进程 1 和训练进程 3 分别放在两个异地算力集群运行。但是对于训练进程 1 和训练进程 3 来说,他们并不知道对方和自己不在一个算力集群。因此,训练进程 1 和训练进程 3 依然按照普通 RDMA 建链方法的逻辑去执行与 RDMA 建链相关的各种操作。按照普通 RDMA 建链流程,训练进程 1 仍然作为普通 RDMA 通信建链的发起方,将普通 RDMA 通信建链请求发送给训练进程 3,而训练进程 3 仍然作为普通 RDMA 通信建链的接受方,等待由训练进程1发送的普通RDMA通信建链请求。这样的话,就无法建立分段 RDMA 通信链路。跨广域网的 RDMA 分段 建链流程可拆解为七个核心操作:(1)初始建链请求初始建链请求 在分布式训练场景下,训练进程 1 依据通信库定义的标准 RDMA 建链协议规范,向训练进程 3 发起建链请求。此时数据包源 IP 配置为 192.168.1.1,目的 IP 设为 192.168.1.3。由于传统直连方 51 式无法满足分段式 RDMA 通信架构需求,若保持数据包原始路由信息,将直接抵达训练进程 3 所在的 GPU 服务器 2,导致无法构建预期的分层通信链路,因此需执行后续处理流程。(2)数据包重定向数据包重定向 训练进程 1 所在的 GPU 服务器 1 依据预先设定的路由策略,对建链请求数据包进行深度报文解析与修改。具体操作包括:将数据包目的 IP 及端口重定向至 RDMA 代理进程 1 的控制面 IP 与服务端口,并在数据包扩展字段中嵌入原始建链目标(训练进程 3)的完整元数据信息。在复杂算力集群环境中,当存在多台 RDMA 代理服务器及多个代理进程实例时,需通过负载均衡或优先级调度等策略进行代理进程选择(本文暂不探讨具体算法实现)。每个代理进程均绑定至少一组唯一的控制面 IP 与服务端口,作为接收建链请求的标准接口。(3)代理进程建链代理进程建链 RDMA 代理进程 1 接收到符合通信库标准协议格式的建链请求后,严格遵循既定的 RDMA 握手协议流程,与训练进程 1 完成基础通信链路的建立。该过程包含多次往返的控制报文交互,以协商链路参数并完成身份验证。(4)集群间链路建立集群间链路建立 链路标识确定:系统对操作 3 中建立的所有普通 RDMA 通信链路进行唯一标识符分配与管理,确保在多链路并行场景下,每个通信通道均可通过唯一标识进行精准识别与区分。52 原始目标提取:通过解析数据包扩展字段,完整提取操作 2 中附加的原始建链目标元数据信息,包括但不限于目标进程地址、端口及相关配置参数。目标端确定:依据预定义的集群间路由规则,结合提取的原始目标信息,采用启发式算法或确定性策略选定集群间通信链路的建链目标(如 RDMA 代理进程 2),并发起标准化的集群间链路建立请求(具体的代理进程选择机制超出本文研究范畴)。信息传递:在集群间链路建立过程中,通过带外控制通道或已建立的低延迟链路,将普通 RDMA 链路标识及原始建链目标信息(例如训练进程 1 与 RDMA 代理进程 1 间的链路唯一标识、训练进程 3 的控制面 IP 及服务端口等关键参数)可靠传输至集群间链路目标端(RDMA 代理进程 2)。(5)完成集群间链路完成集群间链路 RDMA 代理进程 2 接收到集群间通信链路建立请求后,基于预设的通信协议栈(可选用 RDMA、TCP、UDP、QUIC 等传输协议),执行完整的链路协商与建立流程,实现代理进程间的高效数据传输通道构建。(6)二次建链请求二次建链请求 RDMA 代理进程 2 根据接收到的原始建链目标信息及普通 RDMA 链路标识集合,按照标准 RDMA 建链协议规范,向最终目标节点(训练进程 3)发起二次建链请求。该请求包含完整的链路上下 53 文信息,确保目标节点能够准确识别并响应。(7)最终建链完成最终建链完成 训练进程 3 接收到来自 RDMA 代理进程 2 的标准建链请求后,严格遵循通信库定义的 RDMA 链路建立流程,完成与 RDMA 代理进程 2 的最终链路协商与认证,标志着整个分段式 RDMA 通信链路构建完成。4.2.7 跨域跨域 RoCEv2 通信自适应机制通信自适应机制 为了解决广域网在丢包率、带宽保证、时延大小等能力的差异,设计了一种适应复杂广域网的跨域 RoCEv2 流量传输方式和带宽的自适应机制,以提高 RoCEv2 传输效率。跨域通信的集群都需要部署 RoCEv2 网关,RoCEv2 网关负责RoCEv2 跨域通信;控制中心负责根据网关能力和广域网能力协调RoCEv2 跨域通信的传输方式和带宽需求。其工作流程如图 21 所示。图 21 跨域 RoCEv2 流量传输方式和带宽的自适应工作流程 54 网关完成部署与启动流程后,需向控制中心进行能力参数注册,具体涵盖:RoCEv2 协议代答及 CNP 机制支持状态,以及对应链路带宽吞吐性能指标;QUIC 代理功能支持状态及其带宽处理能力;TCP 代理功能支持状态及其带宽处理能力。控制中心在完成网关能力参数建档后,同步整合广域网传输性能参数,包括:互联网链路的端到端时延特性;确定性网络的带宽容量、时延指标、抖动幅度及丢包率统计;带宽预留网络的带宽配置、时延表现、抖动情况及丢包率参数。在服务器跨域通信场景中,源服务器(服务器 1)发送 RoCEv2 协议数据流。源网关(网关 1)接收到数据帧后,通过解析数据包头部获取源 IP 地址、源端口号、目的 IP 地址及目的端口号等四元组信息,并将通信会话元数据上报至控制中心。控制中心基于接收到的通信元数据,在网关能力数据库中检索源网关(网关 1)与目的网关(网关 2)的适配通信能力参数,同时结合广域网性能参数库,通过以下渠道获取链路状态信息:确定性广域网控制器周期性上报的链路状态数据;广域网控制器采集的网络性能参数;网关间主动探测获取的实时链路状态信息。55 控制中心基于上述信息,执行通信路径决策与带宽资源规划:在确定网关间最优通信协议后,计算并下发带宽配置参数。具体计算模型如下:设原始业务带宽需求为 n,网关间链路有效传输率为 a,广域网链路有效传输率为 b;则网关侧带宽配置需求为:a/n;广域网边缘设备(PE)带宽配置需求为:n/(ab)。源网关与目的网关根据控制中心下发的通信协议指令及带宽配置参数,完成资源预分配流程。若采用 TCP 或 QUIC 代理协议,需建立代理连接通道,对 RoCEv2 数据进行协议转换与缓存处理,并通过代理通道实现数据转发。4.2.8 拓扑感知的拓扑感知的 Rank 号号规划规划 在大模型跨域训练构建的复杂算网拓扑环境下,传统的静态 RANK 分配机制已显露出显著的不适应性。该机制基于预设的固定计算节点序列分配 RANK 号,在训练过程中无法动态调整。然而,跨域训练涉及多地域、多集群的异构计算资源,网络延迟波动、节点负载不均、动态资源调度等问题频发。当某个计算节点出现性能瓶颈或网络故障时,静态 RANK 分配无法灵活重组计算链路,极易导致训练效率大幅下降,甚至引发训练中断,难以满足大模型训练对资源动态调度和高容错性的要求。为此,设计了一种面向大模型跨广域训练的 RANK 号分配与管理方法,以满足大模型通过广域网跨集群训 56 练的场景。增加一个全局的 RANK 管理模块来实现 RANK 的自动化管理,如图 22 所示。RANK 管理模块从算力调度器接收模型切分结果(包括租户、任务号、每个集群的 RANK 范围,RANK 间通信质量要求),然后根据模型切分结果为所有容器分配 RANK 号、选取 MASTER 并将结果(RANK 号和 MASTER 的 IP 地址)通知所有 RANK。之后将RANK 间通信质量要求转化为 IP 间的通信质量要求通知给网络调度器。图 22 拓扑感知的 Rank 规划整体架构 第一个 RANK 号段(0 到 N)的集群中,第一个上报信息的 POD分配 RANK 号 0,作为 MASTER;第二个上报信息的 POD 分配为 1,以此类推。其他 RANK 号段(N 1 到 N M)的集群中,第一个上报信息的 POD 分配号为 N 1,第二个上报信息的 POD 分配为 N 2,以此类推。当每个 POD 有多个网卡(多个 IP 时),根据网卡名排序后选择第一个 IP 分配最小的 RANK 号;第一个 RANK 号段中最后一个 57 RANK 和第二个号段中第一个 RANK 之间存在跨域通信关系,根据网卡名排序后确定一对一的通信关系。对于一个需要三个 POD 的大模型训练任务,算力调度器根据计算结果将其调度到两个集群:集群 1 和集群 2。其中,集群 1 调度了两个 POD(POD1 和 POD2);集群 2 调度了一个 POD(POD3)如图23 所示。图 23 RANK 管理流程图 4.3 异属合训异属合训 4.3.1 多队列排队协作技术多队列排队协作技术 当训练作业的子任务分散在分属不同运营主体的算力中心时,由于各异属队列的调度规则、资源分配策略相互独立,难以实现子作业 58 状态的同步与协同,导致大模型作业无法同步获得分配算力资源。为解决多主体、多队列场景下大模型训练作业协同调度难题,提出多异属队列协作机制,支持将大模型训练作业拆分后放入不同主体队列同步排队,确保子作业同步获资源,减少排队时间,避免资源死锁,打破算力壁垒,提升跨域训练效率。大模型跨域训练任务拆分为子任务集,分发至多个集群/平台同步启动。池化调度依据任务需求与资源状态拆分模型,选定方案后分发部署需求,各平台将其加入作业队列并按策略调度。因各集群平台队列独立调度,同一训练业务任务调度时机不一,易造成资源浪费、效率降低甚至资源互锁。为此,构建跨域多任务队列协调器,协调多队列作业调度,实现跨域作业同步运行。跨域多队列协调器作为负载控制器的一部分,负责获取作业分散于各平台队列的状态,确保同一训练作业任务同步获资源。其目标是调整各子任务位置,避免资源互锁,分布于全局管控层与异属资源层,包含异属队列协调器、任务代理、异属队列控制器:异属队列协调器。基于各异属队列状态(包括各异属队列可用资源量、各异属队列中作业的子部分排队次序与资源需求),对全局作业队列的排队次序进行调整。任务代理。从异属队列控制器获取排队信息,形成当前所在异属队列中作业的排队次序,与所有异属队列的资源可用量、各任务子部分资源需求量一并上报。另外,监听全局队列的状态,若不一致时,通过调整本地队列排队次序与全局队列 59 次序一致。异属队列控制器。为任务代理提供本队列的状态信息。同时,接收来自任务代理的排队状态调整请求,配合完成本队列的任务排队次序调整。图 24 多队列排队协作架构 为实现跨多队列协调器调整各异属队列的能力,需各异属队列提供其队列内作业的排队状态以及调整其队列内作业排队顺序的接口与权限。在这些前提条件具备后,跨多队列协调器的工作机制如下:周期上报作业排队状态。任务代理器实时获取各自所在异属平台上作业排队状态,上报给任务调度。更新预期排队状态。任务调度中异属作业队列协调器,根据作业排队现状判断是否调整预期排队状态。按预期排队状态调整队列。任务代理器监听预期作业排队状态的变化,根据预期作业排队对所在异属平台的作业队列进行调整。管控层可获取各个异属平台中任务代理上报各自的作业排队次 60 序、各作业的资源需求量与各异属队列的可用资源量。除此之外,管控层会维护一个全局队列,资源层的各异属平台中的队列次序需参照全局队列次序进行相应的调整。如图 25 所示,共有 4 个作业分别为Job1Job4。有 3 个异属队列分别为 queue1queue3。在管控层会维护一个全局队列 Global Queue。初始时,作业可根据作业提交的先后顺序入队,经管控层的调度,各作业的分别情况为:Job1 分配到 queue1。Job2 拆分为 Part1 和 Part 2,分配到 queue1 和 queue2。Job3 拆分为 Part1 和 Part2,分配到 queue2 和 queue3。Job4 分配到 queue4。图 25 多队列排队示意图 作业排队状态的调整,本质上是依据各异属队列中作业各子部分的排队次序、子部分的资源需求量,以及各个异属队列的可用资源量,按照特定策略目标配置全局队列的作业排队次序,从而确定预期的作业排队状态。各异属平台的任务代理会实时监听全局队列状态,一旦全局队列状态发生变化,任务代理便会将所在异属队列的排队次序与全局队列进行比对。若两者不一致,任务代理将通过调整作业信息、61 队列信息、调度策略等指标项,确保所在异属队列的排队次序与全局队列保持同步。如各异属队列的资源可用量与作业的需求量如下:异属队列 queue1、queue2、queue3 当前资源可用量均为 6;作业 Job1 资源需求量为 8;作业 Job2 资源需求量分为两部分,Part1 为 5、Part2 为 5;作业 Job3 资源需求量分为三部分,每部分均为 6;作业 Job4 资源需求量为 4。在以提升综合资源利用率为目标时,Job1、Job2、Job3、Job4 的排队次序应调整为 Job3、Job2、Job4、Job1。通过这种排序,能够实现各个异属队列综合资源利用率的最大化。若以提升综合作业吞吐量为目标,这四个作业的次序则需调整为 Job4、Job2、Job3、Job1。此排列方式可使各异属队列的综合作业吞吐量达到最优。当以保障作业 deadline 为目标时,若存在有严格 deadline 的作业,需优先保障其资源分配。例如,若 Job1 存在严格 deadline,作业次序应调整为 Job1、Job2、Job4、Job3。这样既能确保 Job1 优先获得资源,Job4 也可获取部分资源,而 Job2 和 Job3 则因 Job1 占用资源而继续处于排队状态。4.3.2 多队列联合抢占技术多队列联合抢占技术 由于各智算中心通常通过独立的管控平台对外提供算力服务,导 62 致本地管控平台需要同时处理两类作业请求:跨集群协作作业与本地用户提交的作业。当资源供给无法满足需求时,抢占机制成为保障高优先级作业执行的关键手段。然而,传统的单集群抢占策略存在显著局限性,其缺乏跨中心的有效协调机制,极易造成子作业启动时序不一致,严重影响分布式训练的整体效率。为破解跨多智算中心场景下作业抢占的协同难题,针对性地提出一套多异属队列联合抢占的技术架构。在此基础上,设计了大模型训练作业跨多异属队列联合抢占与被抢占同步方法。跨广域多集群异属队列抢占调度的技术架构如图 26 所示。图 26 多队列联合抢占功能模块图 跨域调度系统由任务调度与任务代理构成。任务调度负责维护跨集群资源视图,存储各智算中心的实时资源状态,实现作业拆分策略,生成子作业与资源需求描述,执行全局抢占决策,下发抢占指令至本地调度器。任务代理对接各智算中心管控平台,接收全局调度器下发的抢占策略,在本地资源分配时执行抢占动作,并反馈抢占执行状态。为实现跨域多异属队列的抢占机制,需实现分别在任务调度与任务代 63 理分别实现如下功能模块。优先级映射管理器优先级映射管理器 优先级定义了任务的紧急程度。高优先级任务可以抢占低优先级任务的资源。异属队列的优先级设计各种独立,为实现异属队列的抢占协作,需建立统一的优先级规范。该功能模块的功能就是维护全局的优先级映射表,将所纳管的异属队列的优先级与全局优先级形成映射,建立统一的优先级规则。同步抢占控制器同步抢占控制器 子作业任务调度会将大模型训练作业拆分为多个子作业部署在合适的智算中心。各智算中心会各自的调度策略进行子作业的调度,将导致同属作业的子作业状态不一。分布在多个智算中心,各智算中心的抢占时机不一致。对于同一作业而言,其所有子作业均获得运行所需资源才能正常训练。为此,需在任务调度协调各异属队列的抢占时机,实现作业同步抢占、同步运行。作业状态同步作业状态同步 该部分功能在任务代理上实现,将本地的作业状态上报到任务调度,实现全局与本地智算中心的作业状态同步。抢占执行器抢占执行器 同步抢占控制器作为全局的抢占协调器,而抢占执行器则作为任务代理器上实际异属队列抢占的触发器。在所有子作业的抢占状态就绪后,同步抢占控制器将作业抢占状态置为可抢占状态。抢占执行器将可抢占状态的子作业通知异属队列的调度器,由异属队列调度器执 64 行实际的抢占。(1)优先级映射管理优先级映射管理 优先级映射管理的主要功能是维护全局优先级与各异属队列优先级的映射表,如表 2 所示。表 2 多队列优先级映射关系 全局 优先级 异属队列 1 优先级 异属队列 2 优先级 异属队列 3 优先级 Super/Root P1 High Administrator VIP 3 P2 Middle Manager VIP 2 P3 Low NormalUser VIP 1 P4 AnonymousUser VIP 0 P5 该优先级映射表在异属智算中心注册纳管时需将信息录入,后续在将调度后产生的子作业进行渲染时,需参考此表将优先级转化为对应智算中心的优先级描述。全局优先级与各智算中心的优先级映射需同时考虑租户间的优先级与作业间的优先级,以保障全局租户/作业优先级的一致性。(2)多队列同步抢占多队列同步抢占 此部分需任务调度与任务代理协作完成。在任务调度将子作业分发到各智算中心后,各智算中心的任务代理将承接这些子作业,管理子作业的生命周期,与全局的任务调度协作使子作业在本地智算中心顺利完成。在异属队列抢占过程中,需实现的功能由两部分构成:全 65 局/本地子作业状态同步、异属多队列的抢占时机同步,具体的功能模块间交互关系如图 27 所示。图 27 多队列抢占功能模块 将各子作业状态同步到全局任务调度。如预抢占,即抢占就绪状态,表示该子作业所在的智算中心有可被该子作业抢占的低优先级任务。被抢占状态则表明该子作业已被抢占,将其状态同步给全局的任务调度,以便全局任务调度将此状态同步到其他同属一作业的子作业所在队列。获取同属一作业的各子作业抢占就绪状态。若所有子作业均就绪,则表明该作业可执行抢占,更新子作业状态为可抢占。当子作业为可抢占时,表明该子作业可抢占本地的低优先级作业。抢占执行器获取到执行抢占的子作业后,触发本地的队列调度器执行抢占。当子作业为被抢占状态时,抢占执行器将通知本地的调度器驱逐该子作业并保护抢占现场。(3)跨域抢占保护跨域抢占保护 跨域抢占保护旨在保证抢占执行全过程中业务的安全行与完整性,降低抢占带来的开销。此功能分为抢占的现场保护与现场恢复。66 抢占现场保护 在确定可执行抢占时,需先由调度器确定需要被驱逐的任务。智算中心本地将对这些任务状态进行快照。如大模型训练任务的CheckPoint、运行时相关参数、数据处理进度等。与目前本地现场保护不同的是相关现在保护的状态数据需具备全局数据视图与跨域状态数据同步能力。与此同时,需将被抢占状态同步给全局的任务调度,进而通知部署了其他同属同一作业的子作业智算中心进行跨域的资源抢占。抢占现场恢复。现场恢复的过程与现场保护相反。被抢占的任务会被本地调度加入到待调度队列,获得重新调度的机会。当该任务重新获得资源时,将从现场保护阶段保存的快照状态恢复训练。若后续任务调度部分实现了跨域重新调度逻辑,该任务可以通过全局的任务调度获得重新调度机会,在其他智算中心部署运行。(4)异属队列抢占与被抢占流程异属队列抢占与被抢占流程 抢占流程 跨域训练场景下,大模型训练作业经调度后会分布在多个智算集群,在发起抢占时,需分布在多个智算中心的各个子作业需都满足抢占条件。当某个智算中心的子作业满足抢占条件时,需先将预抢占状态通知给全局的任务调度,待所有子任务均具备抢占条件时再通知各智算中心的异属队列执行抢占。被抢占流程 67 分布在各智算中心的子作业能够抢占低优先级的作业,同样可被更高优先级的作业抢占。当某个智算中心的子作业被抢占时,需将被抢占状态上报全局的任务调度。当任务调度获知任意一个子作业被抢占时,需通知与该子作业同属一作业的其他子作业释放资源。4.3.3 RDMA 网络虚拟化网络虚拟化 为了解决异属数据中心底层网络独立规划所导致的 IP 地址互相冲突的情况,满足大模型跨域协同训练的通信需求,提出异属 RDMA over VxLAN 技术方案,旨在构建兼顾严格隔离与高效传输的跨域通信机制,聚焦于安全隔离、性能优化与场景适配三个维度:安全隔离:构建由虚拟网络标识(VNI)、虚拟局域网(VLAN)、安全访问控制组(ACL),确保跨数据中心 RDMA 流量在多租户环境下实现端到端的逻辑隔离与数据安全传输。性能优化:采用 RDMA 感知调度算法结合轻量化 VxLAN 封装协议,在保障网络低延迟特性的前提下,将 RDMA 数据传输吞吐量提升 30%以上,实现与高性能计算场景的深度适配。场景适配:设计支持传统广域网、确定性网络等异构网络环境的弹性接入机制,通过标准化接口协议实现与不同主体数据中心网络架构的无缝兼容,提升方案跨域部署能力。(1)VxLAN 异属异属强化强化 在原有 VNI-VLAN 映射基础上,进一步强化跨主体场景下的隔离与扩展能力。除 VNI-VLAN 映射外,为每个租户配置独立的安全 68 组规则,限制其 RDMA 流量的源/目的端口范围。新增租户时,系统自动完成“VNI 分配VLAN 子接口创建RDMA 参数配置”的全流程自动化:控制器根据租户的 RDMA 需求(如带宽、并发连接数),预配置网关的队列资源与转发策略,整个过程无需调整物理网络拓扑,支持分钟级租户上线。图 28 异属 VxLAN 互联拓扑结构 如图 28 所示,智算网关作为连接 VxLAN 虚拟网络与传统物理网络的关键节点,在原有 VTEP(VxLAN 隧道端点)功能基础上,新增 RDMA 适配模块,形成“封装转换 协议优化 隔离管控”的三位一体架构。接收来自租户计算节点 VTEP 的 VxLAN 封装流量时,通过深度包检测(DPI)识别RDMA协议特征(如RoCEv2的 UDP端口4791),为这类高优先级流量开辟专用处理通道,绕过传统 TCP/IP 协议栈的冗余校验环节,降低封装/解封装延迟。同时,保留 VxLA 头部的 VNI 标识,确保租户隔离属性不丢失。在 VNI-VLAN 一一映射的基础上,为每个映射关系绑定 RDMA 69 流量的服务质量参数。例如,为高优先级租户(如大模型训练任务)配置“低延迟队列 带宽预留”策略,当解封装后的 RDMA 流量通过 VLAN 子接口转发时,自动触发队列调度机制,保障跨域传输的确定性。此外,支持动态映射调整,当某租户临时需要扩容跨域带宽时,可通过控制器远程更新 VNI 对应的 VLAN 子接口带宽阈值。网关内置 RDMA 会话跟踪模块,记录租户 RDMA 连接的源/目的地址、QP(队列对)状态等信息。当跨数据中心的 RDMA 流量经过时,通过会话信息验证确保流量合法性,避免未授权的跨主体 RDMA 访问。同时,针对 RDMA 的拥塞通知(如 CNP 报文)进行特殊处理,在 VxLAN 封装与解封装过程中保留拥塞标记,确保跨域场景下 RDMA 的动态速率调整机制正常生效。(2)轻量级轻量级 RDMA 封装适配封装适配 为解决 VxLAN 封装对 RDMA 性能的损耗,方案从协议适配与路径优化两方面进行针对性设计。针对 RDMA 零拷贝特性,网关的 VxLAN 封装与解封装过程采用“内存直透”技术:接收计算节点 RDMA 内存中的数据时,直接在用户态完成 VxLAN 头部的添加/剥离。该机制避免了数据在内核态与用户态之间的拷贝,显著降低了单包处理延迟,满足 RDMA 对低延迟的要求。在报文封装过程中,通过特定的内存映射与操作接口,直接将 RDMA 数据与 VxLAN 头部进行整合,形成完整的 VxLAN 报文;解封装时则反向操作,精准剥离 VxLAN 头部,将原始 RDMA 数据快速交付上层应用,减少不必要的处理环节。70 图 29 RDMA over VxLAN 报文封装 RDMA 网关通过网络调度与广域网控制器联动,实时获取跨数据中心链路的带宽、时延、丢包率等参数。当检测到链路拥塞时,自动触发 RDMA 流量的动态调整:对于 RoCEv2 流量,通过修改其 DSCP 标记优先占用低延迟链路;对于需要重传的数据包,临时切换至 TCP 代理模式,避免 RDMA 原生重传机制在高丢包场景下的性能劣化。在报文处理上,对于动态调整后的流量,根据不同传输模式重新封装报文,如切换到 TCP 代理模式时,将 RDMA 数据适配到 TCP协议的报文格式中进行传输,确保数据在复杂网络环境下高效、稳定传输。(3)高效高效 VxLAN 卸载卸载 以 Open vSwitch(OVS)的 datapath 作为慢路径,通过深度整合 RDMA 网卡的增强型虚拟交换机,构建软硬协同的流量处理机制。该机制基于 eSwitch 的硬件加速能力,实现 VxLAN 报文的快速解析与转发,同时将复杂的协议处理流程卸载至网卡硬件,有效降低 71 CPU 负载,显著提升网络流量转发效率。图 30 VxLAN 硬件卸载技术架构 初始时向 eSwitch 预置一条缺省匹配规则。当首包抵达 eSwitch 时,由于尚未建立与之匹配的流表项,将触发该缺省规则。在此机制下,报文通过 vf-representor 导向 eSwitch 的管理端口,并进一步传递至对应 OVS 的数据路径。由于 datapath 内同样缺乏匹配表项,报文将借助内核的 netlink 通信机制,上传至 OVS 用户态进程 ovs-vswitchd 进行后续处理。ovs-vswitchd 作为控制平面的核心组件,存储着由 OpenFlow 协议下发的流转发规则,能够实现首包的精准转发。与此同时,该进程将对当前数据流对应的规则进行深度分析,依据预设条件判断其是否满足卸载至 RDMA 网卡的技术要求。若判定规则符合卸载标准,ovs-vswitchd 将通过 TC 接口,将该流规则推送至 eSwitch 的硬件转发单元。72 对于同一数据流的后续报文,当其到达 eSwitch 时,将直接匹配已部署的硬件流表项。这种设计使得报文无需经过主机操作系统的内核态与用户态处理流程,即可在 RDMA 网卡的 eSwitch 中完成快速转发。此过程有效规避了传统软件转发的性能瓶颈,充分释放了 RDMA 网卡的高带宽与低时延特性,显著提升了 VxLAN 网络环境下的流量转发效率,尤其适用于大规模分布式训练等对网络性能要求极高的应用场景。为保障规则卸载机制的可靠性与兼容性,本方案引入动态规则更新策略。当控制平面的 OpenFlow 规则发生变更时,ovs-vswitchd 将通过实时监测机制感知变化,并同步更新 eSwitch 硬件中的流表项,确保报文转发策略的一致性与时效性。此外,针对包含复杂访问控制逻辑或协议转换需求的特殊规则,系统将自动启用回退机制,通过 OVS 的数据路径与 ovs-vswitchd 协同处理,实现硬件加速与软件处理相结合的混合转发模式。五、五、验证验证与与评估评估 5.1 试验环境试验环境 试验环境由异属异构异地三个算力集群和一个总控集群组成,如图 31 所示。每个算力集群包含若干台算力服务器,如 H20 GPU 服务器、天垓 150(BI150)GPU 服务器。这些算力服务器均由本集群的 73 算力资源管理系统统一管理。P 设备通过 2 条 2000 公里光纤分别与PE-2、PE-3 设备连接。P 设备与其他设备之间均通过短距光纤连接。在这种网络拓扑下,任意两个算力集群之间均可通过大于 2000 公里的广域网链路进行协同训练。图 31 试验环境拓扑 5.2 测试验证测试验证 5.2.1 异属算力集群协同训练能力验证异属算力集群协同训练能力验证(1)向调度系统提交训练任务 1,如表 3 所示,等待调度系统的反馈。选择在集群 1 运行训练任务 1,最后观察训练任务 1 的日志,如图 32 所示,根据日志计算出训练任务 1 的训练性能数据,如表 4所示。表 3 训练任务 1 的描述信息 大模型 Mixtral 8x7B,总层数 70 层,总参数量 101B 74 GPU 数量 24 卡 H20 并行设置 TP=4,PP=6,DP=1,EP=1 其他训练设置 sequence length=16384,micro batch size=2,global batch size=30,浮点数精度 fp16,不启用计算通信重叠 算网协同设置 不使用异属算力,不使用算网协同,不使用异构算力芯片 图 32 训练任务 1 的日志 表 4 训练任务 1 的训练性能数据 每迭代完成时间 60.7 秒 TGS(Tokens/gpu/s)337.39 Samples/s 0.4942(2)缩减集群 1(庆阳数据中心)中的可用 H20 GPU 算力资源。向调度系统提交训练任务 2(与训练任务 1 相同,如表 3 所示),等待调度系统的反馈。由于没有任何一个算力集群有 3 台可用的 8 卡 H20服务器,调度系统此时提示跨域调度模式未激活,无法在同一个集群中完成训练,作业在排队中,如图 33 所示。75 图 33 调度系统提示训练任务 2 需要排队 测试结果分析:如果用户不指定允许使用异属算力,当没有任何一个算力集群可以满足用户的全部算力资源需求时,训练任务无法运行。(3)更改训练任务 2 描述文件,设置允许使用异属算力。向调度系统提交训练任务 3,如表 5 所示,等待调度系统的反馈。在调度系统反馈可用调度方案后,在集群 1(庆阳数据中心)上启动一个 POD继续占用掉集群 1 的可用 GPU 资源,然后用户从可用调度方案中选择在集群 1(庆阳数据中心)和集群 3(杭州数据中心)运行训练任务 3。由于集群 1(庆阳数据中心)的可用 GPU 资源在用户选择可用调度方案前被其他用户占用掉,导致用户选择的可用调度方案失效,任务无法部署(如图 1 所示)。表 5 训练任务 3、4、5、6 的描述信息 大模型 Mixtral 8x7B,总层数 70 层,总参数量 101B GPU 数量 24 卡 H20 并行设置 TP=4,PP=6,DP=1,EP=1 76 其他训练设置 sequence length=16384,micro batch size=2,global batch size=30,浮点数精度 fp16,不启用计算通信重叠 算网协同设置 使用异属算力,不使用算网协同,不使用异构算力芯片 图 34 调度系统提示训练任务 3 部署失败 同时,调度系统提示用户集群 1 有可抢占的 GPU 资源,询问用户是否抢占。选择同意抢占后,调度系统发起抢占,在抢占成功后,训练任务 3 部署成功,如图 35 所示。最后观察训练任务 3 的日志,如图 36 所示,根据日志计算出训练任务 1 的训练性能数据,如表 6所示。77 图 35 训练任务 3 抢占算力资源成功 图 36 训练任务 3 的日志 表 6 训练任务 3 的训练性能数据 每迭代完成时间 68.4 秒 TGS(Tokens/gpu/s)299.42 Samples/s 0.4386 测试结果分析:1、异属队列协作机制允许用户通过抢占尽快运 78 行训练任务;2、在 2000 公里以上广域网环境下,跨域训练性能下降。相对于训练任务 1,训练任 3 每迭代完成时间增加了 12.68%。训练任务 3 的 TGS 是训练任务 1 的 TGS 的 88.75%,即此时跨域训练效率是 88.75%。5.2.2 广域确定性广域确定性网络传输网络传输能力验证能力验证(1)向调度系统提交训练任务 4,如表 5 所示,等待调度系统的反馈。选择在集群 1 和集群 3 运行训练任务 4。在训练任务 4 运行过程中,在广域网链路上加入干扰流。最后观察训练任务 4 的日志,如图 37 所示,根据日志计算出训练任务 4 的训练性能数据,如表 7 所示。图 37 训练任务 4 的日志 表 7 训练任务 4 的训练性能数据 每迭代完成时间 171.1 秒 TGS(Tokens/gpu/s)119.70 79 Samples/s 0.1753 测试结果分析:由于没有使用广域确定性,加入干扰流后,训练性能下降。相对于训练任务 3,训练任务 4 每迭代完成时间增加了150.15%,TGS 下降了 60.02%。(2)在广域网链路上加入确定性网络控制面。向调度系统提交训练任务 5,如表 5 所示,等待调度系统的反馈。选择在集群 1 和集群 3 运行训练任务 5。在训练任务 5 运行过程中,在广域网链路上加入干扰流。最后观察训练任务 5 的日志,如图 38 所示,根据日志计算出训练任务 5 的训练性能数据,如表 8 所示。图 38 训练任务 5 的日志 表 8 训练任务 5 的训练性能数据 每迭代完成时间 70.2 秒 TGS(Tokens/gpu/s)291.74 80 Samples/s 0.4274 测试结果分析:加入确定性网络控制面后,干扰流对训练性能的影响很小。相对于训练任务 3,训练任务 5 每迭代完成时间只增加了2.63%,TGS 只下降了 2.56%。5.2.3 异属算力与广域网络协同调度能力验证异属算力与广域网络协同调度能力验证(1)限制集群 1、2 之间的广域网链路带宽到 400Mbps。向调度系统提交训练任务 6,如表 5 所示,等待调度系统的反馈。调度系统反馈的可用调度方案中包含广域链路带宽很低的算力集群“1 2”组合,如图 39 训练任务 6 的可用调度方案 所示。选择在集群 1 和集群2 运行训练任务 6。最后观察训练任务 6 的日志,如图 40 所示,根据日志计算出训练任务 6 的训练性能数据,如表 9 所示。图 39 训练任务 6 的可用调度方案 81 图 40 训练任务 6 的日志 表 9 训练任务 6 的训练性能数据 每迭代完成时间 185.3 秒 TGS(Tokens/gpu/s)110.52 秒 Samples/s 0.1619 测试结果分析:由于没有开启算力协同调度,用户收到的可用调度方案中有可能会包含广域链路带宽很低的算力集群组合。此时用户恰好选择了这个广域链路带宽很低的算力集群组合,无法高效完成训练。相对于训练任务 3,训练任务 6 每迭代完成时间增加了 170.91%,TGS 下降了 63.09%。(2)开启算网协同。向调度系统提交训练任务 7,如表 10 所示,等待调度系统的反馈。选择在集群 1 和集群 3 运行训练任务 7,如图41 所示。最后观察训练任务 7 的日志,如图 42 所示,根据日志计算出训练任务 7 的训练性能数据(如表 11 所示)。表 10 训练任务 7 的描述信息 大模型 Mixtral 8x7B,总层数 70 层,总参数量 101B GPU 数量 24 卡 H20 82 并行设置 TP=4,PP=6,DP=1,EP=1 其他训练设置 sequence length=16384,micro batch size=2,global batch size=30,浮点数精度 fp16,不启用计算通信重叠 算网协同设置 使用异属算力,使用算网协同,不使用异构算力芯片 图 41 训练任务 7 的可用调度方案 图 42 训练任务 7 的日志 表 11 训练任务 7 的训练性能数据 每迭代完成时间 68.4 秒 TGS(Tokens/gpu/s)299.42 Samples/s 0.4386 83 测试结果分析:开启算力协同调度后,用户收到的可用调度方案中不会包含广域链路带宽很低的算力集群组合。此时跨域训练效率恢复正常。5.2.4 计算与通信重叠的流水线并行训练能力验证计算与通信重叠的流水线并行训练能力验证(1)开启计算通信重叠。向调度系统提交训练任务 8,如表 12所示,等待调度系统的反馈。选择在集群 1 和集群 3 运行训练任务 8,最后观察训练任务 8 的日志,如图 43 所示,根据日志计算出训练任务 8 的训练性能数据(如表 13 所示)。表 12 训练任务 8 的描述信息 大模型 Mixtral 8x7B,总层数 70 层,总参数量 101B GPU 数量 24 卡 H20 并行设置 TP=4,PP=6,DP=1,EP=1 其他训练设置 sequence length=16384,micro batch size=2,global batch size=30,浮点数精度 fp16,启用计算通信重叠 算网协同设置 使用异属算力,使用算网协同,不使用异构算力芯片 图 43 训练任务 8 的日志 84 表 13 训练任务 8 的训练性能数据 每迭代完成时间 64.4 秒 TGS(Tokens/gpu/s)318.01 Samples/s 0.4658 测试结果分析:启用计算与重叠流水线后,跨域训练性能有提升。相对于训练任务 1,每迭代完成时间只增加了 6.10%。训练任务 8 的TGS是训练任务1的TGS的94.26%,即此时跨域训练效率是94.26%。(2)增加全局批次大小。向调度系统提交训练任务 9,如表 14所示,等待调度系统的反馈。选择在集群 1 运行训练任务 9,最后观察训练任务 9 的日志(如图 44),根据日志计算出训练任务 9 的训练性能数据(如表 15 所示)。表 14 训练任务 9、10 的描述信息 大模型 Mixtral 8x7B,总层数 70 层,总参数量 101B GPU 数量 24 卡 H20 并行设置 TP=4,PP=6,DP=1,EP=1 其他训练设置 sequence length=16384,micro batch size=2,global batch size=128,浮点数精度 fp16,不启用计算通信重叠 算网协同设置 使用异属算力,使用算网协同,不使用异构算力芯片 85 图 44 训练任务 9 的日志 表 15 训练任务 9 的训练性能数据 每迭代完成时间 210.4 秒 TGS(Tokens/gpu/s)415.31 Samples/s 0.6084(3)向调度系统提交训练任务 10,如表 14 所示,等待调度系统的反馈。选择在集群 1 和集群 3 运行训练任务 10,最后观察训练任务 10 的日志,如图 14 所示,根据日志计算出训练任务 10 的训练性能数据,如表 16 所示。图 45 训练任务 10 的日志 表 16 训练任务 14 的训练性能数据 每迭代完成时间 214.8 秒 TGS(Tokens/gpu/s)406.80 86 Samples/s 0.5959 测试结果分析:由于全局批次大小增加,训练任务 10 的 TGS 是训练任务 9 的 TGS 的 97.95%,即此时跨域效率约为 98%。5.2.5 异构算力芯片混合训练能力验证异构算力芯片混合训练能力验证 设置允许异构算力芯片。向调度系统提交训练任务 11,如表 17所示,等待协同调度系统的反馈。选择在集群 1 和集群 3 运行训练任务 11,最后观察训练任务 11 的日志,如图 46 训练任务 11 的日志所示,根据日志计算出训练任务 11 的训练性能数据,如表 18 所示。表 17 训练任务 11 的描述信息 大模型 Mixtral 8x7B,总层数 70 层,总参数量 101B GPU 数量 24 卡 H20 4 卡 BI 150(共 8 芯)并行设置 TP=8,PP=4,DP=1,EP=1 其他训练设置 sequence length=16384,micro batch size=2,global batch size=30,浮点数精度 fp16,启用计算通信重叠 算网协同设置 使用异属算力,使用算网协同,使用异构算力芯片 87 图 46 训练任务 11 的日志 表 18 训练任务 11 的训练性能数据 每迭代完成时间 54.5 秒 TGS(Tokens/gpu/s)322.10 Samples/s 0.5505 测试结果分析:1、调度系统可调度异构算力芯片协同完成一个训练任务;2、增加算力芯片总数后,每迭代完成时间随之下降,同时每秒处理的训练样本数也随之增加;3、对比训练任务1 的TGS指标,此时训练任务 11 的 H20 BI150 混合训练效率达到 95.47%。5.2.6 基于算网协同的多流水线跨域训练能力验证基于算网协同的多流水线跨域训练能力验证 向调度系统提交训练任务 12,如表 19 所示,等待调度系统的反馈。选择在集群 1 和集群 3 运行训练任务 12,最后观察训练任务 12的日志,如图 47 所示。88 表 19 训练任务 12 的描述信息 大模型 Mixtral 8x7B,总层数 56 层,总参数量 80B GPU 数量 32 卡 H20 并行设置 TP=4,PP=4,DP=2,EP=1 其他训练设置 sequence length=16384,micro batch size=2,global batch size=30,浮点数精度 fp16,启用计算通信重叠 算网协同设置 使用异属算力,使用算网协同,不使用异构算力芯片 图 47 训练任务 12 的日志 测试结果分析:在启用算网协同、计算通信重叠技术后,用户仍然可以进行多流水线跨域训练,从而可利用更多的算力资源来协同完成一个训练任务。六、六、总结与展望总结与展望 大模型技术的演进正经历从通用领域向行业场景的深度渗透,这一转变直接推动训练需求从大规模预训练向精细化后训练、场景化微调延伸。在此过程中,业界的技术焦点逐渐从单一数据中心的性能优化,转向跨地域、异构环境下的协同训练能力构建。然而,随着多行 89 业大模型落地进程的加速,不同主体间因资源权属、管理策略、安全规范差异形成的“异属壁垒”,正成为比技术异构性更突出的制约因素 数据主权保护、资源调度权限分割、跨主体信任机制缺失等问题,使得跨域算力池化的难度远超单纯的技术适配挑战。白皮书提出的大模型跨域训练池化调度技术体系,以破解算力资源的“异属异构异地”三大核心挑战为目标,构建了覆盖业务层、管控层、资源层的全栈式技术架构。在业务层,通过动态任务拆分与子作业协同机制,实现大模型训练任务对跨域资源的弹性适配;在管控层,依托多异属队列协作、联合抢占等策略,解决不同主体资源的统一调度与优先级协同问题;在资源层,借助跨主体 RDMA 网络虚拟化等技术,突破网络安全隔离与高性能通信的矛盾,保障跨域数据交互效率。这一体系不仅实现了跨地域、跨主体异构算力的高效整合与动态协同,更在提升资源利用率、缓解高端 GPU 供给压力的同时,为大规模分布式模型训练提供了从任务发起至资源释放的全生命周期技术支撑。后续,大模型跨域训练池化调度技术体系将持续以“全国一台计算机”为目标愿景,实现算力泛在化、效率本地化与生态开放化。通过全域算力池化整合不同地域、主体的异构计算资源,形成统一供给平台,让用户按需取用如同用电般便捷;打破物理与逻辑层面的多重边界,消除通信壁垒并屏蔽硬件、软件、权属差异,使任务运行如单一集群;在全域协同中借助智能调度、网络优化等保持接近本地集群的训练效率;同时构建开放生态,支持多主体接入,实现技术共享、90 标准共建,最终实现多方利益共赢。算力算力泛在泛在化化。实现算力资源的“无处不在、按需取用”。通过全域算力池化技术,将分散在不同地域、分属不同主体的 GPU、NPU、CPU 等异构计算资源整合为逻辑上的统一算力供给平台。用户无需关注资源的物理位置、硬件型号或权属归属,只需通过标准化接口提交训练任务,系统即可自动匹配最优算力资源,实现“像用电一样用算力”的便捷体验。效率本地化。效率本地化。在全域协同中保持接近本地集群的训练效率。通过智能调度策略将计算任务分配至距离数据源头最近的算力节点,减少跨域数据传输量;利用网络感知的通信优化技术(如动态压缩、路径选择)降低长距离通信延迟;结合异构硬件特性动态调整计算精度与并行策略,使跨域训练的吞吐量、收敛速度接近同构本地集群水平。生态开放化。生态开放化。构建多方共赢的技术生态体系。通过开源框架、标准化接口与模块化设计,支持硬件厂商(如国产 GPU 厂商)、软件开发者(如训练框架团队)、算力提供方(如数据中心)、用户(如 AI 企业)等多主体接入。硬件厂商可通过统一抽象层快速适配主流训练场景,开发者可基于标准化接口扩展新功能,用户则能在兼容多类型资源的环境中灵活选择方案,形成“技术共享、标准共建、利益共赢”的开放生态。
2025-08-22
93页




5星级
比清华版更全面、更落地大任智库DS实训行业版DeepSeek+:医药行业大模型应用与创新实践讲义精华全版(381页)大任智库AI应用创新团队:卜安涧、何伟、解奉波、刘桂君、陈念东、王杨露王京、张俊、陈.
2025-08-14
381页




5星级
大模型智能体开发平台技术能力综合测试报告目录目录一、测试概述.1(一)测试背景与核心内容.1(二)测试方法与数据说明.1(三)免责声明.3二、RAG 能力测试.3(一)RAG 测试采用指标.3(二)测试实施.3(三)文本问答任务.4(四)结构化数据问答任务.5(五)图文问答任务.7三、工作流能力测试.9(一)工作流测试采用指标.9(二)测试实施.9四、Agent 能力测试.12(一)Agent 测试采用指标.12(二)测试实施.12五、总结与展望.16大模型智能体开发平台技术能力综合测试报告1一、一、测试测试概述概述(一)(一)测试背景与核心内容测试背景与核心内容在产业智能化转型加速的背景下,大模型驱动的智能体(Agent)已形成多场景渗透态势。智能体因其具备知识增强、流程编排和智能决策等核心能力,正重塑企业级服务的技术生态。为用户更好地了解大模型智能体典型场景应用情况,对智能体开发平台(以下简称“平台”)技术实现路径与行业适配机制进行研究。本次测试选取阿里云百炼、腾讯云智能体开发平台、扣子及百度智能云千帆四个典型智能体开发平台的个人电脑端,围绕业务智能化的驱动能力展开测试。结合智能体的技术演进态势和行业应用实践,本报告确立 RAG 能力、工作流能力、智能体工具调用三个关键能力维度进行测试评估。1.1.RAGRAG 能力测试能力测试:RAG 能力评估重点考察平台的知识增强机制,旨在验证 RAG在真实业务场景中的综合表现,包括知识检索精度、逻辑推理能力以及用户体验的平衡性。重点评估三个维度:一是多模态知识处理能力:包括文本、表格、图文等不同类型载体的处理;二是任务复杂度适应能力:涵盖从单点信息提取到跨文档关联推理的不同难度层级;三是交互机制完备性:包含拒答处理、澄清反馈、溯源引用等关键功能。2.2.工作流工作流(WorkflowWorkflow)能力测试)能力测试:工作流能力重点考察复杂场景下平台的流程控制机制,评估多轮对话中的流程稳定性与控制精度。以智能客服典型业务场景的订单咨询、退换货等能力为研究对象,聚焦参数动态提取、异常回退、意图识别与容错处理等关键智能性。3.3.AgentAgent 能力测试能力测试:Agent 能力围绕工具调用智能化水平与复杂任务处理体验,考察单工具逻辑判断、多工具协同及提示词指令执行能力,验证智能体对内外部工具调用协同的意图识别、选择科学性与答案整合效果。(二二)测试方法与数据说明测试方法与数据说明本节围绕智能体开发平台核心能力评估,系统阐述了测试方法与数据情况。研究通过构建贴合企业级服务典型业务场景的标准化框架,结合多模态测试数据集、统一配置的智能体/工作流、综合性问题集,以及多样化调用与过程采集方式,实现对平台核心能力的系统测试与分析;同时明确了测试涉及的基础知识数据与响应结果数据的具体构成、来源及特征,为后续研究的科学性与可靠性奠定了方法与数大模型智能体开发平台技术能力综合测试报告2据基础。1.1.测试方法测试方法本次测试基于模拟真实应用场景,构建标准化测试框架实现对大模型驱动的智能体开发平台核心能力的系统测试、比对、分析。场景构建场景构建方法方法。场景构建选取企业级服务中的客户服务、订单处理、知识问答等典型业务场景,精准还原真实业务流程中的交互逻辑与任务需求,以此保障测试场景与实际业务的高度贴合。数据数据集集构建构建方法方法。数据集构建针对多模态知识处理需求,构建包含政策文档、业务规范等纯文本,订单数据、客户信息等结构化表格,产品说明、操作指南等图文数据的测试数据集,实现对不同知识载体类型与业务领域的全面覆盖。智能体智能体/工作流配置工作流配置方法方法。智能体/工作流配置依据各智能体的技术架构,在线配置相应的智能体与工作流模块。推理模型统一设定为 DeepSeek R1,问答模型统一设定为 DeepSeek V3,其余参数采用系统默认设置。仅对影响核心能力评估的关键配置进行必要对齐(若部分智能体默认模型无法切换,则保留其默认配置)。测试测试问题集设计问题集设计方法方法。测试问题集设计以行业真实业务流程和应用场景为依托,围绕三大核心能力维度,设计包含 15 个测试项、600 测试问题的综合性问题集。每个问题均标注对应能力维度与预期输出,作为评估基准。调用与调用与过程过程采集采集方法方法。调用与过程采集通过网页交互与 API 接口调用两种方式,模拟用户操作与系统集成场景,采集各智能体在问题处理过程中的响应结果及流程轨迹,为后续的统计分析提供便利。2.2.数据说明数据说明本次测试使用及产生的数据主要包含基础知识数据、响应结果数据。基础知识数据基础知识数据说明说明。基础知识涵盖政府、电商、电力 3 个行业的业务资料,包括纯文本文档 30 份(总字数约 10 万字)、结构化表格 5 张(含 15000 条记录)、图文内容 10 组(含产品图、流程图等)。数据来源为公开政策文件、行业报告及模拟业务场景生成的标准化资料,确保数据的典型性与可控性。响应结果数据响应结果数据说明说明。响应结果包括文本生成内容、知识来源引用、流程参数变化、工具调用记录等,数据记录涵盖时间戳、处理状态、错误信息等元数据,为能力分析提供完整轨迹。大模型智能体开发平台技术能力综合测试报告3(三三)免责声明)免责声明测试时效性说明。测试时效性说明。本测试开展时间为 2025 年 5 月 20 日2025 年 6 月 15 日,所有准确率计算方法见附件,所有计算结果限于测试时间内成立。测试限制性说明。测试限制性说明。本测试基于特定模型版本与测试场景,实际应用效果可能因业务需求、配置调整及技术迭代产生差异。测试结果不构成任何商业推荐,用户需结合自身场景进行独立验证与选型决策。测试缺陷性说明。测试缺陷性说明。本测试仅针对各平台用户终端小样本体验,有可能存在数据缺失、技术环境不完全、样品版本 bug 等缺陷限制。本次测试最终解释权归国家工业信息安全发展研究中心赛昇实验室所有。二、二、RAGRAG 能力测试能力测试RAGRAG 定义:定义:英文全称是 Retrieval-Augmented Generation,中文全称是检索增强生成。是一种通过数据检索改进模型内容生成效果的技术方案,它引入来自外挂向量数据库、知识图谱或网络的数据,对原始问题补充增强后输入给大模型,有效缓解幻觉问题,并提高知识更新速度与生成可追溯性(来源:微软研究院)。(一)(一)RAGRAG 测试采用指标测试采用指标本次测试对 RAG 能力的评估从检索精准度、知识覆盖广度等六大核心维度展开。一是检索精准度,衡量召回相关文档的准确率与冗余信息过滤能力;二是知识覆盖广度,评估对领域内知识的覆盖完整性及边缘信息的处理能力;三是推理融合度,考察将检索结果与问题深度结合、生成逻辑连贯回答的水平;四是时效性响应,关注检索与生成的整体效率及动态知识更新适配性;五是多模态适配性,检验对文本、表格、图片等多元数据的处理能力;六是鲁棒性表现,评估面对模糊问题、噪声数据时的容错与修正能力。(二)(二)测试实施测试实施本次测试重点探索 RAG 在深度行业场景中的落地能力,构建了基于知识载体多样性、任务复杂度与机制完备性的三维评估体系。选取政策咨询、电商客服、销售数据分析等 6 个典型场景,构建 500 个高质量问题集。测试任务具体设计以文本问答、结构化数据问答及图文问答为主。大模型智能体开发平台技术能力综合测试报告41.1.文本问答任务文本问答任务。在检验 RAG 知识整合与意图理解方面,综合设置了包含单文档查询、多文档交叉验证、边缘案例等任务形式;在检验智能体交互鲁棒性方面,融入语义模糊问题、知识库外问题及多轮对话。2.2.结构化数据问答结构化数据问答任务任务。为考察 RAG 结构化数据处理能力,基于订单数据表与 SKU 表,设计单表查询、多表关联统计等复杂任务。3.3.图文问答图文问答任务任务。为考察 RAG 的 OCR 图片文字识别技术、多模态内容关联与配图回答能力,设置图片内容识别、图表关联检索、多模态信息融合等任务。(三)(三)文本问答文本问答任务任务实际测试时,设计专精特新政策咨询以及电商客服规定查询两种场景,问题设计聚焦单文档精确定位、多文档交叉验证与综合、语义模糊意图理解、知识库外问题拒答机制等能力维度,旨在全面检验 RAG 系统在纯文本领域的检索、理解、整合与生成能力。1.1.文本处理能力表现优异文本处理能力表现优异各平台在文本问题处理上展现出较强的准确性,纯文本问题得分普遍较高:均能实现意图识别,并在知识库中定位对应文档、合理组织反馈。单文档问题少量丢分,主要源于回答不完整或存在少量“幻觉”信息。多文档文本问题表现良好,所有模型回复准确率超 80%,丢分主因是多文档结合时存在少量信息遗漏,导致回答不够全面。个别平台调用结果稳定性不足,如扣子在进行 API 调用时,有一定比例的内容无法从知识库获取,而其网页端提问可正确回答。2.2.拒答与澄清追问处理差异化拒答与澄清追问处理差异化在采用同样拒答配置情况下,腾讯云智能体开发平台对知识库中不存在的问题实现 100%拒答,其他平台则出现不同程度基于模型知识而非知识库内容的回复。面对需要澄清和追问的问题,各平台均倾向于直接提供所有相关信息供用户参考,其中扣子对于所有问题均未给出追问澄清,但在多数场景也可以符合用户需求。大模型智能体开发平台技术能力综合测试报告5图 1:各平台 RAG文本问答表现3.3.来源引用策略来源引用策略倾向提供全面信息倾向提供全面信息在默认配置下,四个平台在来源引用方面都倾向于尽可能提供全面的参考信息。特别是在处理多文档问题时,虽然这种做法可能导致一定程度的信息冗余,但能够通过多源佐证帮助用户更全面地理解信息背景。(四四)结构化数据问答结构化数据问答任务任务本次测试围绕销售数据分析场景,基于实际订单表与在售商品 SKU 表数据,针对单表查询、单表统计、多表匹配查询、多表匹配统计 4 类典型任务展开,考察平台结构化数据处理能力。鉴于 RAG 在复杂数据分析场景的局限性,当前主流平台均对结构化数据分析场景进行了优化:阿里云百炼、百度智能云千帆与扣子均设置了独立的结构化数据导入模块,通过字段类型预定义、格式标准化等机制强化数据规范性。其中,阿里云百炼和扣子进一步设计数据库插件,支持多表关联查询与动态计算。而腾讯云智能体开发平台则采用后台自动化处理方案,简化用户操作但弱化了过程可控性。大模型智能体开发平台技术能力综合测试报告6图 2:大模型 RAG结构化数据问答表现根据测试数据分析,各平台表现差异的关键因素在于其对处理流程的调优精细程度。从结果返回看,阿里云百炼仍然是基于文档切片,在跨表关联、多条件组合统计时易出现信息遗漏与聚合误差,凸显纯文本检索模式对结构化分析场景的适配局限;腾讯云智能体开发平台单表查询表现优异,但在多表查询时存在 SQL 查询未能正确执行的情况,导致返回结果出现偏差;扣子在部分场景下存在自然语言到结构化查询的转换问题,主要表现为逻辑条件遗漏或语义理解偏差,从而导致返回结果异常;百度智能云千帆在单表统计、多表关联等任务中表现稳定,体现了其结构化引擎能较好处理复杂条件筛选与跨表聚合。通过自然语言交互实现对复杂数据的操作仍是行业共性挑战。研究表明,各平台在嵌套条件解析(如“销售额前五且库存低于警戒值的商品”)、字段格式容错(如中英文标点混用)以及多表路径推导等任务中均存在失误,反映出语义理解与结构化计算协同的不足。此类问题暴露出当前技术需进一步优化的方向:一方面需增强自然语言到查询语句的精准映射能力,建立上下文感知与模糊匹配机制;另一方面需强化字段格式兼容性校验,通过预处理与后验证双环节来保障数据分析的可靠性。大模型智能体开发平台技术能力综合测试报告7(五五)图文问答图文问答任务任务图文问答任务场景设计为风电行业市场与技术资料分析,采用各平台默认推荐的多模态模型,主要考察图片提问与配图回答能力,以及显式/非显式调用情况下图片输出的准确性与完整性。1.1.具备具备图片解析与图片解析与文字文字识别识别的的底层技术基础底层技术基础各平台均具备成熟的 OCR 图片文字识别技术,能够有效解析图片内容并识别用户提问意图,但在研究场景下的实际表现存在一定差异:阿里云百炼(91.7%)、腾讯云智能体开发平台(83.3%)、扣子(83.3%)对图片提问的识别能力较强,而百度智能云千帆识别率低的原因在于流程 bug(3 次不同时段测试综合结果),未能成功调用已上传的图片,导致图片解析链路断裂。在基于文档的图片定位任务中,所有平台均无法准确检索储能逆变器 PCS 等特定技术图片的关联信息,暴露多模态的场景优化深度仍有提升空间。图 3:各平台 RAG图文问答场景表现2.2.多模态内容关联与配图回答多模态内容关联与配图回答率率分化分化大模型智能体开发平台技术能力综合测试报告8各平台配图回答率呈现梯度差异:腾讯云智能体开发平台在显式/非显式调用场景下以 55%的正确回答率领先,百度智能云千帆存在图片显示故障但文档定位逻辑正确,而阿里云百炼因网页端图片显示异常导致配图正确率为 0%(3 次不同时段测试综合结果)。研究显示,显式调用图片指令可提升输出比率,表明用户交互设计对多模态输出效果存在直接影响。图 4:错误案例-无法正确显示图片3.3.图片输出质量控制机制存在普遍性缺失图片输出质量控制机制存在普遍性缺失各平台在图片输出环节均出现内容校验失效问题,典型表现为返回与答案无关的页面装饰性图片而非业务场景所需的技术图表,反映当前平台缺乏对输出图片内容相关性和准确性的有效校验机制。图 5:错误案例-输出图片无关大模型智能体开发平台技术能力综合测试报告9三、工作流三、工作流能力测试能力测试工作流工作流定义:一类能够完全自动执行的经营过程,根据一系列预设的过程规则,将文档、信息或任务在不同的执行者之间进行传递与执行(来源:国际工作流管理联盟(Workflow Management Coalition,WfMC)。其本质是为复杂任务提供标准化、可预测的执行框架,尤其在需要严格步骤控制的业务场景中展现不可替代的价值。(一)工作流测试采用指标(一)工作流测试采用指标本次测试对工作流能力的评估从参数动态提取、异常回退等四大核心维度展开。一是参数动态提取,评估从对话中精准识别订单号、地址等关键信息的能力;二是异常回退,检验参数修改或意图切换时流程回溯与状态恢复的稳定性;三是意图识别,考察区分咨询、操作等用户真实意图的准确性;四是容错处理,验证对模糊表述、混淆信息等异常输入的包容与修正能力。同时关注端到端流程准确率、参数提取成功率等指标,全面衡量复杂场景下的流程控制精度。(二)测试实施(二)测试实施工作流能力测试以订单修改为核心场景,基于包含 13 条端到端工作流、共计80 个问题的问题集,全面覆盖参数提取、回退、意图识别及流程容错四个关键环节。测试通过模拟用户在多轮对话中的多样化需求,如一般咨询、修改配送地址、订单退货等,同时故意引入“尽快送达”等模糊表述以及“放弃修改并取消订单”等意图切换情况,着重验证系统在参数动态管理与流程控制方面的稳定性。在测试过程中,详细记录了端到端流程准确率、参数提取成功率及意图识别率等关键指标,深入分析不同平台在异常输入下的容错能力与恢复能力。各平台工作流核心能力表现如下:表 6:大模型工作流能力表现平台端到端准确率参数提取准确率意图识别准确率工作流结束判断准确率阿里云百炼69.2u.0.70.0%腾讯云智能体开发平台69.2u.0.30.0%扣子61.5e.0.30.0%百度智能云千帆61.5p.0.00.0%大模型智能体开发平台技术能力综合测试报告10测试数据显示,各平台在意图识别环节均保持较高水平,流程终止节点判断准确率达 100%。参数提取环节表现分化,阿里云百炼与腾讯云智能体开发平台提取准确率为 75.0%,高于百度智能云千帆与扣子,差异主要体现在混淆信息中订单号等关键字段的识别效果。端到端流程准确率方面,阿里云百炼和腾讯云智能体开发平台准确率接近 70%,扣子和百度智能云千帆略低,这一差异主要源于参数提取节点的影响。整体来看,各平台在工作流节点执行层面均能达成基础功能要求,但在复杂信息处理场景下的技术实现深度与节点细节调优水平存在一定差异。结合典型错误案例进一步分析,在意图识别方面,除扣子外,其他平台会出现“什么情况下,可以退货?”直接判定为退货意图并进入退货流程,而非输出退货相关流程信息,这体现出部分平台在意图识别的精细度上存在不足,未能准确区分咨询意图与操作意图。在参数提取方面,百度智能云千帆、扣子在面对复杂长段文字中存在混淆信息的情况,无法正确提取多处出现的订单编号,而是直接输出提示词中的示例订单编号,暴露出仅依赖大模型进行参数提取在复杂场景下的局限性。图 7:错误案例-同样配置下部分平台参数提取失败综合以上数据分析结果,可以发现:1 1.工作流具备基础可用性但仍有提升空间工作流具备基础可用性但仍有提升空间各平台工作流已具备基础可用性,在合理配置下能满足电商客服等复杂场景的基础需求。各平台整体得分差异不大,不过该得分基于基本一致的默认配置得出,若经过精细化调整,其表现仍有提升空间。例如百度智能云千帆和扣子在参数提取环节针对多订单、地址等信息提取的失分项,可通过整合代码工具等方式加以改进。大模型智能体开发平台技术能力综合测试报告112.2.不同平台在工作流配置上呈现多维度差异化设计不同平台在工作流配置上呈现多维度差异化设计各平台的工作流配置均根据自身产品特性进行了深度优化,通过个性化模块设计,重点围绕大模型能力调用、工具集成适配和逻辑流程编排等关键维度展开。一个典型差异体现在对于“任务流”和“对话流”的处理:阿里云百炼和扣子从工作流创建阶段就将对话管理系统与任务执行引擎分离,百度智能云千帆和腾讯云智能体开发平台则采用融合设计。其中,腾讯云智能体开发平台通过全局 Agent机制实现实时对话交互管理、上下文参数自动提取、流程状态智能监控,并支持参数回退、对话终止等复杂场景的智能识别和处理。另外一个典型差异体现在节点封装方面:腾讯云智能体开发平台将“参数提取”独立抽象为单独节点;阿里云百炼与百度智能云千帆分别提供独立的 MCP(ModelContext Protocol,模型上下文协议)节点组件;扣子则构建了包含 9 组近 40 个节点类型的丰富矩阵。这些差异化设计既影响了用户配置的操作门槛与使用体验,也在场景适配性上形成了不同侧重,使得各平台在流程搭建、功能调试、场景落地等操作环节中,展现出各具特色的优势与局限性。图 8:各平台工作流组件大模型智能体开发平台技术能力综合测试报告12总之,当前工作流系统仍定位为辅助决策工具,其运行逻辑无法完全脱离业务人员的专业判断,否则极易引发流程断点或业务逻辑处理错误。从配置层面看,工作流的搭建需要操作人员同时具备业务场景理解能力与大模型技术认知能力,这种双重知识储备的要求形成了较高的使用门槛。即便在经过抽象简化的测试场景中,参数提取偏差、意图识别误差等问题仍可能出现,这进一步凸显了人工干预在复杂业务处理中的不可替代性无论是流程规则的精细化调校,还是异常场景的柔性处置,均需专业人员结合业务经验与技术特性进行动态校准。四、四、AgentAgent 能力测试能力测试智能体 Agent 定义:Agent 是由大语言模型动态编排自身工作流并自主调用工具以实现目标的系统。其核心包含三个特征:感知、决策与行动,强调其在运行时的自主性与工具扩展性(来源:Anthropic)。(一)(一)AgentAgent 测试采用指标测试采用指标本次测试重点评估智能体 Agent 的工具调用能力,从四大维度展开。一是意图理解深度,衡量智能体对模糊指令、隐含需求及复杂表述的解析能力,包括多轮对话中的上下文延续性、语义歧义消解精度等;二是操作协同性,评估用户与智能体在任务拆解、工具调用等环节的配合流畅度,涉及步骤衔接自然度、用户干预成本等;三是反馈有效性,考察智能体输出结果的可理解性、错误提示的明确性及操作引导的实用性;四是机制完备性,检验交互过程中的异常处理(如操作回退、功能解释)等关键功能的覆盖度。测试通过构建包含日常咨询、复杂任务处理等典型场景的测试集,模拟不同用户操作习惯与需求类型,采集交互轨迹与用户反馈数据,实现对 Agent 能力的系统测试。(二)测试实施(二)测试实施当前,智能体技术仍处于发展初期,其功能生态与工具链尚未完全成熟。在此背景下,工具调用能力成为衡量智能体实用性的核心指标之一。本次测试以DeepSeek R1 为基础模型,集成天气查询、数据分析、图表生成等 6 大类通用工具,设计 40 个问题集,重点考查以下工具调用维度:1.单工具单工具调用调用:验证基础意图识别与工具匹配准确性;2.多工具协同多工具协同:检验任务分解与工具链式调用的完整性;大模型智能体开发平台技术能力综合测试报告133.提示词提示词显式调用显式调用:明确在对话中显式指定调用工具的执行效果。测试过程中,通过标准化流程记录单工具调用完成率、多工具调用完成率及提示词调用完成率,重点分析智能体在工具选择合理性、调用完成度方面的表现。各平台智能体能力对比如下:图 9:各平台智能体能力表现在统一推理模型支撑下,各平台智能体均构建了基础工具调度机制,实现从用户需求到工具调用的逻辑映射。例如,面对“规划 5 月 14 日从北京出发到山西的5 日假期行程”的指令,所有智能体均能识别“路径规划 天气查询 联网搜索”的工具组合需求,展现出标准化的任务分解能力。基础推理模型的强逻辑能力保障了工具意图识别的一致性,各平台智能体在工具调用效果上的差异主要源于平台级生态支撑与流程优化水平。其中,腾讯云智能体开发平台在本项测试中表现突出,工具本身的功能完整性与响应稳定性直接提升了调用成功率。1.1.插件插件/工具生态成熟度与集成深度工具生态成熟度与集成深度,生态绑定决定能力边界生态绑定决定能力边界。各家平台普遍依托自身既有生态进行工具接入与能力编排:百度智能云千帆优先整合百度文库、百科、地图等内容与数据资产,强化智能体的信息调取与生成支撑;腾讯云智能体开发平台通过与腾讯文档、腾讯地图等原生工具的深度打通,构建了较为完整的工具链结构;扣子以轻量化工具生态见长,支持快速插件开发和嵌大模型智能体开发平台技术能力综合测试报告14入;阿里云百炼则联动钉钉、高德地图等业务模块,尝试将智能体嵌入办公、生活等实际场景中。2.2.技术稳健性与细节打磨,非核心逻辑短板影响端到端能力和用户体验。技术稳健性与细节打磨,非核心逻辑短板影响端到端能力和用户体验。各平台智能体均存在不同程度的工具调用流程断点问题。如百度智能云千帆尽管能通过代码解释器生成图表绘制代码,但未将代码执行结果转化为可视化图表并直接输出,需用户额外操作,降低了多工具协同的完整性。图 10:错误案例-代码解释器执行失败技术实现层面的瑕疵导致调用失败或结果异常,影响最终输出质量和用户体验。如阿里云百炼、百度智能云千帆均出现过三方天气/地图工具认证失败导致调用中断的情况;扣子在绘制数据图表时,存在由于字体问题导致中文标签无法显示的现象。这些问题虽未影响基础工具调用逻辑,但对最终结果输出和用户体验造成一定影响。大模型智能体开发平台技术能力综合测试报告15图 11:错误案例-天气工具鉴权失败总的来看,当前各平台智能体仍处于通用工具整合的初级阶段,在基础意图识别与单工具调用上已具备可用性,但在多工具深度协同、行业垂直工具适配及端到端流程闭环上仍有显著提升空间。各平台已搭建智能体能力的技术框架,但真正实现“工具即服务”的智能化调度,仍需在生态建设、流程闭环与细节优化上持续投入。研究表明当前发展的瓶颈分为多工具深度协同与自动化闭环能力不足、技术实现稳健性亟待加强以及行业垂直工具适配与生态广度深度不足三点。一是一是多工具深度协同与自动化闭环能力不足多工具深度协同与自动化闭环能力不足。流程断点(如图表代码执行与呈现分离)是普遍存在的短板,阻碍了复杂任务的无缝完成和用户体验的提升。二是二是技术实现稳健性亟待加强技术实现稳健性亟待加强。鉴权失败、渲染错误等技术瑕疵虽不否定核心架构,但对实用性和可靠性构成显著挑战,需在工程层面重点投入。三是三是行业垂直工具适配与生态广度深度不足行业垂直工具适配与生态广度深度不足。当前集成工具多为通用型,针对金融、医疗、工业等垂直领域的专业工具适配深度和覆盖广度远远不够,限制了智能体在专业场景的落地价值。各平台智能体已成功搭建底层技术框架,证明了其可行性。然而,从“能调用工具”到真正实现“工具即服务”的智能化、自动化、高可靠的服务调度与交付,仍需在生态建设生态建设、流程闭环流程闭环、技术稳健性技术稳健性以及垂直场景深耕垂直场景深耕上持续投入与突破。当前正处于智能体实用化能力构建的关键爬坡期,解决上述瓶颈是迈向下一阶段成熟应用的必经之路。大模型智能体开发平台技术能力综合测试报告16五、五、总结与展望总结与展望从三大核心维度测试结果可见,当前智能体开发平台能力呈现“基础能力趋同,产品路径分化”的竞争格局。各平台在文本处理、流程控制等基础场景已形成标准化能力,但在复杂场景处理、多模态协同及工具生态建设上表现出一定差异。各平台差异性主要体现在技术路径选择与工程实现深度上。阿里云百炼在结构化数据接入、参数提取稳定性及工作流流程控制等方面表现稳健,体现了其底层架构设计的成熟性与系统响应的鲁棒性;百度智能云千帆在数据库集成等细分能力上展现出一定优势;扣子则以轻量化插件系统和灵活工作流节点组合,提升了开发效率与定制适配能力;腾讯云智能体开发平台则凭借端到端的流程打通能力和完善的原生工具链支持,在多工具协同调用、参数自动提取与流程容错处理等多个维度均实现较为均衡的表现。大模型智能体开发平台技术能力综合测试报告17图 12:大模型智能体开发平台测试表现总览智能体开发平台间竞争力的实质已逐步由单点能力比拼转向体系能力构建。未来的发展将取决于三个关键路径的持续演进。首先,场景深度适配是实现价值落地的前提。仅具备技术能力远不足以支撑复杂场景的业务化部署,智能体必须进一步提升模型与真实任务需求之间的耦合精度。围绕特定行业、细分任务构建标准化知识单元与任务模板,成为“从能用到好用”的关键一环。其次,技术链厚度构建决定智能体的系统执行能力。大模型能力的释放必须依赖稳定的调用机制与闭环的流程体系。当前部分平台在节点设计、状态控制与工具响应稳定性方面仍存在中断或冗余路径,需通过组件颗粒度优化与自动化控制链路增强系统韧性。最后,生态广度拓展将成为智能体可持续发展的关键变量。智能体能力的边界不止于自身,而取决于其与外部 MCP 合作体系及开发者社群的连接能力。随着开发者需求走向定制化与多行业融合,平台必须进一步释放底层能力接口,推动第三方工具插件接入标准化,并建设完备的开放工具市场,打造“平台 生态”的双轮驱动能力体系。总的来看,智能体开发平台正处于能力体系构建的关键爬坡期。当前竞争尚未形成不可逾越的技术壁垒,未来能否构建稳定、可用、可扩展的智能体服务体系,将决定平台在产业智能化转型进程中的角色位次。以场景适配为牵引,以技术链完善为支撑,以生态扩展为保障,唯有实现从“任务完成”向“任务统筹”再到“服务自治”的跨越,方能真正走出实验性应用,迈入生产级交付。大模型智能体开发平台技术能力综合测试报告18附:测试指标定义本次大模型智能体开发平台横向测试中,涉及的指标及其定义如下:1 文档单点知识回复准确率:针对用户从单一文档中提出的明确、独立知识点问题,返回答案的准确程度。2 多文档多段知识组合回复准确率:从多个关联文档中提取分散的知识片段,逻辑整合成完整、连贯答案的准确率。3 无关知识拒答准确率:当检索到的文档与问题无关或信息不足时,主动拒绝回答(而非猜测或错误回答)的准确率。4 模糊知识澄清准确率:当检索结果存在歧义或需补充条件(如多分支场景)时,主动要求用户澄清(而非强行回答)的准确率。5 单表查询准确率:基于用户问题,从单个结构化表格中精准定位并提取数据的准确率。6 多表关联查询准确率:通过关联多个结构化表格(如 JOIN 操作),综合提取并计算数据的准确率。7 图文问答准确率:当用户提问依赖图片内容(如 OCR 识别、图表解析)时,返回答案的准确率。8 答案关联出图率:生成答案时,主动关联并正确输出知识库中相关图片的比例。9 端到端准确率:从工作流启动到结束,完整执行预设流程节点且无逻辑错误的成功率。10 参数提取准确率:在多轮对话中,需要从对话中提取参数的节点中从用户语句中精准识别并提取关键参数(如订单号、时间、金额等)的准确率。11 参数回退准确率:多轮对话中,当用户修改前序参数时,回溯调整后续依赖参数并保持流程一致的准确率。12 意图识别准确率:工作流节点结合上下文与当前对话,正确判断用户真实意图(如查询、操作、投诉)的准确率。13 工作流结束判断准确率:当用户表达结束意图(如“寒暄”“退出”)时,终止流程并生成结束话术的准确率。大模型智能体开发平台技术能力综合测试报告1914 单工具调用完成率:针对智能体中单一工具模块,正确理解用户意图、分解任务,调用工具并返回正确结果的成功率。15 多工具调用完成率:针对涉及多个工具协同的复杂提问,智能体依次识别工具调用需求、规划调用顺序,执行并返回正确结果的成功率。16 提示词调用完成率:智能体根据显式提示词指令(如“调用 XX 工具分析数据”),选择工具并完成调用的成功率。
2025-08-13
21页




5星级
机器人大模型深度报告机器人大模型深度报告我们距离真正的具身智能大模型还有多远?我们距离真正的具身智能大模型还有多远?证券研究报告请务必阅读正文之后的免责声明部分1首席证券分析师:周尔双执业证书编号:S.
2025-08-11
56页




5星级
前言PERFACE在生成式人工智能技术重构全球数字经济版图的当下,AI陪伴聊天赛道成为大模型商业化落地的黄金入口。随着模型参数规模突破万亿级,该领域正迎来从工具属性向情感交互生态跃迁的临界点,孕育现象.
2025-08-08
38页




5星级
多模态大语言模型技术及应用标准领航研究报告中国汽车标准化技术委员会智能网联汽车分技术委员会车用人工智能标准专项组2025年7月1前言前言近年来,人工智能(AI)技术的飞速发展为智能汽车领域带来了前所未.
2025-08-07
86页




5星级
中国联通元景大模型 AI 终端合作白皮书1中国联通元景大模型中国联通元景大模型 AIAI 终端终端合作白皮书合作白皮书中国联通(2025V2.0)中国联通元景大模型 AI 终端合作白皮书2目录目录1.
2025-08-06
39页




5星级
中文大模型基准测评中文大模型基准测评2022025 5年年上半上半年报告年报告 2025.08.04 2025年中文大模型阶段性进展半年度评估SuperCLUE团队精准量化通用人工智能(AGI)进展,.
2025-08-05
60页




5星级
卡奥斯天智工业大模型价值领航实践1前言一、工业大模型的发展历程1.1 工业智能化转型驱动1.2 工业大模型的崛起与演进1.3 工业大模型的发展挑战1.4 卡奥斯天智工业大模型创新实践二、天智工业大模型.
2025-08-04
20页




5星级
AI 大模型技术方案白皮书2025年7月3410162331AI大模型技术方案白皮书发展态势应用场景技术方案未来展望40成功案例引言技术特点2AI大模型技术方案白皮书引言在科技飞速发展的当下,AI大模.
2025-07-30
42页




5星级
十五五规划建议全文(25页).pdf
三个皮匠报告:2025银发经济生态:中国与全球实践白皮书(150页).pdf
三个皮匠报告:2025中国情绪消费市场洞察报告(24页).pdf
2025刘润年度演讲PPT:进化的力量.pdf
三个皮匠报告:2025中国AI芯片市场洞察报告(24页).pdf
清华大学:2025年AIGC发展研究报告4.0版(152页).pdf
深圳人工智能协会:2025人工智能发展白皮书(144页).pdf
三个皮匠报告:2025银发经济生态:中国与全球实践白皮书(PPT版)(55页).pdf
三个皮匠报告:2025中国稀土产业市场洞察报告-从资源到战略武器,中美博弈的稀土战场(25页).pdf
三个皮匠报告:2025年 i 人经济洞察报告:社恐如何重塑新消费市场(23页).pdf