《中国⼯商银⾏软件开发中⼼:2024工商银行人工智能大模型白皮书(71页).pdf》由会员分享,可在线阅读,更多相关《中国⼯商银⾏软件开发中⼼:2024工商银行人工智能大模型白皮书(71页).pdf(71页珍藏版)》请在三个皮匠报告上搜索。
1、 版权说明?白皮书 工商银行人工智能大模型 中国商银软件开发中?2024 年 10?版权说明?版权说明 本书版权属于中国商银软件开发中,并受法律保护。转载、摘编或利其它式使本书字或者观点的,应注明“来源:中国商银软件开发中”。违反上述声明者,我们将追究其相关法律责任。?前?前 产业变,智能引领。习近平总书记指出,世界百年未有之变局加速演进,新轮科技命和产业变深发展,国际量对深刻调整,我国发展临新的战略机遇。智能是引领这轮科技命和产业变的战略性技术,具有溢出带动性很强的头雁效应。促进智能同经济社会发展深度融合,推动我国新代智能健康发展,是科技界和产业界的时代重任。因势利导,乘时上。党和国家推出系
2、列智能发展的政策和规划,为智能产业提供了强有的撑和引导,推动科研和应跻世界先进列。近期颁布的成式智能服务管理暂办法明确了对新兴的成式智能模型产业的持和励,完备了科学监管框架,为产业健康发展提供了有政策导向和法规保障。商业银作为数字化和智能化的先者,具备成式模型应丰富的场景舞台和技术实施基础,势必成为模型技术和业应深度融合的最佳范。融强国,创新求变。中央融作会议指出,融要为经济社会发展提供质量服务,要做好科技融、绿融、普惠融、养融、数字融五篇章,为商业银的融强国建设指明了向。落实在经营中,商业银同时必须对客需求多样化、险防控复杂化、竞争环境激烈化等多的挑战和机遇,需要充分利智能等新技术提升服务质
3、量和 前?效率,增强险管理和创新能,提企业在数字经济中的竞争和影响。成式模型作为近年来智能领域的最新技术成果,以其强的表达能、泛化能和创造能,在机对话、知识提炼、案创作等众多领域取得了令瞩的成果,为融服务和产品的创新提供了新的机遇。数字银,砥砺奋进。商业银的数字化、智能化转型不是个帆顺的过程,当中涉及组织、技术、数据、才等各的挑战。如何结合银企的优势和业务场景的特点,充分挖掘智能模型的潜,有效防控模型潜在的技术和科技伦理险等,都是急需解答和实践的现实问题。本从商业银视,对成式模型的技术撑、应场景和评测法等各进调研和全景式展,为商业银的数字化发展提供理论和实践参考。录?1 录 第一章 概述.2(
4、)源起:通智能标远,模型规模持续增.2()成:新模型架构彰其能,成式技术崭露头.3(三)爆发:会话智能惊艳市场,产业跟进百舸争流.4 第二章 人工智能大模型发展现状.7()技术升级夯实基础,应态蓬勃发展.7()评测体系逐步完善,可信治理持续健全.35 第三章 人工智能大模型应用案例.49()模型场景实践:全流程嵌助业务提质增效.49()模型应范式:模板化复加速案设计落地.56 第四章 总结与展望.60()技术跟踪:研判技术趋势,前瞻布局务实规划.61()创新驱动:打造产品标杆,敏捷创新赋能业务.63(三)安全合规:完善安全体系,保障应健康发展.64(四)效运营:强化成本意识,提资源使效率.66
5、(五)结语.66 第章?概述?2 第章 概述()?源起:通智能标远,模型规模持续增 智能技术在过去年取得了巨的发展,形成了完备的产业态链和庞的市场规模,现已进规模化落地效期。然,巨应潜的背后是 70-80%的碎化应场景,当前的主流 AI 技术框架下,仍然需要量的事议的建模和模型训练,应开发成本和实施周期始终是规模化应的制约。从使者视,多数智能应局限于特定场景下机械化重复性的任务,缺乏类的开放式沟通、逻辑推理、创意创作的能,智能化平不。实现具备泛领域知识和问题解决能的通智能(AGI)直是科技前沿不懈努的向。2018 年以来,模型技术逐渐发展成为通往通智能的关键演进路径。模型的深度神经元络参数规模
6、达到百亿级以上,通过模型算法能够基于海量数据统学习和表征泛领域的知识、规律和模式,形成通的基础预训练模型。在向具体场景应时,这种具备“渊博知识”的模型尚需通过少量的场景专属任务的标注数据来进微调,以便能够理解需要解决的任务类型,最终形成为场景专属模型真正落地。模型的出现在定程度上解决了标注成本的问题。通过对海 3 第章?概述?量数据进监督学习,可以有效地从量标记和未标记的数据中捕获知识,让模型学习到更多的通特征。借助“预训练+微调”可对特定任务进优化,将通特征迁移到不同的任务中,提升模型的精度和泛化能。模型参数规模越使得样本的学习也能达到以前更好的能,极的降低了业应 AI 的成本。()?成:新
7、模型架构彰其能,成式技术崭露头 2017 年,然语处理领域的新型神经络架构转换器(transformer)被提出,它具有更的可并性和更上乘的语处理能,催出了 GPT 等优秀的然语成式模型(图 1)。2020 年 OpenAI 推出的 GPT-3 参数规模达到 1750 亿,训练数据量达 45TB,在通本成能达到个新的度,商业实价值被产业界泛的认可和关注。在图像领域,成对抗络(GAN)等成式模型的成熟和深度络规模的提升,推动着图像成质量稳步爬升。不过初期的图像成只能持特定场景(如脸)图像的随机成,或者将张图在两种特定的格之间转换(如卡通格和实物格),实性相对有限。2021 年开始,跨模态成式模型
8、取得突破性进展,OpenAI、微软、歌、Meta 等头部科技公司纷纷推出以图(DALL-E,Make-a-ScenePARTI 等)、视频模型(NUWA,Make-A-Video,CogVideo 等),相关质量已能达到商业应的要求。尤其特别的是跨模态模型使图像和视频的成能够通过然语的输进控制和调节,为多媒体内容成应打下了必备的基础。第章?概述?4 图 1:模型演化历程(三)?爆发:会话智能惊艳市场,产业跟进百舸争流 2022 年 11 智能领域科创公司 OpenAI 以云端服务的形式发布成式对话模型 ChatGPT,能够通过单轮或多轮的互动问答不断深理解述求,完成知识问询、代码写作和诊断、案
9、创作、聊天、算数等系列传统的 NLP 任务。这种以度拟化的通交互模式向普罗众提供开放域 AI 服务的能,被认为是通智能发展的程碑事件,获得了市场的泛关注,仅 2 个就创造了数过亿的新记录,引爆了新轮研发和应热潮。2023 年以来,国内外头部科技公司竞相发布模型,形成了“百模战”的业态格局。在基础模型,成式的语模型、图像模型、语模型、视频模型等垂直领域模型不断迭代,争百尺竿头更进步,例如 Sora 凭借在视频质量和致性的出表现,掀开新篇章;能够综合处理图、的多模态模型也在推陈出新、迅猛发展(表)。在基础模型之上,向特定领域进步衍出程序开发(Code)、商业智能(BI)、调度规划(Agent)等任
10、务模型(表),向垂类业则发展出医疗、法律、融、通信等业模型(表三),模型能呈现向 5 第章?概述?任务和业纵深的快速拓展的态势。表:基础模型 类别?简介?典型代表?语模型 旨在理解和成类语,通过学习到本的上下信息,实现本成、本总结、翻译等任务。LLaMa、GPT、Claude、Vicuna、ChatGLM、百川、盘古、脑海等 视觉模型 通过学习视觉特征和语义信息的关系,完成图像和视频的识别、成、编辑等任务。DALLE2、DALLE3、Stable diffusion、SDXL、i2vgen-xl 等 语模型 通过学习语信号中的声学特征和语义信息,从能够进语识别和合成等任务。Voicebox、V
11、ALL-E X、USM、SpeechGPT、whisper、SALMONN、GPT-SoVITS,ChatTTS,CosyVoice,喜拉雅频模型等 多模态模型 通过学习不同数据类型(如本、图像、语等)之间的关联和交互,从能够进跨模态任务,如跨模态检索、跨模态成、图问答等任务。PaLI、VisCPM、NExT-GPT、MMICL、紫东太初、Qwen-VL、Sora、GPT-4o、Gemini 等 表:任务模型 类别?简介?典型代表?程序开发模型 通过量代码样本的训练,学习代码的结构和特征,从动成符合要求的代码,以辅助员开发,提编程效率。CodeGeex、Code Llama、CodeFuse、
12、CodeGemma 通义灵码等 商业智能模型 基于语模型实现,可通过多轮会话,获取实时数据的图表展,也可动总结与图表相关的业务结论。ChatBI、Sugar BI 等 调度规划模型 旨在解决复杂的调度问题,其通过动分配任务、规划路径等,以提调度规划的效率。HuggingGPT、ToolLLM 等 第章?概述?6 表三:业模型 类别?简介?典型代表?融业模型 通过融数据训练成,其主要于解决融业的各种问题,如险管理、智能投顾、反欺诈等。BloombergGPT、轩辕、AntFinGLM、FinGPT、LightGPT 等 法律业模型 通过法律法规、法律判决书等数据训练成,其主要于解决法律业的各种问
13、题,如法律咨询服务、案件结果预测等。ChatLaw、LawGPT、韩等 通信业模型 其旨在利然语技术来处理通信本,如通话记录、短信、邮件等,动识别本中的关键信息,并解答客问询。九天、TeleChat、泓湖等 交通业模型 通过交通法规等数据训练成,其主要于解决交通业的各种问题,如交通管理、智能出、交通安全教育等。TransGPT、TrafficGPT 等 医疗业模型 通过医疗书籍、病例等数据训练成,其主要于解决医疗业的各种问题,如疾病诊断、病情预测、药物研发等。DoctorGLM、MedGPT、Med-PaLM、灵医等 天预报模型 利深度学习的法了解各种象数据中的关系,以快速预测未来的天状况。N
14、owcastNet、华为云盘古象模型、CMA-AIM、伏羲等 作为智能运的先业,银业度重视模型技术的兴起,结合实际需求先先试,积极挖掘新技术在融业务中的应场景,加速推动企业数字化转型和提升市场竞争能。在另,以模型为代表的新代智能技术对于当前智能全技术栈带来新式的影响,在基础设 7 第章?智能模型发展现状?施、数据准备、算法调优、安全可信等均提出了新的挑战,需要商业银持续探索和优化建设路径,形成融模型的最佳实践。第章 智能模型发展现状()?技术升级夯实基础,应态蓬勃发展 成式模型在本、图像、频等各个领域下的能跃,源于算基础设施、质量训练数据、模型架构和训练算法等各个的进步,由量变引发质变:专 A
15、I 训练集群为研发百亿级参数规模以上的模型提供了硬件基础;预训练语料库的不断扩充为模型提供了丰富的知识来源;转换器(Transformer)注意机制的应改进了模型对程依赖关系的建模能;指令微调技术强化了模型对提问意图理解和反馈偏好的适配程度等等。鉴于模型技术栈的复杂性,模型程化平台成为模型企业级应的必备利器。它们整合了分布式训练框架、超参数搜索、模型压缩、性能评估、持续集成等动化功能,极简化了模型和应开发流程。商业银实施模型企业能建设,应当结合业务需求特点选择合适的路径构建完备的基础和程技术体系,降低使槛,加速模型从研发到产品和解决案的价值化过程,充分赋能业务。8 第章?智能模型发展现状?1.
16、数算协同能涌现,模型学习才识并重 (1)算设施 当代以深度神经元络为代表的智能模型涉及数据吞吐量的矩阵和张量运算,对算先天具有较的要求(图 2)。相于早先在单卡或者单机上可以训练的深度络模型,成式模型的参数规模数千亿,对计算设备的内存开销巨,动辄需要上百张算卡的撑。基于海量数据的训练过程同时意味着可观的计算时间开销,为了缩短训练周期,在实际的模型研发中往往会进步提模型训练的并发度,推升算集群达到万以上的规模。这样的算设施必须通过芯、络、调度框架等系统级的协同优化来实现对模型的性能持。同时,通过终端和云端的混合协同,有效降低推理成本并提升速度,云边端三级算紧密结合将是解决模型规模落地应问题的主流
17、案。图 2:随着模型参数量增加,模型对算需求不断增 9 第章?智能模型发展现状?前通的智能芯以英伟达的 GPU 产品为主流。其中英伟达的Blackwell GB200 计算平台是款基于最新 Blackwell 架构的超级芯,旨在幅提升 AI 计算性能和能效。由两个 B200 Blackwell GPU 和个 Grace CPU组成。B200 GPU 包含 2080 亿个晶体管,采台积电 4 纳艺制造,具有达 20 petaflops FP4 计算能。Grace CPU 则配备了 72 核的 Arm Neoverse V2 内核,可配置 TDP 达 2700W。GB200 在推理语模型性能上前代
18、H100 提升了 30 倍,同时成本和能耗降原来的 1/25。GB200 配备了 384GB内存,并通过 900GB/s 的超低功耗 NVLink 技术连接两个 GPU 和 CPU。内存带宽提了 1.4 倍,内存容量提了 1.8 倍,从增强了处理成式 AI 任务的能。GB200 利第五代 NVLink 进间互联,实现了效的通信基础,为模型训练提供坚实的算底座。国产 AI 算产业近年来取得了的发展。华为昇腾 910 对标业界先进 AI 产品,单精度浮点(FP32)计算速度最可达每秒 99 万亿次,远超业界主流平;半精度浮点(FP16)计算速度最可达每秒 376万亿次,整型(INT8)计算速度最可
19、达每秒 752 万亿次。在算集群,Atlas 900 A2 PoDc 最可扩展包含 8000 昇腾芯的 AI 算集群,提供 3 EFLOPS 超强算,计算节点间通过 200G RoCE 络互联,保障集群训练时的线性度。(2)模型并框架 在集群化 AI 算设施的基础上,模型的训练可以通过以下种并模式开展。10 第章?智能模型发展现状?模型并(图 3):由于当前的模型规模往往远超单个计算设备的内存容量,将模型切分到多个设备上成为种然的选择。模型从输到输出由结构相似的算层级连接堆叠成,形成模型的深度;在每个层级上的计算通过众多并发的神经元节点运算实现,形成模型的宽度。相应的,模型可以在宽度和深度两个
20、向上进切割。张量并是宽度向的切分,它基于矩阵运算分解的数学原理在模型的层内进分割,形成的单个模型跨越完整模型的所有层级,但只包含每个层级的部分运算。流线并采取基于深度的切分,将模型的不同层级拆解到各个计算设备并通过流操作的式形成各个层级运算的并发执。相对于流线并中分布式数据交换主要发在承载相邻层级的计算设备之间,张量并中各个计算设备之间均产量的数据交换,对数据交换的带宽要求更,所以主要应在机多卡的服务器节点内部的并发实现。11 第章?智能模型发展现状?图 3:模型训练的并模式:模型并1 数据并(图 4):这种模式下,数据被拆散分配到位于不同计算设备上的模型实例来参加训练过程,设备相互之间定期地
21、就训练所得的模型参数或者参数优化的梯度值进同步,保证所有设备上的模型状态保持致。数据并般要求每个设备上的训练实例储存和维护完整的模型参数和状态,所以并不能节省 AI 算设备的内存开销。零冗余优化器(ZeRO-Zero Redundancy Optimizer)持将模型的参数、梯度值和优化器状态划分到不同的进程,允许每个设备的训练实例只储存模型的部分,在训练过程中每个训练实例动态地从其他设备通讯获取需要的模型参数和梯度值来完成本地的训练计算,从极提升数据并发模式下的内存使效率。1 引自 https:/openmlsys.github.io/chapter_distributed_training
22、/methods.html 12 第章?智能模型发展现状?图 4:大模型训练的并行模式:数据并行1 混合并(图 5):在实际应中往往综合模型并和数据并等多种策略的组合,以充分利多个维度的并能,实现取补短。例如采取数据并+流线并+张量并的模式可以充分利算资源和通信带宽达到兼顾模型的内存扩展性和训练加速的的。图 5:模型训练的并模式:混合并1 前主流的 AI 计算框架态均已持以上全部或者多数的并训练模式。全球来看,典型的如 PyTorch+DeepSpeed 态和 TensorFlow+Mesh-TensorFlow 态。国内来看,近两年国内商推出的 AI 框架市场占有率也正稳步提升。百度桨在 2
23、023 年针对于模型开发新发布了 PaddleFleetX开发套件,其核技术包括全场景分布式并策略、分布式训练优化技术和效的模型分布式推理与部署案,已经具备可观的开发者认知度。华为的昇思 MindSpore 框架充分考虑模型开发时可能会遇到的问题,通过软 13 第章?智能模型发展现状?硬件协同优化,实现代码即可完成模型动切分、分布式并计算,将模型开发并代码量降低 80%、系统调优时间下降 60%,成为国内最活跃的模型开源框架之,在科研领域受认可。(3)训练数据 训练数据的多样性、规模和质量,对模型能的提升起着关键作,被泛认为是 AI 模型竞争的重要因素。在所有的模型训练数据集中,语料数据的规模
24、遥遥领先,有地撑了语模型的快速发展。语料数据可来络本、书籍、学作品、新闻、媒体数据、社交媒体数据和公共数据集等多样性的渠道。这些渠道提供的数据涵盖众多不同语样式和主题,常有助于模型通能的学习。络本:互联上的量本是语模型的主要数据来源。其内容包括但不限于信息、博客章以及维基百科等,这些数据可以帮助模型学习到丰富的语样式和泛的主题。书籍和学作品:书籍和学作品是另个重要的数据来源。这些本提供了量的语表达和化背景,有助于模型学习到更多的语规律和格。新闻和媒体数据:新闻报道和媒体章数据可以涵盖各种主题和领域,有助于模型学习到与时俱进的语表达和话题。14 第章?智能模型发展现状?社交媒体数据:社交媒体平台
25、上的数据,如推特、微博、脸书等,也可以作为语模型的数据来源。这些数据通常包含了量的实时本,反映了当前的社会和化动态。此外,还有些收集整理好的公共本数据集可供使,例如以英语料为主的 Common Crawl、Gutenberg Project 等。中语料,智源研究院发布了规模、质量数据集 WuDaoCorpora,悟道本数据集采 20 多种规则从 100TB 原始数据清洗得,开源数量约 200G。上海智能实验室也联合模型语料数据联盟构建了“书万卷”数据集,其包含本、图、视频三部分数据,数据总量超过 2TB。当前,业普遍认为数据规模与模型的性能度相关。数据规模的增加可以提模型的性能,帮助模型覆盖更
26、多的知识和规律,从学习到更丰富的表征结构和推理逻辑,成更佳准确、符合审美观的内容。同时,规模的数据亦有利于提升模型的泛化能,加强模型对于不同主题和领域表达的适应性,提模型在新数据上的泛化性能。但是,更的数据规模也可能导致训练时间和计算资源的增加,因此在考虑数据量时,也要权衡其与训练时间及计算资源之间的关系,在给定的计算下,精确匹配语料规模和模型的参数规模。在数据驱动的模型训练中,数据质量同样需要给予够的关注,以避免模型在学习过程中受到误导,获得偏信息,降低模型的整体表现。尤其是在处理规模数据时,这种情况更加明显。规模数据往往包含各种噪和 15 第章?智能模型发展现状?冗余信息,例如 HTML
27、标签、告信息、链接等。此外,数据中也可能存在重复内容、相似,或是特定主题和特定地域的偏好数据偏差。这些质量低下的语料加模型训练,得出的结果可能不使这些语料还要差,过多的重复数据甚在训练过程中可能导致模型陷意义的局部最优。为了解决这些问题,需要采取系列的数据处理步骤,以降低这些因素对模型训练的负影响。具体步骤图 6。图 6:模型训练数据处理流程 数据清洗:通过使正则表达式或其他本处理具,来去除数据中的特殊字符、空格、标点符号等关信息,从确保数据的净整洁以及致性的式。数据去重:采哈希算法或者其他去重技术,对数据进去重处理的过程。这过程中,通常通过较数据的哈希值或者特征向量来判断数据是否为重复数据,
28、然后删除那些重复的数据。隐私过滤:对于包含敏感信息的数据,如个份信息或机密数据,可以采数据脱敏、加密或匿名化等法来保护隐私。例如,对姓名进脱敏处理,将真实姓名替换为虚拟的名称。数据清洗数据去重隐私过滤数据分词人工评估基于模型的数据评估增加/修改清洗规则增加/修改清洗规则扩充敏感词表扩充敏感词表数据处理平台数据处理平台训练数据集 16 第章?智能模型发展现状?数据分词:对于本数据,可以使现有的分词具或然语处理库,将本分割成有意义的词语。常的分词法包括基于规则的分词和基于统计的分词。通过上述步骤,可以消除重复数据,还能清洗和过滤隐私信息,并进分词处理。此外,构建质量的训练数据集还需注意均衡调节各种
29、形式语料的混合例以保证模型的通和泛化能。(4)模型架构 当前主流的成式模型架构以转换器(transformer)结构为核单元组件(图 7)。转换器能够并发地接收序列数据输(如本),基于对当前数据序列的分析判断每个数据元素与其他任意元素的相关性,并根据这些相关性权重(也即注意)进步加权计算和提炼出数据特征表,因此也被称为注意机制。转换器的注意机制使能神经元络并处理数据序列,幅提升了计算效率,另通过对任意相对距离间的元素进视同仁的相关性建模,能够有效的捕捉到序列中数据元素间的程依赖关系,从极的提升模型的理解和识别能。转换器机制在 2017 发布后在各种然语处理(NLP)任务上都取得了令瞩的成绩,并
30、逐渐推到计算机视觉等领域,成为前模型的基础结构。17 第章?智能模型发展现状?图 7:Transformer 架构,包含编码器(Encoder)、解码器(Decoder)和注意机制(Attention Mechanism)模型按照模型架构划分,可以分为单体模型和混合模型。单体模型采单个深度神经元络,通常使稠密性络结构,对于任意任务输每个络节点都参与模型的计算,所有络区域都被激活,计算量和通信量较。前业界多数模型采单体结构。例如 OpenAI 推出的 GPT-3 拥有 1750 亿参数的超规模络,包含有 96 层转换器结构,利了多头注意机制、前馈神经络等技术,发布后成为成式模型的标杆性产品。Ch
31、atGPT 的模型结构据称和 GPT-3 类似。混合模型采多个相对独的神经元络,相当于将多个相对较的模型组合为个模型,避免模型越来越,训练样本越来越多,每个样本都需要经过模型的全部计算所导致的训练成本的平级增问题,因此也称为混合专家模型(MoE-Mixture of Experts)。对于单个任务输来说,般只需激活部分模型进计算,这样就节省了计算资源。为了确定个任务输需要激活的模型,混合模型机制引了个决策的机制以成要激活的模型索引,因此在控制增加了复杂度。歌的 Switch 18 第章?智能模型发展现状?Transformer 是混合模型的典型代表。前成式模型的佼佼者 GPT-4 据悉也采了混
32、合模型的 MoE 架构,对后续超模型的进步发展可能起到相当的导向效应。(5)训练算法 成式模型在通和领域专属知识上强的建模和表达能、对于使者指令要求良好的理解和跟随能、对成内容的合法合规及伦理价值观对的保障,需要历经预训练、再训练、监督学习微调、奖励模型训练以及强化学习等系列的训练过程来予以实现,图 8。图 8:模型训练法分类2 预训练和再训练:预训练是模型成功的基础。它通过规模的数据来训练模型,使其学习语的语法、语义和世界知识,在然语处理、图像、多模态等泛的领域均取得了显著的成效。预训练主要采取监督学习的式,通过算法动成模型训练需要的输、输出对,需对海量数据 2 引自微软 Andrej Ka
33、rpathy 的演讲 PDF State of GPT:https:/karpathy.ai/stateofgpt.pdf 阶段算法模型预训练监督微调奖励学习强化学习基础模型微调模型奖励学习模型强化学习模型语言建模预测下一语言建模预测下一token语言建模预测下一语言建模预测下一token二分类预测奖励一致性二分类预测奖励一致性强化学习生成最大奖励的强化学习生成最大奖励的token提示词提示词10K-100K提示词数量低,质量高提示词数量低,质量高对比对比100K-10M对比数量低,质量高对比数量低,质量高论证论证理想辅助反应理想辅助反应10-100K(提示词、回复)数量低,质量高(提示词、回
34、复)数量低,质量高原始网页原始网页万亿字文本数量大,质量低万亿字文本数量大,质量低数据 19 第章?智能模型发展现状?进标注,从具备常好的数据扩展性。例如,语模型的监督预训练随机地隐去输本中的部分字词,要求模型预测本中缺失的部分,再将预测结果同隐去的内容做较,给地形成监督信号指导模型学习上下语义知识。再训练是在通预训练模型的基础上,加领域数据对模型做进步的预训练。这步骤对于商业银的模型应常重要,因为它将通的预训练模型转化为融领域专属具,使得模型对于融领域的问题和任务更加精确和可靠。监督学习微调:经过预训练的模型具备丰富的知识,但除了监督学习中的补全任务外没有其他解决问题的能,需要使有标签的数据
35、集进步调教。成式模型接受然语的指令来理解任务要求,必须保持良好的指令跟随能,使得指令微调成为其重要的训练步骤。指令微调采监督学习的式,训练数据集包含众多的输、输出对。输由任务指令和具体任务的场景信息组成,输出则是期望的答案样例。微调法可以根据不同的标和资源进选择,例如对模型的全量参数进微调训练,或者冻结原始模型的主要参数只对部分参数进训练。低秩适配(LoRA-Low Rank Adaption)是种新型的轻量化微调训练法。它将训练过程中模型每层级中的参数变化值建模为对约简的矩阵,通过训练简化后的矩阵参数的式实现对模型的增量训练,不改变原模型的参数,可以极地降低训练的资源开销,在模型的微调训练中
36、获得越来越多的应。奖励模型训练:奖励模型于评判模型的输出是否符合类偏好和 20 第章?智能模型发展现状?价值观,是训练模型成内容保持价值对的辅助模型,主要采监督学习的式基于量的类偏好数据拟合成。偏好数据集的构建可以利已有的监督学习微调后的模型,对相同问题成多个不同的答案,再由标注员按照预定义的指导原则对回答进偏好排序。训练过程往往使配对损失函数,最化偏序在前的回答和偏序在后的回答之间的分数差异,最终促使奖励模型成功地模仿评判来对模型的输出内容进标量化打分。强化学习:强化学习是种动态最优策略的学习法,它让智能体在不断地与环境交互的过程中,通过观察环境的状态、选择合适的动、接收环境的奖惩反馈和更新
37、的策略,来逐渐提的为性能以达成优化标。基于类反馈的强化学习已成为种主流的模型价值对法。它在训练过程中利融合了类专家知识的奖励模型对模型的输出内容进动评分,针对评分不佳的回答采取强化学习中的近端策略优化技术对模型的内容成策略进迭代优化,最终实现模型内容成和类价值观的对。在经过以上所有训练步骤后,模型成为兼具常识和相关领域专业知识、沟通表达流畅并能坚守伦理价值底线的得助,能够切实帮助相关领域的从业者全提升作效率。(6)模型轻量化技术 任何技术的繁荣都离不开社会化创新。模型要向千百业的普及 21 第章?智能模型发展现状?应,势必要降低使成本,在实践中主要有以下种轻量化、型化技术路线。剪枝:深度神经络
38、结构中有着量的冗余参数。在推理过程中,往往仅有少部分的权值参与有效的计算对推理结果产主要影响。剪枝法(图 9)通过把络结构中冗余的权值、节点或层去掉,减少络的规模,降低计算复杂度,让模型在推理效果和速度上达到平衡。剪枝完成后往往需要基于原训练集上做定的微调,以避免由于络结构变化出现的性能下降。图 9:模型轻量化技术:剪枝技术 量化:其基本思想是将神经元络的权值、激活值等从精度数值类型转化成低精度类型,例如将 32 位浮点数转化成 8 位整型数,以同时降低模型的内存和计算开销。其中,整数量化将浮点数值截断或四舍五到离它最近的整数,再统缩放到个值域范围内,简单直接但可能造成较误差。对量化在整数量化
39、的基础上,进步将数部分单独量化,可得到更精剪枝前剪枝前剪枝后剪枝后剪枝剪枝 22 第章?智能模型发展现状?度。适应量化根据数据分布状况,使均匀刻度来量化,例如在权值分布密集的值域区间采取较精细的刻度以提表达的精确性。混合精度案综合考虑模型精度和效率,只对部分参数层进量化,重要层保持浮点运算。量化技术已泛于各种深度神经络的部署优化。知识蒸馏:通过训练个模型去模拟个模型的为,使模型也获得类似模型的知识和泛化能,从实现模型压缩和轻量化部署(图10)。主要法是利模型的最终输出作为软标签,以此为标来监督模型的学习过程;或者逐层提取模型的中间层输出作为模型对应层的监督信号来分层次进知识迁移。知识蒸馏可以在
40、保证定精度的前提下获得较的模型压缩率,但需注意可能导致的模型过拟合等问题。图 10:模型轻量化技术:知识蒸馏 实践中可以综合使以上法,充分发挥各项技术的优点,同时控制各项压缩对模型精度的影响,达到实的部署效果。23 第章?智能模型发展现状?2.提引导巧模型,沉淀提炼应范式 (1)提程 成式模型依据输的结构化然语指令来执任务,在极地降低使槛的同时,也为模型提供了限的问题描述空间,使其具备了万能解答器的潜质。但也因为模型输形式极的灵活度,使得模型输的设计和组织富有技巧性。对于同样的问题,有经验的模型使者可以效地引导模型按照预想式执任务,从保障模型应的可控性、连贯性和致性;不熟练的使者则可能因为指令
41、表述不当,导致模型产效或错误的输出。为了帮助更好地使此类模型,提程应运。提程在输指令前添加提语句,以提供额外的上下、限制条件等信息,引导模型准确理解指令意图和问题解决途径,从幅提升模型的应答效果。图 11:模型提语设计模式3 3 Shunyu Yao,et al.Tree of Thoughts:Deliberate Solving with Large Language Models,https:/arxiv.org/abs/2305.10601 输入输出输入输出.输入输出.输入输出.(a)输入输出提示(b)思维链提示(C)自洽式思维链(d)思维树提示 24 第章?智能模型发展现状?针对模型
42、的提语设计模式可以分为四类:输输出提、思维链提、致性提和思维树提,图 11。输输出提(IO Prompting)是种最基本的、也是前使最泛的提法,它只需要给出个描述任务的然语指令,以及零个(Zero-Shot Prompting,即没有例)或多个例(Few-Shot Prompting),来让模型理解任务的标,并成合适的输出,图 12。思维链提(Chain-of-Thought Prompting)在输输出提的基础上,提供了多步推理的逻辑链,以指导模型按照提的思路解决问题并展每个步骤的过程性输出,特别有助于解决依赖深层次逻辑思维的任务。洽式思维链(Chain-of-Thought Prompt
43、ing Self-Consistency)是思维链的扩展,其基本思想是:个复杂的问题可以有多种不同的解法,即多条思维链,这些思维链最终都应该得到相同的正确答案。因此,洽式思维链通过多次采样成不同的思维链,并选择最致的答案作为最终结果。这种法可以降低模型单次采样时可能出现的随机性和错误性,提在复杂推理任务上的准确性和可解释性。思维树提(Tree-of-Thought Prompting)通过提供思维的树形逻辑结构来引导模型的解答成过程。它以主题核观点为根节点,逐层展开观点和论证,形成前后递进、多拓展的树形结构。在交互使中,可以按照思维树的形式逐步给出提语句,引导模型的成更加全、深。相线性的思维链
44、,思维树提以其度和深度可以更充分地引导模型进多度、多层次的思考,尤其适合需要综合考量各因素的决策、规划、论证等成式任务。25 第章?智能模型发展现状?图 12:提模板例 (2)模型应模式 相对于传统深度络模型需要通过微调训练来适配任务,模型通过提词程可以在不改变模型本的情况下完成向场景的对,极地解放了应层创新和开发的活,催了批基于模型的 App。图 13:模型应模式:直接 API 调 直接 API 调是前最普遍的模型应模式,图 13。App 接受用户用户应用应用APIAPI大语言模型大语言模型 26 第章?智能模型发展现状?请求,经过定的处理之后调模型服务接取得答案后反馈。由于模型服务本是状态
45、的,会话的上下往往需要应来维护,当下常的聊天对话窗式的 App 基本是这种模式。向特定领域和任务的应,还会通过提词程预制好提词模板,对的输根据模板加为提语后再调模型服务,以取得最佳的模式成结果。在许多实际的任务场景中,尤其是向银等业、企业专属领域的应,往往需要结合私域的知识和数据撑来寻求专业和保鲜的答案,或者需要和环境进互动来构建综合解决案,从推动了检索增强成(Retrieval-Augmented Generation)和 AI 智能体(Agent)两种模型应范式的演进。检索增强成是种知识密集型任务的应模式,通过语义检索机制赋予模型动态获取外部知识的能。该模式下的系统通常由三个组成部分构成:
46、模型、知识源和语义检索模块(图 14)。对于输的问题,系统先调检索模块,从知识源(如百科站、企业知识图谱、档库等)中找到相关的持性内容,然后将这些内容与原输联合在起提交给模型成答案,作为最终的系统输出。检索增强成可以利最新知识和信息进内容成,需重新训练模型,在外接数据具有极佳的可扩展性。成的结果事实致性好,鲁棒性和可解释性强,特别适合对内容质量要求的企业场景。随着知识源和语义检索配套技术(如:向量数据库、本嵌模型等)的跟进发展,这应模式具有阔的前景。前公有云上 27 第章?智能模型发展现状?最具代表性的产品为微软 New Bing 的聊天式问答。基于私域知识的检索增强成应也已开始在商业银落地和
47、推。图 14:检索增强成(Retrieval-Augmented Generation)技术 AI 智能体是类能够主完成任务的系统,可以由成式模型和套可以调的外部具集构成。具赋予智能体实施动并取得反馈的能。例如在软件系统中,具集可以是系列服务 API 接;在实体机器领域,具可以是感知仪器和运动执器。模型依托前述的提程技术,对输问题进理解和任务规划、确定使具的顺序和实施案(例如:确定服务调需要的参)、定义每个步骤成功或失败的标志,进调具执完成全过程。智能体是模型应的级演化向,也是实现通智能的重要法之,智能体为当前最被看好的模型应向,多家头部企业产品均朝智能体向演进,智能体依赖于多步拆解执,需要模
48、型在智能体应中的错误率降个位数才能够独完成作,当前整体受限 28 第章?智能模型发展现状?于当前模型能,智能体仍未出现规模化应。(3)应开发具 在成式模型热潮的推动下,应开发具态获得了发展,形成了功能全的系统化开发框架,如 LangChain、LamaIndex、Dust 等。这些具不仅持然语处理能,也逐渐开始持多模态能。在易性和集成度的进步也很明显,普遍采了模块化和流设计,幅降低了具的上难度,提了使灵活性,配合代码具使技术员也可以参与应开发。以开源社区最为流的 LangChain 为例,应开发框架主要从以下个持效的开发作。是在模型,提供了标准的模型调接,持接多种流的模型产品,便于开发者开展模
49、型选型和调。是在提程,提供了多种类型的提模板(Prompt Template)类库,极地简化了提语的构造和处理。三是集成了会话记忆模块,于回溯和管理之前的问答等任务记录,便开发者为成式模型提供关重要的上下背景信息。四是为智能体应准备了全的具包,智能体应可以根据输主选择使哪些具。五是提供了本索引功能,极提语义检索的运性能。六是提供了提作流和模块组装的标准接,助复杂应的快速构建。29 第章?智能模型发展现状?3.全栈开发集成者,综合平台化繁为简 模型及其应的开发涉及数据程、模型选择、提词程、服务编排和应部署等复杂的流程和技术栈,对开发者的知识和技能平要求很,同时也需要量的时间和资源投,良好的开发框
50、架和综合化平台的持已经成为必不可少的基础设施。传统智能开发平台,如 AWS SageMaker,Azure ML,ModelArt 等基于 MLOPS 理念提供了数据管理、模型训练、版本管理、超参数调优、可视化分析、应部署等系列的功能和服务,帮助开发者简化和加速智能开发过程。模型应快速发展的背景下,这些平台也在积极推动技术升级,如 SageMaker 对前沿模型的集成和 Azure ML 的模型优化具包等。此外,模型技术浪潮也催了批新型的综合化平台,如 HuggingFace,Fast.AI 等。相对于传统平台,这些平台更加迅速地集成和提供丰富的预训练模型和领先的模型应开发具,也形成了更开放协
51、作的社区化。以下对代表性的新型模型开发平台逐简单介绍。(1)HuggingFace HuggingFace 是个开源规模机器学习平台,提供了从数据准备、模型选择、训练调优乃部署应的站式持,具有模型丰富、使简单、社区活跃等特点,是前最成熟的开源模型开发平台。平台已收录超过 30万个经过预训练的然语处理、计算机视觉、语等领域的各类模型,持开发员便捷地在模型库中搜索和调需要的模型。平台还提供规模的标注数据集,持键加载使。在此基础上,HuggingFace 整合了模 30 第章?智能模型发展现状?型训练、评价、部署具。平台内置了 Transformer 模型的应编程接,持主流深度学习框架,让研究员轻松
52、地将模型应到下游的 NLP、CV 等具体任务中。Evaluate 库可根据不同标、数据集和模型持不同类型的评估。算资源,开发者可以在平台租 GPU 的集群资源进模型的训练,并通过平台发布模型应或 API 服务。(2)百度千帆 百度千帆是向中的开源模型平台。它为提供丰富的中 NLP模型和数据集,以及全套的模型训练、评估、部署具。百度千帆拥有规模的预训练语模型库,包括 ERNIE、BLOOM、Llama 在内的各种模型结构,都经过了中 corpus 的预训练,可以直接应于本理解、对话、翻译等通任务。也可以基于平台提供的数据集,使 PaddlePaddle 框架对模型进进步的微调优化。在持模型训练的
53、同时,千帆平台还提供在线的模型评测功能,上传训练好的模型,选合适的测试集即可动成评测报告。利 Paddle Hub 具,可以便捷地使模型,实现模型部署,并提供预测服务。(3)ModelZoo 华为推出的模型开发平台 ModelZoo2,为模型开发者提供了全位的持与服务。它持多种深度学习框架,如 PyTorch、TensorFlow、MindSpore 等,以及多种硬件加速器,包括昇腾系列处理器、GPU 等,使得模型的训练和部署更加灵活和效。平台的模型库前已经接了主流的 31 第章?智能模型发展现状?模型,如盘古系列、Baichuan、Llama、GLM 等,覆盖视觉、语、多模态等泛的任务类型。
54、可以在模型库中搜索、下载和上传各种模型,查看模型的详细信息和性能指标,通过统的 API 便捷地调华为云或者第三开源的模型。此外,平台还提供了完备的开发具链,持模型转换、优化、诊断等阶功能,以提升模型的性能和资源使效率;同时预置了丰富的提语模板,以便快速构建的模型应。4.模型适配融领域,能建设多管下 以模型为代表的新代智能技术正在成为数字经济发展的新动能。各商业银纷纷布局智能技术能的迭代升级,积极探索和推动模型在各业务领域和场景的应。图 15:模型在企业的适配模式及落地应场景 按照能的专业度平划分,模型在商业银的使有基础模型、业模型、企业模型、任务模型四种形态,图 15。基础模型是 32 第章?
55、智能模型发展现状?基于海量数据进训练的通模型,具有很强的通识能,可以直接撑多种下游任务,但由于缺乏融专业知识,在银业场景下发挥作有限。业模型基于基础模型和银业领域数据进再训练,可以解决具备业属性的般性问题。对于有较多定制化问题需求的银企,可以在业模型的基础上进步结合企业私域数据训练具备个性化特点的企业模型,或者向特定的专属问题结合任务数据微调训练任务模型,定向攻克价值重点业务场景。在落地策略上,型商业银业务覆盖,应场景丰富,定制化需求多,融数据的沉淀和治理基础好,宜引业界领先的基础模型,建融业和/或企业模型。对于急缺的场景持能,也可采模型微调训练的式形成专业领域的任务模型,快速赋能业务。中银机
56、构,综合考虑应产出和投成本的性价,可按需引应层的智能产品,直接满赋能诉求,或者基于产品配套的模型微调具结合场景数据敏捷开发任务级模型。从模型全技术栈能建设的着眼点,相较于国际领先平,各商业银在算法、算、训练数据、开发运营的模型撑能尚有不,应当在原有智能技术栈的基础上,结合企业针对以下四个研判设定短、中、期的建设标,采分层解耦的模式,推进企业智能技术平向通智能演化,促进智能与融业务深度融合。33 第章?智能模型发展现状?(1)加强算基础设施建设 模型参数量的增加导致训练过程的计算需求呈现指数级增。为了快速训练和规模化应模型,需要强的计算能来持效的分布式训练和推理,算成本投巨,必须对投产出做综合考
57、量。是短期的算建设标应当以业务需求为导向,明确应模型边际效突出的业务场景,合理规划算规模,避免盲求。是基于模型技术发展趋势研判中、期的算需求规模,在此基础上制定相应的建设标,在机房容量、能耗、制冷、络架构等基础设施预留好扩展空间。三是针对性能 AI算供不应求的局,做好基于异构算设备的模型技术栈规划,以利市场机制保障设备供给。四是完善和加强算云化技术,实现算的灵活弹性供给来效满模型算需求。五是以绿低碳为责任,采节能环保的技术和设备,优化能源使效率,减少碳排放,降低运维成本,实现算基础设施的可持续发展。(2)构建质量数据集 数据是模型的重要产要素,数据的规模和质量对模型性能提升关重要,也将是企业数
58、字化能的关键点。商业银应当在现有的数据治理体系的基础上,进步打通企业部墙,在保障数据安全的前提下推动企业内部的数据融合,确保模型数据集的规模和全性,能够覆盖企业的各个关键领域,兼顾不同地区、客群体的代表性。在数据处理,是设计合理的数据使机制,如合理数据配等,34 第章?智能模型发展现状?结合训练框架设计从减少模型训练成本、提升知识应效率。是要强化数据保护技术,采取匿名化等技术段在数据共享时去除敏感信息;三是构建动化数据管道,实现数据接、清洗、标签、存储的流线处理,提升数据集构建和维护的效率;四是完善向模型开发的数据质量评估法,建例化评估机制,定期进数据质量检测和监控。(3)引领先模型技术 模型
59、技术仍然在快速发展和演化过程中,商业银应当以动态发展的眼光持续关注国内外模型的最新进展和趋势,根据新技术特点和企业个性化需求,采商业引、开源引、产学研联合创新等多种式,夯实和升级模型技术能。在技术管理层,要建成完备的模型评价体系和动化评测法,持客观效地进新技术验证。在团队建设,打造素质的模型研究和应孵化团队,以强化新技术研判能和加快业务赋能进程。(4)打造研发运营流线 紧跟模型研发运营体化的发展趋势,商业银应当引和借鉴业界先进的模型开发平台,对现有的企业智能平台进升级改造,新增集业适配、微调优化、强化学习、提词构建、模型运营于体的研发运营流线,实现不同模型训练应的流程统,图 16。向业务、业务
60、应研发员,可以通过提词程敏捷打造通解决案,通过模型服务市场持业务快速复。向 AI 科技研发员,基于底层模型基 35 第章?智能模型发展现状?础能,融合其他技术能,沉淀知识检索、代码成、数据分析等标准化端到端解决案,降低模型应槛。向模型专业研发员,打造模型开发流线,持微调、分布式训练、计算资源调度等能,为模型算法和基础服务研发提供全链路具撑。图 16:模型研发运营流线 ()?评测体系逐步完善,可信治理持续健全 传统的机器学习、深度学习任务以分类、回归问题为主,输出的范围边界明晰(如分类问题的“是”和“不是”,软件表即为 1 和 0 两个确定的数值),已有较为明确的评价指标。成式语模型以由对话的通
61、交互模式来持泛的任务类型,输出结果为度不定的然语本,往往不具备唯的标准答案,对模型的评测带来新的挑战。模型成的内容可能会存在事实性错误、侮辱、反伦理道德乃违反法律法规的情况,误 36 第章?智能模型发展现状?导或者造成舆情和法律责任。另外,成内容还有潜在的泄露隐私的险,使得数据安全也成为模型应的关注点。商业银在深研究并探索模型潜的同时,需认真对待其潜在的险,构建系统、完备的测评体系,持续健全模型可信治理机制,推动模型应安全合规健康地发展。1.评测维度:保障评测全位覆盖 (1)模型能评估 规模语模型(Large Language Model,LLM)基于提程(Prompt Engineering
62、)、上下学习(In-context Learning)、思维链推理(Chain of Thoughts)等系列新的成范式,通过然语指令交互的形式实现了多领域多任务的统,幅提升了然语处理任务的能,也使得 LLM 逐渐演化成为向不同任务的基座模型。LLM 在不断刷新传统评估任务榜单成绩的同时,也引起了如何有效、体系化的衡量作为基座模型的 LLM 在多领域多任务能的思考与实践。对于模型能的测评,不仅需要考量模型的综合能,还需要设计细分任务,深度考察模型解决复杂任务的能。通常模型需要衡量的能包括:理解能、成能、推理能、知识度、情感分析和推断、问题解决能、对话和聊天、道德和伦理等。此外,同任务下,模型能
63、的考察范围也在拓展。例如在问答任务上,不仅考察模型对选项或者数字结 37 第章?智能模型发展现状?果是否回答准确,也考察其成结构化解释的能;在翻译任务上,同时考察然语翻译和代码语转化的能;在聊天任务上,细分问题回答、创意成、较上下的多轮对话、多领域对话等能,以及引打分,从正确、简洁、流畅、有效、探索能、共情能、建议能、信息量等维度进考量。模型能的体系化量化评估能够直观反映不同模型之间的差距,也能更准确地定位模型的弱点,例如普遍被讨论的幻觉、未能探求更多信息、给出重复内容等,为模型的改进提供更精确的指导。现有的评估集正在探索如何全评估模型的综合能,让模型在测试评估中的得分能更真实的反映实际体验。
64、(2)模型安全评估 智能模型因为其性能泛应,因为其决策难以理解的盒性质受到限制。模型要做到在真实世界中,尤其是安全领域上的应,验证其可信安全是关重要的。近年来围绕着鲁棒性、可解释性与可控性的模型可信安全评估持续升温。在鲁棒性,评估类别有模型对于任务的鲁棒性和对指令的鲁棒性。研究通常针对模型对噪声输、攻击性扰动或不确定环境时的表现进评估,例如通过添加轻微错误或改变语义等式来评估扰动对模型产的影响。近期,针对普遍采指令微调的模型,模型对于指令提、任务标签的鲁棒性也引起了关注。在可解释性(透明性),模型评估关注模型解释的合理性、致性。模型的可解释性可以从 38 第章?智能模型发展现状?两个体现,是模
65、型是否可以对输出做出我解释,是第三是否可以对模型的输出做出解释,例如通过注意解析或者模型输出概率。可解释性可以通过个进衡量,分别是:模型的决策过程是否可以被理解,模型在处理某个任务时是否有合理的依据,以及模型对于输出结果的不确定性估计。在可控性,主要评估模型的为是否可以被有效控制,是否可以根据特定需求调整模型的输出。如在内容成的任务中,是否可以控制模型成特定格或者含有特定元素的内容。这个评测标准主要是为了确保模型在实际使中的灵活性和适性。(3)模型伦理评估 模型训练的数据是从络、语料库等来源收集的,在定程度上反映了真实世界的错误与扰,具备更多参数的模型往往更善于模拟训练数据的分布,记住更多细节
66、,也更容易发伦理险。现在的量化评测系统已经开始考虑模型是否公平地处理各种群体(性别/种族/宗教)的输,以及模型的输出是否符合道德和法律规定等问题。群体偏评估,前的研究多从性别、种族以及宗教三个维度评估模型是否存在偏,检查模型是否公平对待所有群体。通常评估法是检查模型是否更倾向于对某种群体进负或错误的标记,或者在处理涉及不同种群体的任务时是否存在明显的倾向性或歧视。这类评估通常需要提前设计好词库,并对模型的结果进详细的统计分析。有毒性评估,通常是检查模型是否产违法犯罪、政治敏感、侮辱性/攻击性的内容输出。例如针对容易触发伦理问题的场景,创建含有有毒性内容的攻击输,检查模型的回应;以及检查模型在接
67、收正 39 第章?智能模型发展现状?常输时,是否产有毒的输出,此种评估法通常需要构建个判别器模型于动检查模型的输出是否与类伦理道德价值观对。2.评测体系:系统化指导评测实施 (1)模型评测法 随着模型的性能逼近现有数据集的上限,例如 Chinchilla 模型(69.3)在 5-shot 设置下的 MMLU 表现乎是所有类评分者平均值(34.5)的两倍,GPT-4(86.4)在 5-shot 设置下已经分接近类专家(89.8)的平,需要提出更多更具挑战性的任务以满模型评估的需求。另外,新任务场景需要设计新的评估法。例如,在代码成任务中,常的评测指标passk 需要多次采样成结果,然后使编译器或
68、解释器执检查。前,模型评估法可以分为基于数据集指标的动评估,基于打分系统的评估,以及使 GPT-4 作为评测者的动评估。基于数据集指标的动评估主要依赖于标准化的度量和基准测试集,我们也看到了近期更多针对模型的基准测试集出现。基于打分系统的评估可以提模型评价的丰富性和准确性,因为相较于针对特定 NLP 任务构建的学术基准测试集,类主观构建的话题以及对于模型回答的判断可能更适于评判通聊天机器的好坏。例如 UC 伯克利提出的聊天机器竞技场(Chatbot Arena),利 Elo 等级分制度引类评价对语模型进排名。使GPT-4 作为评测者的动评估近由 Vicuna 团队提出,GPT-4 可以根据有性
69、、相关性、准确性和细节等对这些模型的答案质量进评分,给出相对 40 第章?智能模型发展现状?致的分数和评分依据。但这项法仍有其局限性,GPT-4 在编程或数学问题上还不能给出良好的评估。(2)模型评测指标 模型评测最通的指标是精度,在不同场景下有不同的定义,体现了模型在该任务上的平均正确率。对于可以直接较模型回复和标准答案的选择、判断和简单问答题,通常使精确匹配(Exact-match)、召回率(Recall)、精确度(Precision)和 F1 等指标;对于有参考答案的其他条件本成任务,会采取基于词重叠度的指标作为精度标准,如机器翻译的 BLEU 和 TER,本摘要中的 ROUGE 和 M
70、ETEOR 等;在信息检索等专注于结果排序的领域,有 RR、NDCG 等指标;此外,对于语建模和代码成等任务,还有困惑度(PPL)、Pass、BPB 等指标,从语句的流畅程度、代码通过率等衡量成结果的精度。除了模型精度,还需要知道模型对于预测结果的置信度和不确定性,这对于系统在险环境下的部署尤为关键。例如在使模型辅助决策时,如果模型的预测不够确定,可以及时进预不是放任潜在的错误。不确定性通常使预期校准误差(ECE)来衡量,较低的预期校准误差表模型的预测结果能较好地反映真实概率,例如,如果个 ECE 低的模型预测1000 个句有毒,每个句的概率为 0.7,那么可以认为其中约有 700 个是有毒的
71、。模型的稳健性和公平性评估式较为类似,通常通过较模型在不同 41 第章?智能模型发展现状?输下的精度差别来衡量:对模型输施加错别字或语义等扰动模拟真实噪以评估模型的稳健性,改变输本中某些或社会群体的性别、种族等属性,较模型预测结果是否有性能上或事实上的差距。(3)模型评测数据集 模型评估已经出现了些有代表性且泛使的综合基准数据集,例如:MMLU 是多任务知识理解领域的通测试集,涵盖从数学和计算机科学到和社会科学的泛知识领域。BIG-Bench 是个各领域专家合作构建的型数据集,的是从各探索语模型的性能,并提出了系列对当下模型有挑战性的任务。HELM 是个综合测试集,测试数据建在许多先前研究的基
72、础上,拥有包括问答、摘要、信息检索等 16 组核场景和准确性、校准、鲁棒性、公平性、偏、毒性和效率 7 类评估指标。近期发布的中数据集有 MMCU 数据集,覆盖教育、医学、理学、法律 4个领域的专业知识;C-Eval 数据集,专注世界知识和推理等领域;SuperCLUE数据集考察语理解能,并提出了许多有中特点的任务,包括中成语、诗歌、学、字形等。除了以上综合测试集外,还有专注于评估语模型特定能的测试基准,如于多语知识利的 TyDiQA、于多语数学推理的 MGSM、于复杂推理的 HellaSwag、于阅读理解的 SQUAD、于代码成的HumanEval 等。在评测数据集上,前的研究存在个主要问题
73、:是数据集不够充分,能评估仍有不,在多模态和模型与外界交互等新兴任务领 42 第章?智能模型发展现状?域缺乏测试数据和标准,度依赖评估,在模型安全评估和伦理评估虽然有 CivilComments 负评论数据集和 SAE 公平性数据集等,但总体上测试数据较少;是测试集迭代速度快,如 Super GLUE 数据集仅发布 18 个,模型表现就已超过类结果,测试集对模型的挑战性不;三是受限于时间和成本,许多测试集在噪、正确性和难度分布上存在问题,降低了测试结果的可解释性。3.险管理:助打造负责任应 对于模型在安全可信的问题,我国度重视模型技术险的管理。2023 年 7,信办会同六部委共同发布成式智能服
74、务管理暂办法(以下简称“办法”),为成式智能的发展和应推划下了“红线”,明确了顶层监管办法。同时,办法也励业和企业在成式智能技术创新和险防范等积极展开合作和研究。以下从性能缺陷、脆弱性、伦理三对模型技术险管理展开讨论。(1)性能缺陷险管理 前模型对于其成内容的可信性缺乏保障,容易成然流畅但包含误导性、虚假内容以及事实错误的本,可能误导投资者做出错误的决策,导致财务损失;同时模型技术可能被来成度逼真的伪造内容,如合成的图、视频和频资料,也为不法分操纵融市场、影响股价或者其他融具的价格等提供了新具,给融安全造成威胁,同时也将严重破坏市场参与者之间的信任。因此,我们亟需针对模型性能缺陷给融 43 第
75、章?智能模型发展现状?业带来的险采取针对性回应举措:l 业层,建向融业的模型标准技术体系,在融业法律法规建系列规章制度,对主管部的融政策指导实施监管和规范,同时加强融模型的技术创新和防御研究;l 企业层,建议融企业设相关部负责模型技术险管理,整体考虑和设计符合融业务场景的模型安全制度体系,扩模型安全专业才队伍,提升相关融技术员的专业技能。(2)脆弱性险管理 前模型在对攻击为时具有脆弱性,例如在临特定形式的输内容时,模型可能被诱导违反的编程限制,成超出融服务范畴的内容或者泄露的隐私信息;或者在训练数据遭受投毒攻击后,模型可能被劫持并在特定条件下成预定的内容,误导融消费者对情的判断,使攻击者不当获
76、利,进导致消费者对融服务的信任度下降。这种脆弱性为模型技术在融服务中的使带来了极的安全险,需要采取措施防范潜在的恶意攻击:l 业层,建向融业的模型脆弱性险管理标准规范,健全技术体系以持落实国家监管政策,针对模型的对抗和投毒攻击险设置体系化评价标准和测评机制,为模型加固增强提供技术持,指导企业防范攻击险;44 第章?智能模型发展现状?l 企业层,针对融模型脆弱性采取相应的技术段进防范,同时制定相应的审查机制,严格控制训练数据质量,确保数据中不包含隐私或有害内容;强化模型抗攻击能,同时对攻击为实施监测,对于异常使为应当及时停服务并视情况采取惩罚。(3)伦理险管理 模型由于其质量内容成的能,导致其在
77、使的同时可能引发伦理问题,包括:成内容的版权归属存在争议,例如融研究报告的版权等;成的内容可能被于恶意途,例如刻意成误导投资者的投资建议;模型成功能可能被过度依赖,导致使者的融专业能退化;成内容可能诱导使者进不合理甚法的融为;成内容中可能存在偏与歧视信息,误导形成错误认知。这些伦理问题可能导致模型的使带来定的社会危害性,造成社会秩序混乱甚威胁和财产安全,需要采取针对性的防范措施:l 业层,建健全融模型伦理审查相关标准和技术体系,对于模型成内容的有害程度和偏与歧视问题形成度量标准,同时构建相关问题的测评技术体系,指导企业对模型成内容进动化检验;l 企业层,针对采模型技术的融服务制定管理措施并严格
78、遵循,明确成内容的版权归属以避免争议,检测并规避有害成内容,提供防依赖、防沉迷措施并引导恰当使;优化和提升内容成技术以避免成诱导性或偏与歧视性内容。45 第章?智能模型发展现状?4.技术探索:提供安全可信技术撑 (1)信息追溯技术 尽管当前以 ChatGPT 为代表的成式 AI 技术已经表现出了常惊艳的语理解以及知识推理能。然,这类技术依赖的基础模型本质是个神经络模型,存在性能缺陷险,即成的内容虽然语句通顺貌似合理,但可能与事实相径庭。但是模型的训练和推断都是盒的,导致不能提供合理的证据进可信性的溯源与验证。因此,融业务场景中,如何在成式 AI 技术实际部署出现问题时,对特定结果的产原因、关键
79、环节等要素进因果溯源分析,保障成结果与事实的致性是实现融模型可信成的基础之。为了降低模型的性能缺陷险,实现成式 AI 技术在融业务场景的信息可追溯,主要研究检索增强的可溯源信息整编法,在模型中加访问外部存储库,解耦模型的记忆模块和推断模块,以更加模块化和可溯源的式特定融结果的产原因、关键环节等要素进快速的因果溯源分析。该法主要由检索器和模型两个模块实现结果的整编和溯源:l 向融数据的检索器:检索器来辅助模型从外部融数据存储库中,搜索有关于当前查询中的精确融相关信息,例如,合同件、法律条规、实时动态新闻报道、融知识图谱等特定融数据;l 融合检索技术的成式模型:在规模语模型的预训练、微调 46 第
80、章?智能模型发展现状?和推理,通过结合查询与检索到的相关信息进模型推断,其中,检索器返回的信息可以作为成答案的依据,从提升模型的准确性、实效性和可解释性。l 检索器和模型的联合优化:由于成器和检索器是两个独的模块,优化往往是相对独的。为了进步提溯源分析效果,探索基于协作学习的联合优化技术,将成器和检索器进联合优化,以达到相互增强的效果。(2)攻击防御技术 现有的基于模型的内容成技术属于深度学习技术范畴,其运作乎完全由数据驱动由为规则确定,因容易存在难以察觉到的脆弱性问题;再加上训练及应环境直接向数据提供商及产的然语本及图像等复杂结构化数据,模型临极的不确定性和被攻击可能性,进步加剧了模型的脆弱
81、性险。因此,融业务场景中,如何检验融模型的缺陷、探测和防御攻击性为,是降低模型脆弱性险、保障模型安全使的核挑战。为降低模型脆弱性险,防范可能存在的恶意攻击为,主要需要研究基于内容安全检测的攻击防御技术,针对融模型开发和应阶段涉及的各类内容数据进安全险监测,使攻击为所遁形,进通过预先处理和拒绝服务等式回避恶意攻击。其中涉及的关键技术点包括:47 第章?智能模型发展现状?l 训练数据安全检测技术:针对融模型的训练数据,识别并过滤其中有毒有害、质量低下的内容,防数据投毒攻击;针对可能包含的隐私数据,进脱敏预处理,防泄露隐私;l 查询安全检测技术:针对查询输的内容,分析识别其意图,对于不合逻辑、内容不
82、当、意图法的查询拒绝提供服务,防 Prompt注等对模型的对抗攻击;l 成内容安全检测技术:针对模型最终成的内容,对潜在的泄露隐私、功能法、偏歧视等问题进检测,过滤不符合安全规范的成内容,避免将有害内容呈现给。(3)可解释技术 前,以深度学习算法为核的语模型的运作就像是个箱,们只能看到数据的输和输出,其内部判断的运规律和因果逻辑尚不清晰,这特性使得模型的成机理不易被类理解和解释。旦模型出现错误,透明度不将阻碍外部应者的纠偏和除误,尤其对于模型应于融这类险厌恶以及对可解释性要求的领域等。因此,如何增强模型机理和输出的可解释性、建合适的可视化机制来评估和解释模型的中间状态,在模型部署出现问题时进准
83、确调控,是保障模型在融场景中安全、可信运的关键。为了降低融业务场景的模型伦理险监管难度,帮助融机构识 48 第章?智能模型发展现状?别潜在的模型险并可以及时调整和改进推理结果,主要研究融因果理论的成式融模型:l 基于因果推断的可靠性技术:通过因果推断中的结构因果模型,建模融数据的成过程,对因果机制和盒模型进协同优化来消除模型训练过程中的不确定性,以增强对推理结果的透明度和可解释性,使融决策者能够更好地评估和验证推理结果的可靠性;l 基于先验因果图的可解释性技术:通过构建融特定领域的先验因果图,研究融领域模型可解释所需满的基本性质,这些性质可以设计险管理、合规要求、交易限制等,结合这些约束要求设
84、计新的模型结构,并利可视化等技术段实现成过程的可解释分析,帮助更好地理解融概念和决策;l 基于因果预的可控成技术:借助因果预和反事实推测段,研究向融领域的模型可控成法,结合梯度的低秩分解对模型的特定模块注更新的知识或纠正不良为,实现对模型学习、推断等过程的效编辑与控制,从确保推理结果在可控范围之内,同时可以提供个性化的融分析和投资建议。49 第三章?智能模型应案例?第三章 智能模型应案例 以成式模型为代表的新代智能技术将极地加速融业数字化转型,有效提升商业银的市场竞争能。是在机交互形态上,模型技术解锁图、的多模态综合交互能,可以通过多轮次的拟化的沟通,基于上下不断深理解的任务诉求,为提供个助理
85、式的信息和任务处理范式,将极地提升体验和服务效率。是模型专多能的通能,助低成本地适配具体场景的任务,极地提智能技术的规模化应能,释放数据要素的乘数效应和倍增效应。三是模型(对商业银尤其是语模型)的成式能已成为数据处理的新引擎,在信息的处理、搜索以及创作进步释放产,为数字银发展注全新动能。()?模型场景实践:全流程嵌助业务提质增效 融业是数字化、智能化的先者。在模型的技术浪潮背景下,头部商业银积极开展技术验证和试点,已经积累相当的经验,融领域的重点应图 17。以下结合中国商银的典型实践案例来介绍模型的银业应场景和业务价值。50 第三章?智能模型应案例?图 17:模型在融领域的重点应领域 1.客服
86、务 基于模型技术,可根据客的需求、基本情况等学习更多知识,并结合语境智能判断成质量易于客理解的话术,给出准确的专业解答,提解决率与客满意度。不过鉴于前模型在成内容可控性的问题,存在科技伦理等险,因此短期内不建议直接对客使,是以线客服员助的形式,机协同提升服务质量和效率。案例:坐席助提升客服务体验?前,商业银主要通过客服和智能客服两种式为客提供咨询服务。客服存在作强度、处理和响应时间瓶颈等痛点,智能客服尚不能直接解答客所有问题。为全提升对客服务能,商银在远程银业务中将知识搜索与模型技术结合,实现基于实时通话向坐席员主动推送答复话术或知识的能。同时,利模型也可快速分析客致电咨询的,以及时掌握业务咨
87、询热点,提升服务质效。51 第三章?智能模型应案例?2.办公协作 模型技术的崛起,为办公空间带来了变的契机。“智慧办公”也将逐步改变传统的办公习惯。利 NLP 模型的本成、问答能,全升级办公模式,提供邮件、会议等智能办公助,实现数据资源效使,加强安全保障精细化管理,效提升内部管理效率。案例:智能办公助办公模式效化?商银全升级办公模式,利模型的本成、问答能,围绕邮件、会议、材料、常事务等,探索依托银 e 办公、银 e 企邮等智慧办公具的交互体验,助全办公领域智能化。前,内员可利模型本成能,提升材料编写效率,实现提纲成、档成、中英双语翻译等档撰写任务。同时,也可利模型简化常事务作,如句话即可办理建
88、会议、定会议室、记录程等事务,对接内不同专业领域知识,查知识、查讯息、查指标,随时为答疑解惑等。案例:智能助赋能试流程智能化?商银每年会对收到的数万封员简历,通过 HR 筛选招聘员。在简历初筛环节,传统筛选式需耗费量,且难以对应聘者对沟通。为提初筛效果,商银利模型的成能,动成千千的试题,动化实现线上问答评判、试报告成,减轻筛选简历压,提升初筛效果。此外,在真试环节,不同试官的提问标 52 第三章?智能模型应案例?准不同,导致试效果受限。为提升试的专业化平,商银利模型来成更专业、更深的试题。同时,模型还能根据试者的答题结果形成综合评价报告,为 HR 分析应聘者的情况及能提供了便利。案例三:融市场
89、咨询分析、成动化?针对融市场业务,商银全应模型的核信息提取、智能本成、上下联想等能,塑造融市场投资、融资、资交易的案计划制定、交易执、存续管理、险监测的全价值流。在咨询分析,商银利模型的本成能,实现投研晨报等融市场各类报告的动成,为融市场交易员构建更加效的交易研判利器。其中,晨报成时效从时级缩短分钟级,资讯覆盖从余篇扩展全市场数百篇,报告成采纳率达 88.68%。3.运营管理 在运营管理,商业银可基于模型对知识档理解,实现智能问答、智能查询等能。通过前沿技术将有限的资源从重复性作流程中解放出来,推动智慧、信息管理、科技管理等内部业务处理管理条线的智能化提升,持续优化融业务持效率。例如,对业务信
90、息采集、录等存在效率低、成本等问题。运模型的语义理解、语义分析等技术可实现单分析、信贷本分类、客信息站式录、关键信息抽取等多个业务场景运作的动化,幅度降低员作量和运营成本。53 第三章?智能模型应案例?案例:点助赋能业务流程动化?在客办理跨境汇款业务时,传统对业务信息采集、录等存在效率低、成本等问题。为解决复杂业务点员办理难、专业术语难以向客解释、新业务流程点员不熟悉等痛点问题,商银建设点员智能助,提供中英翻译、制度问答、讯编写、本创作等服务,向全数万点员辅助业务办理,提升线员作效率和作合规性。中英翻译服务可对凭证中的英内容翻译,翻译准确率达 85%以上,服务客服经理万余。制度查询服务可智能化
91、成便于员理解的操作流程和术语解释,提升点员业务处理效率与服务质量,前已在多家分点完成体验评测,问答准确率超 83%。案例:单分析、成动化?商银每需处理数万件客意单,传统智能技术已可满简单、流转和办结等环节的需求。对于答复环节,需通过撰写、审核、修改单处理报告,费时耗。为全提升投诉管理质效,商银在答复环节对原有模式进创新,利模型可根据员与客电话核实情况撰写投诉处理报告。前,均成近万份单处理报告,成答复摘要条理清晰,整体字采纳率约 80%,据初步测算,每年可节省数百年作量。54 第三章?智能模型应案例?4.研究开发 相较于传统纯开发的技术槛和需求,基于模型技术可以辅助在智能代码成、代码识别与检测、
92、代码转然语和交互式研发等领域实现全位能突破,构建基于模型的智能研发体系,覆盖从需求、设计、编码、测试、发布的研发全命周期,全提升融数智化研发平,融领域助国内智能研发技术逐步向成熟。案例:智能研发助研发数智化?智能研发属于特定细分领域的专业化应,存在融属性弱且研难度等特性。为全提升数智化研发平,商银通过引垂直领域的商模型产品,构建基于模型的智能研发体系,实现代码成、代码识别与检测、代码转然语和交互式研发等全位能。前,已建设基于上下的代码预测补全、智能代码成等能,试点期间推使近千,辅助编码近百万,协助开发员动纠正输性错误数万次。5.险防控 在险防控,商业银可基于模型实现业研究、尽调、授信审批、内审
93、等流程的险识别、制度查询及辅助审核等功能的升级,打造涵盖信险、操作险、合规险、内部审计的全险助,满全险管控的更需求,显著提升智能融险管理能,有效满险防控创新发展的需要。55 第三章?智能模型应案例?案例:信贷全流程审批智能化?传统信贷业务模式主要依靠业务员累积的经验,审核和评估信贷材料,此类式效率低下且极易存在为误差。为提升现有信贷系统智能化服务平,商银利模型,建贷前、中、后全流程服务。前,知识答疑功能利模型,通过知识问答形式,为信贷系统提供信贷制度咨询服务,将信贷制度咨询从分钟级提升秒级,每年少可降本数百年,助新信贷系统快速上熟悉制度和系统操作。后续,商银将基于客资料、调查审查报告、征信报告
94、、互联资料等,利模型识别潜在险信息,提信贷员对业务资料的分析效率。案例:可疑报告成动化?商银依托数据及传统智能技术建成客尽职调查、额报送等七功能模块的反洗钱系统,从机构、产品和客等不同维度统计分析洗钱险。其中,在可疑报送模块中的甄别环节,甄别可疑交易并编写可疑报告,需耗费量成本。为提险甄别能,在以案倒查要点分析环节,商银通过模型对法律书提取摘要,分析其中涉及客的案件信息,将案件关联员关键要素信息与客信息进对,提供相关涉案信息供甄别员参考。在可疑报告撰写环节,商银通过模型总结成能,辅助成可疑报告中的客信息等相关章节初稿,供甄别员参考,提升全线反洗钱甄别员的案头作效率。56 第三章?智能模型应案例
95、?案例三:智能员助内控合规智能化?在内控合规场景,针对合规制度、合规册等档知识的问答,传统法主要通过翻阅相关资料以进解答,费时费。为提升解答效率,商银基于模型上线内控数字员“毅控”,为全员提供内控合规各项作的问答指南,包括规章制度、合规信息、员违规处理规定等内容的在线问答,以及合规化传导等常功能服务,为内控合规相关知识答疑解惑和作开展提供撑,为基层减负赋能。此外,为贯彻落实“数字”建设的总体部署,商银打造了银融安 e 控沟通交流平台,为基层员提供内控合规作智能问答和服务持。平台上线以来,赋能全境内数家分机构,动解答率达 92.8%。()?模型应范式:模板化复加速案设计落地 中国商银围绕模型核能
96、,借鉴业界先进经验,基于融业务实际需求和应实践,创新打造适配融业的“1+X”模型应范式,建成集感知、记忆、决策、执、反馈五项功能于体的低槛智能体运框架,沉淀“X”可共享复的范式能,包含多模态知识检索、对话式数据分析、智能化档编写、交互式智能搜索、陪伴式智能研发等多项融即插即的零代码程化解决案,幅提升模型在全规模化应的效率和质量。57 第三章?智能模型应案例?1.档编写 为解决线作员常办公档编写数量,引资料多,编写步骤多,依赖领域经验、质量不等问题,档编写利模型信息抽取、摘要、扩写和总结分析能编写专业档初稿,幅减轻员案撰写作量,提升案编写效率。该范式持场景可归纳为三任务:摘要提炼、内容扩写、分析
97、研判。摘要提炼旨在利模型对冗的通话录、会议录、篇章等去除各类扰信息提炼形成信息摘要,加速信息流转和处理。内容扩写旨在通过模型将简单的事实陈述扩写成篇资料。分析研判旨在对照专家编写研判报告过程,基于模型的阅读理解能对多种参考资料等进阅读、素材抽取,并形成研判分析报告。2.智能搜索 智能搜索依托搜索、模型等技术,提供站数据获取、信息搜索和汇聚、答案提炼和总结等能,持通过对话式,从海量互联信息中搜集实时信息,并进有效的组织和提炼答案,以答案和引的形式为提供快速、可靠、全的信息,解决内信息搜索不准、外信息获取不及时等问题,重塑搜索模式,提升搜索效率。该范式主要包括信息采集、问题解析规划及信息搜索、答案
98、汇总成三个环节。科技员将获取的数据存储库中,根据提问利模型解析意图,搜索问题关联信息,成问题答案及来源,最终业务员反馈问题答案。58 第三章?智能模型应案例?图 18:智能搜索应范式的流程 3.知识检索 为解决线业务员常办公查找、阅读、总结海量制度、规范查不到、耗时等问题,知识检索利知识库、搜索、成式模型等技术,提供海量档的专业知识搜索和问答能,实现档内容检索问答,提升专业知识获取效率。知识检索主要包括知识准备、知识搜索、答案成三个环节。业务员将原始档、FAQ 问答对等知识向量化后存储库,科技员利搜索模型和成式模型分别完成知识搜索和答案成,最终业务员反馈问题答案。该范式适于量档检索的场景,如信
99、贷制度问答、点知识问答、远程银知识推荐等。图 19:知识检索应范式的流程 59 第三章?智能模型应案例?4.智能中枢 智能中枢通过将系统功能进插件化,利模型拆解、调控能,持通过然语式实现跨系统、系统内部各功能的调度控制能,改变机交互模式,解决各功能、数据服务分散在不同的系统发现难、调难的问题。其中,插件的具体实现仍为传统应开发,模型主要负责理解的诉求,对插件进选择、编排、调度,以完成任务分解、规划、实施。该范式体现的是模型在逻辑推理、联想创作、分析规划等的能,其使场景泛,涵盖从客辅助到员助等多个领域,典型场景如数字员、调度场景等。图 20:智能中枢应范式的流程 5.数据分析 为降低数赋智槛,B
100、I 助应通过使然语处理、智能和机器学习技术,基于数据分析师数赋智场景中需求分析、数据加、图表成、数据洞察四个阶段,实现全流程端到端的数据分析能建设。BI 助聚焦融领域庞的数据资产,通过将然语转换成数据分析的语或代码,如对 API 的调、对数据库的访问等,进以图表、表格等形式展 60 第四章?总结与展望?,降低业务查数、数槛,加速业务流程审核。该范式为不具备 SQL 语编写能的线业务员提供了对话式数据分析解决案,实现了报表查询、SQL 成、指标查询、图表绘制等,提升数据分析效率,降低数据分析槛。图 21:数据分析应范式的流程 第四章 总结与展望 成式模型前在复杂的推理、演算和规划还存在诸多不;在
101、安全可信的保障也远不完善;多模态交互、因果推理、深层次的我学习尚处于摸索阶段,整体上较真正的通智能还有相当距离。然近期的技术爆发极地增强了们对实现通智能的信和预期。头 61 第四章?总结与展望?部咨询公司4对业内专家进的调研结果显,多数预计在 2030 年前智能的主体技术能可以全超过类中位数的平;在 2040 年前有望达到类头部 25%的平。随着算法、算、数据的持续进步,以及跨学科团队的共同努,通智能不再是遥不可及的标。商业银应该密切关注当前模型技术代表的主流智能的发展趋势,坚持标导向,谨守险和合规底线,积极研判,锐意创新,经济效地推进新技术引和规模化赋能。()?技术跟踪:研判技术趋势,前瞻布
102、局务实规划 般来说,AI 模型参数量的增加有助于学习和掌握更多的知识,提升成的质量和多样性。模型的参数规模前仍保持上升的势头。国际领先的 GPT-4 据悉其参数规模达到 1.8 万亿,是 ChatGPT 的 10 倍,在推理、规划和多模态等的能遥遥领先。在模型架构上,同现在多数的千 亿级参数及以下的模型不同,GPT-4 采混合专家(MoE)模型架构,由16 个专家模型组成,每个专家模型有 1110 亿个参数。OpenAI 于 2024 年 5发布的多模态模型 GPT-4o 同样引了混合专家模型架构,显著提升了处理效率和质量,其可实时对频、视觉和本进推理,并具备处理 50 种不同语的能。混合专家
103、模型带任务路由模块,也是通过模型训练产,4 麦肯锡,”Whats the future of generative AI?An early view in 15 charts”,2023.08.25 62 第四章?总结与展望?可以根据任务特点动选取需要调的专家模型,从提了对算的使效率,常适合复杂通任务的处理,有望成为万亿级参数规模以上的主流模型架构。不过混合专家模型作为种新型的技术,还在演化发展中,其训练法和技巧同传统的深度络区别很,实化的技术细节和程最佳实践尚不清晰(例如:是否或者如何持垂直业领域的定制开发等),后续的演化和业的技术跟进有待进步观察。此外,此外,单本模态数据在模型的推理能步瓶
104、颈。随着技术的臻成熟,模型创新将从持单模态单任务逐渐发展为将本、图像、视频等集于体的多模态多任务。但前多模态模型的技术栈尚未收敛,多模态学习和跨模态对仍为技术难点,未来产业发展仍有限可能,发展多模态模型对模型因果推理能的提升具有重要意义。在另,前千亿级参数的模型的潜仍然有较的挖掘空间,相关模型的能在持续提升,在许多任务上的评测结果正在向 GPT-4 靠近。这当中也很程度上得益于 GPT-4 等头部模型的贡献。通过头部的标杆模型服务来成质量的训练数据,以此来训练和提升其他模型的能,已成为流的训练法,甚有成为种产业上下游分模式的趋势。从商业银的度,短期内可以将能引或建设的标聚焦在千亿级的模型,后续
105、待技术和产业趋势的进步明朗化后可动态迭代,更多关注多模态模型等前瞻技术的演化路径,结合业务应需求开展多模态模型基础能建设。63 第四章?总结与展望?()?创新驱动:打造产品标杆,敏捷创新赋能业务 在产品创新,商业银应当组织有的模型产品线专职团队,设有效的合作激励机制,推动前瞻研判、产品孵化、平台化推运营条的新技术产品化进程。是密切关注前沿技术的发展趋势,通过与校科研院所、科技公司、融同业等的交流合作,研判有潜在重影响的技术能突破和发展向,及时开展技术储备和预研。当前的成式语模型对于繁琐和重复性的数据和知识处理任务上已经取得良好的效果;在推理和创造也崭露头,但还局限在脑暴的启发式回答、以及相对浅
106、层的逻辑表述的连贯通达和话术选择的优雅。随着智能平的进步提,模型有望在结合不同模态的融数据和知识的基础上,在智能决策和分析领域展所,更加深度地融融产品创新、市场营销、险防控等核业务流程中。因此,相对于其他垂直技术领域,语模型和多模态模型的技术发展是需要特别重点关注的向。是产品孵化要聚焦应价值且适合模型发挥优势的问题空间和应场景,强调以为中的体验设计。要站在度,深理解他们的作流程、痛点和需求,使产品能缝集成现有的业务系统并创建顺畅的机协作体验。在技术的使,要注意新技术和成熟技术的结合,优势互补,如结合传统的机器学习模型较好的数值预测能和成式模 64 第四章?总结与展望?型优秀的融合表达能来提供信
107、、雅、达的质量内容。在产品的规模上,初期可以从较的问题范围,快速交付产品,A/B 测试等法快速试错和优化,确保产品朝着正确的向演进。三是在模型应的推运营,要善于总结成功案例的模型能应模式,提取其中的通思路和法,形成可复制、可规模化的解决案。对于 API 访问的模型应范式,完善基于模型服务 API 的插件标准,便现有业务系统和软件产品快速对接使。有效运检索增强模式,基于模型优秀的语理解和成能,辅以垂直域知识的注,可以快速应对多样化的融场景需求。基于 AI 智能体的调度能,打造智能中控系统,整合传统模型服务和 IT 服务敏捷成组合服务。同时,结合业务需求拓展模型多模态感知能,例如复杂表格、语、图像
108、等多模信息的识别和理解。此外,还要构建反馈的闭环机制,不断改进交互模式,提升综合体验。(三)?安全合规:完善安全体系,保障应健康发展 银业由于其强监管属性,以及银业务和服务的可靠性要求,商业银在成式模型的使上尚保持谨慎态度,前主要应于内员服务和内部业务流程中。后续应当从治理、管控和技术的度加强模型和系统安全性建设,降低应险,促进成式模型在更泛领域的合规应,为客和社会创造更价值。65 第四章?总结与展望?是完善企业治理体系。企业内部应设科技伦理治理的管理部,就模型应的设计、开发、运维和使明确安全责任部,制定模型分级分类的安全管理制度和标准规范,将模型和应的相关表现指标纳模型项的考核体系,强化安全
109、责任。是加强模型命周期管理。对模型的需求评审、数据采集、模型开发、验证、部署上线等各个阶段建标准化流程。关键环节引安全设计和评估,防安全漏洞。采版本控制、变更管理等确保模型可追溯、可审计。建模型监测和预警系统,包含健康度监测、安全漏洞监测等。通过对模型全命周期的安全体系建设和精准化管理,实现数据内容可信、模型价值对、业务可控可三安全标。三是引新技术能不断提升模型和系统的安全能。例如:在模型训练中加对抗样本,提模型的鲁棒性等。在应系统中对模型进外围的安全加固:对输进合规性筛查,过滤恶意的提词攻击;建违禁词库、为名单、内容检测模型等,识别模型的违规输出。在关键业务领域引审核机制,避免直接依赖模型,
110、以及增加可解释性组件就模型的输出阐述成逻辑,接受监督。通过完善的治理体系、流程管控、技术加固措施的综合运,商业银有能建成符合监管要求的模型安全应体系,极提升智能化服务平。66 第四章?总结与展望?(四)?效运营:强化成本意识,提资源使效率 当前技术平下成式模型训练和部署的资源开销,使成本。为了经济节约地推进成式模型的应,商业银应当提成本意识,切实采取措施节约算资源。是在需求和产品项阶段对应价值和资源开销进论证评估,保证有限的资源聚焦在价值的场景。是建完善的云化资源供给模式和资源监控系统,预测模型使峰,根据需求弹性调配计算资源,提资源使效率。三是对于任务模式单的特定领域场景,考虑采模型合成训练数据指导模型训练的师-学模式,开发轻量化场景专属模型,从以较的计算资源开销满场景实际需求。(五)?结语 勇潮头敢为先,乘破浪正当时。对成式模型引领的智能变浪潮,商业银应放眼远,积极作为,胆探索创新,将先进技术与实际需求和监管要求相结合,持续稳健地推进模型等新兴技术在产品服务和业务流程等的应,以先发优势更好地服务市场,助数字经济、数字中国建设,以融质量发展推进中国式现代化的伟实践。67 第四章?总结与展望?