中国信通院&腾讯云:2023行业大模型标准体系及能力架构研究报告(58页).pdf

编号:140284 PDF 58页 2.22MB 下载积分:VIP专享
下载报告请您先登录!

中国信通院&腾讯云:2023行业大模型标准体系及能力架构研究报告(58页).pdf

1、行业大模型标准体系及能力架构研究报告I腾讯云计算腾讯云计算(北京北京)有限责任公司有限责任公司中国信息通信研究院云计算与大数据研究所中国信息通信研究院云计算与大数据研究所行业大模型标准体系及能力架构研究报告II推荐序推荐序“就模型而言,比起通用大模型,企业更需要针对具体行业的大模型,并结合企业自身的数据进行训练和精调,以打造出更实用的智能服务。通过研究行业大模型的标准体系及能力架构,可以更好地引导企业构建自有大模型,我们希望此次的研究成果,可以为行业的大模型应用带来更多的帮助。”腾讯集团高级执行副总裁、云与智慧产业事业群 CEO 汤道生“随着人工智能技术的快速发展,行业大模型已成为推动产业升级

2、的重要驱动力。为了规范和引领行业大模型的健康、可持续发展,有必要构建行业大模型的标准体系,以科学评价大模型技术能力和应用效果。愿本次研究成果,助力大模型产业发展和生态建设。”中国信息通信研究院云计算与大数据研究所所长 何宝宏“我们通过希望行业大模型标准体系及能力架构研究报告,能够帮助行业伙伴解决如何将大模型能力“应用”到自身的行业和场景里的问题,可以更有效的解决成本、数据、安全,合规等大模型实际落地难题。通过建立标准体系,为行业大模型的建设和应用提供指引和支持。”腾讯法务副总裁 江波行业大模型标准体系及能力架构研究报告III行业大模型标准体系及行业大模型标准体系及能力架构研究报告能力架构研究报

3、告行业大模型标准体系及能力架构研究报告IV版权声明版权声明本报告版权属于腾讯云计算(北京)有限责任公司和中国信息通信研究院云计算与大数据研究所,并受法律保护。转载、摘抄或利用其他方式使用本报告文字或观点的,应注明“来源:腾讯云计算(北京)有限责任公司和中国信息通信研究院云计算与大数据研究所”。违反上述声明者,公司和研究院保留追究其法律责任的权利。行业大模型标准体系及能力架构研究报告V编委会编委会 顾问:顾问:吴运声吴运声、魏凯魏凯、王麒王麒、吴永坚吴永坚、徐炎徐炎、江波江波、杨鹏杨鹏、徐樱丹徐樱丹、张张军、方腾飞军、方腾飞 主编:主编:孙星孙星、曹峰曹峰、黄晶莹黄晶莹、李荪李荪、侯方侯方、韩旭

4、韩旭、李牧青李牧青、王颖王颖、赵丹赵丹萍萍、黄小明黄小明、梁小龙梁小龙、王川南王川南、尹迪尹迪、赵登梧赵登梧、胡哲胡哲、李珂李珂、马马雁翔、戚蕴、汪凯峰、叶国宇、周为洲、韩利明、严敏、胡纯雁翔、戚蕴、汪凯峰、叶国宇、周为洲、韩利明、严敏、胡纯、李超李超、何茂亮何茂亮、宋宜徽宋宜徽、梅述家梅述家、代威代威、徐永太徐永太、黄超黄超、刘海涛刘海涛、李建慧李建慧、蒋增增蒋增增、王永霞王永霞、武杨武杨、郑剑锋郑剑锋、倪平倪平、李克鹏李克鹏、刘震刘震宇宇 策划:策划:周威、王成、程力鑫、周军军、赵紫良、周威、王成、程力鑫、周军军、赵紫良、方海璇方海璇行业大模型标准体系及能力架构研究报告VI前言前言当前,随

5、着人工智能技术的不断发展,深度学习模型的规模逐渐增大,性能显著提升,各行各业迎来了新的发展机遇。通用大模型作为通用技术基座,在多个任务和领域上均表现出较好的性能,但由于缺乏专业知识与行业数据,并不能精准解决某个行业或企业的特定需求和问题,而且通用大模型的构建和训练成本通常很高,难以实现商用。为更好解决特定行业问题,行业大模型应运而生。行业大模型可满足特定场景需求,更好地为行业提供优质的服务,促进行业智能化转型升级。为促进行业大模型的健康快速发展,我们充分研究了构建行业大模型所需能力及构建方式,提出了行业大模型构建路线图及相应的标准体系,用以指导企业建设大模型能力。行业大模型构建路线图围绕行业需

6、求分析与资源评估、行业数据与大模型共建、行业大模型微调与优化三方面展开,以更专业、成本更低的方式,引导行业和企业建立特有的大模型服务。大模型标准体系围绕大模型基础能力和特定行业特定场景服务能力展开对大模型能力进行全方位评估,保证大模型快速高质量发展。行业大模型标准体系及能力架构研究报告VII目录目录第一章第一章 行业大模型开启产业升级的行业大模型开启产业升级的“黄金时代黄金时代”.1(一)大模型技术应用不断演进,迎来发展新机遇.1(二)MaaS 支持大模型应用落地全流程能力构建.3(三)场景化需求快速推动大模型价值释放.6(四)行业大模型应用落地亟需建设路线指引.8第二章第二章 行业大模型构建

7、路线图,指导企业建设大模型能力行业大模型构建路线图,指导企业建设大模型能力.11(一)行业需求分析与资源评估.111.业务需求评估.122.算力层评估.123.算法层评估.154.数据层评估.155.工程层评估.16(二)行业数据与大模型共建.171.明确场景目标.172.模型选择.183.训练环境搭建.194.数据处理.205.模型训练共建.21(三)行业大模型精调与优化部署.221.模型精调.222.模型评估.243.模型重训优化.264.模型联调部署.26行业大模型标准体系及能力架构研究报告VIII5.模型应用运营.27第三章第三章 大模型标准体系先行,全面建立能力指标体系大模型标准体系

8、先行,全面建立能力指标体系.28(一)聚焦工程化应用,五大维度评估行业大模型基础能力.281.模型开发标准.282.模型能力标准.293.模型应用标准.304.模型运营标准.315.安全可信标准.32(二)围绕特定行业和场景需求,评估行业大模型服务能力.331.金融大模型标准.332.文旅大模型标准.343.政务大模型标准.354.传媒大模型标准.365.电信大模型标准.376.教育大模型标准.387.工业大模型标准.398.汽车大模型标准.409.家居大模型标准.41第四章第四章 行业大模型应用行业大模型应用“百花齐放百花齐放”,价值不断释放,价值不断释放.43(一)文旅典型案例.43(二)

9、金融典型案例.46(三)传媒典型案例.47第五章第五章 行业大模型行业大模型“千行百业千行百业”落地,驱动落地,驱动 AI 原生应用发展原生应用发展.49行业大模型标准体系及能力架构研究报告1第一章第一章 行业大模型开启产业升级的行业大模型开启产业升级的“黄金时代黄金时代”目前,国内外公司纷纷发布大模型,涉及通用大模型、行业大模型、垂直大模型与专属大模型,一些超强模型服务背后是千亿或万亿参数的基础模型。大模型的诞生标志着人工智能领域的一大步,能够在各种任务中达到更高的准确性、降低应用的开发门槛、增强模型泛化能力等,催生出新的场景和产业模式,快速推动产业智能化应用落地。(一一)大模型技术应用不断

10、演进,迎来发展新机遇大模型技术应用不断演进,迎来发展新机遇随着 ChatGPT(Chat Generative Pre-trained Transformer,对话生成式预训练变换模型)的问世,大模型进入快速发展的时代。一些超强模型服务背后是千亿或万亿参数的基础模型,通过学习丰富的知识,成为与人类交互及连接万物的工具。图 1 通用大模型的发展2016 年 Open AI 发布 Gym 强化学习平台。从 2018 年 GPT-1 问世以来,模型参数从 GPT-1 的 1.17 亿,经过不断迭代,增长到 GPT-4的 1.76 万亿的参数规模,通用大模型的性能,也得到了显著的提升。行业大模型标准体

11、系及能力架构研究报告2斯坦福大学的研究发现,GPT-3 已经可以解决 70%的心智理论任务,相当于 7 岁儿童;至于 GPT3.5,更是解决了 93%的任务,心智相当于 9 岁儿童!2022 年 11 月,ChatGPT 正式发布,是基于 GPT-3.5 架构并通过强化学习训练后的大语言模型,目前仍以文字方式互动,支持包括自动文本生成、自动问答、自动摘要等多种任务。Google 从 2017 年 6 月,发布 Transformer 架构以来,陆续发布了 BERT、T5 等预训练模型,参数规模也在逐步提升。当前大部分大模型均利用 Transformer 架构搭建。近期,Google 发布的通才

12、模型PaLM-E,包含 5620 亿参数,可用于控制机器人,为通用人工智能(AGI)的实现提供了可能。图 2 Google PaLM-E 大模型控制机器人Meta 于 2023 年 2 月开源大模型 LLaMA,已经对大模型的产业链上下游产生极其重要的影响,带动了 Alpaca、Vicuna、FreeWilly2、BELLE、Chinese-LLaMA、Yuan-Chat、MiniGPT-4 等几十个开源大模行业大模型标准体系及能力架构研究报告3型,形成了“羊驼”开源大模型生态圈。7 月开源大模型 LLaMA2 发布,一定程度上降低了商业化部署的成本。图 3 LLaMA 大模型生态圈(二二)M

13、aaSMaaS 支持大模型应用落地全流程能力构建支持大模型应用落地全流程能力构建MaaS(Model-as-a-service,模型即服务)提供了一整套大模型服务工具链和开放平台,行业用户基于行业基础大模型,利用整体的模型套件经过精调再训练,生成满足特定场景需求的专属大模型。与提供基础设施的 IaaS(基础设施即服务)、提供工具的平台即服务(PaaS)和提供软件的 SaaS(软件即服务)相比,MaaS(模型即服务)以模型作为交付目标。基于 MaaS 构建的一站式行业大模型构建和应用解决方案,围绕模型的生命周期提供各种的产品和技术,辅助行业用户从数据预处理、模型构建、模型训练、模型评估到模型服务

14、实现全流程能力构建。解决了企业构建行业大模型成本高、时间长、难度大的问题,降低数字化转型的成本和风险,支撑客户快速实现大模型应用的产品化和商业化,更快地实现数字化转型和升级。行业大模型标准体系及能力架构研究报告4图 4 MaaS 解决方案行业用户利用 MaaS 构建专属的行业模型,可以根据自有数据进行精调,通过训练加速、推理加速完成模型的构建。构建专属行业模型,将预处理完成的数据,载入机器学习平台,选取特定算法并调试,载入特定模型完成训练任务,最后,通过压缩裁剪的方式优化调整模型,并完成模型的注册及验证测试工作,通过测试验证的模型将正式发布和部署。MaaS 通常内置了行业大模型和工具箱,配套标

15、准化流程和落地服务,支持行业用户进行行业大模型的精调,生成符合需求的定制化模型,并在此基础上进行部署,构建行业用户的智能应用,具体来说包括以下两个方面。第一,MaaS 可以通过基础行业大模型、定制场景大模型、模型推理服务 API 等不同的方式,为企业用户提供灵活和定制化服务。企业用户可以利用企业特有数据对大模型进行自主训练,完成模型的精调工作。企业用户可以根据特定业务场景,通过对话、问答、问答挖行业大模型标准体系及能力架构研究报告5掘、相似问句生成等任务,再次进行微调,仅需少量自训练数据量就可以得到企业专属的大模型。自主训练措施包括通过关键词提示、上下文提示、类别提示、语义提示等问答提示工程方

16、式,完成对特定任务的无监督训练。第二,MaaS 可以提供公有云的部署流程、私有化的部署流程,以及混合化部署多样化部署方式。公有云部署,在训练阶段用户先将数据上传到云存储并做好训练代码和环境的准备,完成训练任务后存储模型并进行模型评测。用户行业用户可以在公有云直接购买并使用公有云的机器资源,经过精调和二次训练,生成行业用户的专属大模型,并应用于业务系统,这样可以降低行业用户的训练成本。私有化部署,技术服务提供商可提供基础行业模型并部署在用户本地,用户在本地进行数据训练和模型精调,并调用本地算力和存储资源,完成模型二次训练,满足用户对于敏感数据的隐私保护。混合部署,可以将公有云方式与本地化部署方式

17、相结合,精调训练数据的过程可以在本地进行,通过部署私有化的软件与服务完成模型的精调任务,满足用户部署多样灵活的需求。图 5 公有化方式部署行业大模型标准体系及能力架构研究报告6图 6 私有化方式部署图 7 混合方式部署(三三)场景化需求快速推动大模型价值释放场景化需求快速推动大模型价值释放大模型受益于技术能力的提升和多样化的场景需求,如今其自身正是人工智能领域最大的动力之源,推动人工智能从技术积累、行业应用、产业变革到赋能千行百业的基础设施。行业大模型标准体系及能力架构研究报告7图 8 大模型在场景中的应用智能问答,应用于金融、文旅、政务等各个行业,根据不同行业的特征数据,生成对应场景的特定应

18、用,产品类型包括语音助手、企业客服、呼叫中心、专家咨询、智能助教、智能导诊、销售助手、培训辅导等。内容创作,行业客户可以依据产品特点,利用大模型生成特色文案,助力产品的推广;大模型应用于模板创作、剧本创作、编曲填词,为原创作者增加创意元素,协助作者更好的创作;大模型辅助新闻从业者生成访谈提纲、新闻摘要等;大模型辅助研究人员和教育工作者生成论文摘要、课程设计等,更快速的掌握知识或进行课程的编排。推荐系统,大模型可以根据历史销售数据和客户反馈,学习并生成个性化的销售话术,帮助销售人员更快速地了解客户需求,准确推荐产品,提高销售转化率;大模型通过分析大量的销售数据,提供预测分析功能,帮助销售人员更好

19、地理解市场需求和销售趋势;基于客户的购买历史和偏好,大模型生成智能推荐系统,为不同客户提供个行业大模型标准体系及能力架构研究报告8性化的产品推荐和营销活动;利用大模型创建自动化工作流程,自动生成跟进任务或提醒,减少人工操作失误,提高销售团队的效率。风控模型,基于 AI 大模型的智能风控系统可以通过分析海量数据,利用图神经网络、对抗生成网络和异常检测等技术,挖掘潜在的风险因素,识别异常行为,实时监测金融市场的风险变化,帮助金融机构避免损失,辅助金融机构能够进行更精准的风险评估和信用评估。除了以上场景,大模型在自动驾驶、智能运维、代码助手等很多方面都有着广泛的应用空间和产业需求。(四四)行业大模型

20、应用落地亟需建设路线指引行业大模型应用落地亟需建设路线指引通用大模型在一定程度上很难满足行业用户的直接需求,首先是模型所包含的参数量巨大,训练和部署对算力的消耗十分巨大,成本高昂;其次是模型的可解释性仍然较弱,通常需要增加内容管控手段保证结果的安全性;最后是模型对训练数据的依赖性仍然很强,对超出训练数据的任务效果不尽如人意。更为重要的是,在一些特定的行业,通用基础大模型的表现并不理想,因此行业大模型应运而生。行业大模型,通常基于该行业领域的数据进行训练和优化,更好地理解和处理该行业的专业术语、规范和语义。行业大模型更加专注于某个特定的行业,满足对应行业的需求。目前产业的行业大模型解决方案,助力

21、构建专属大模型及智能应用,并结合自身在算力方面的优势,为行业模型训练提供强大的支持和动力。但是,行业大模型最终要在真实场景落地,达到理想的服务效果,需要充分解决行业用户行业大模型标准体系及能力架构研究报告9的痛点。目前行业用户所面临的问题包括计算资源少、数据质量差、投入成本高,专业人才稀缺等突出问题。图 9 行业选择应用大模型的痛点计算资源方面,大模型的训练,需要对计算资源和存储资源提出较高要求,对于很多行业用户而言门槛很高,现有的资源难以支持大模型的训练和推理。同时高质量的行业知识库和训练数据是行业大模型构建的关键要素,模型训练过程,需要大量高质量的数据进行训练和优化。数据质量方面,行业用户

22、在模型训练过程中,经常会因为数据各类问题,导致大模型的效果和效率无法得到保障。成本投入方面,在确保业务使用的效果和可持续性方面,行业用户需要投入很高量级的数据、计算资源、专业技术和时间来训练、调试、优化并部署实施,成本极高。专业人才方面,行业客户通常缺少 AI 领域技术人才的储备,模型的开发落地通常对技术人才有很高的要求,相关资源的缺失影响大模型在产业的快速落地和持续优化。行业大模型标准体系及能力架构研究报告10面对这些痛点和问题,需要行业大模型技术服务提供商,提供行业大模型精调解决方案,帮助模型开发者与算法工程师,一站式解决数据的处理问题,高效率、高品质、低成本地创建和使用大模型。满足不同行

23、业用户的不同部署需求,支持私有化本地部署的方式,在权限管控、数据加密等方面提供完善的方案。技术服务提供商,应该为行业用户,提供例如金融、文旅、政务、传媒、教育等各行业的基础行业大模型,便于行业用户基于基础模型,进行便捷的精调,以支持不同业务场景和应用的开发。行业大模型标准体系及能力架构研究报告11第二章第二章 行业大模型构建路线图,指导企业建设大模型能力行业大模型构建路线图,指导企业建设大模型能力行业大模型的构建可以加速行业用户的数字化转型效率,提升企业的服务质量。但行业大模型的构建,对行业数据、计算资源和部署运维等提出较高的要求,这对于很多行业用户而言有一定的门槛。更为重要的是,当前缺乏面向

24、行业大模型的构建方法和流程的指导方案,企业用户不清楚如何着手构建行业大模型。本章针对垂直领域的行业大模型,建立标准化流程,具体涵盖业务需求分析与资源评估、行业数据与大模型共建、行业大模型微调与优化部署等关键环节,并对每个关键步骤的细节进行分析。图 10 行业大模型构建路线图(一)行业需求分析与资源评估图 11 行业大模型评估流程构建行业大模型首先需要对业务需求和资源进行评估,具体包括包括业务需求评估、算力层评估、算法层评估、数据层评估和工程层评估等。行业大模型标准体系及能力架构研究报告121.业务需求评估业务需求评估主要是明确业务的具体需求,将业务需求转换为明确、可量化的目标,从而确定行业模型

25、构建的基本方向。行业用户可以结合实际场景和需求,对以下三点进行明确:(1)业务数据:明确需要处理的数据模态。不同的数据模型影响基础大模型的选择;(2)业务指标:将业务需求初步细化为多个子任务,明确各子任务的期望指标;(3)业务服务方式:明确行业用户需要的服务方式。服务方式包括私有化部署或公有化部署,行业用户可以基于技术服务商提供的基础大模型进行私有化部署,也可以利用自有的大模型,通过技术服务提供商提供的模型工具,丰富私有化的部署手段。同样,采用公有云部署的行业用户,也可以根据实际业务需要,确定使用自有的大模型或是由技术服务提供商提供的基础模型。2.算力层评估算力层评估主要是确定行业大模型在实际

26、训练和部署中需要使用的算力资源类型和大小,从而对成本和进行时间预估。在算力评估方面,行业用户需要重点评估计算、存储和网络三部分。行业大模型标准体系及能力架构研究报告13图 12 算力层评估内容一是计算能力,需要考量不同算力上的行业大模型训练时长和成本情况。训练所需要的资源,通常与模型的参数量级,标注后的数据集大小相关。结合训练所采用的芯片、所支持计算网络,以及所选用的精调算法,可以评估单次训练时长。算力层评估可以在模型训练和部署层面上分别进行评估:(1)模型训练算力评估,以通用单卡芯片为例,计算能力可达到 312 TFLOPS,若基础大模型参数为百亿,采用有监督的参数精调(SFT)方式,标注后

27、数据集为 1GB,采用 RDMA100G 网络,这通常需要 32 张卡,每次训练耗时 2 至 3 周;若精调采用 Lora 方式,每次训练耗时可缩短到 1 周。(2)模型推理算力评估,推理所需要的算力资源,通常以 QPS(每秒查询数)评估,这与模型参数、芯片型号和数量相关。生成类模型的推理性能,一般以每秒生成的 token 数衡量。若模型参数达到百亿,运行大小 30G,在 2 卡条件下,QPS 约可达到 130 tokens/s。行业大模型标准体系及能力架构研究报告14二是存储方案,训练数据和大模型需要大量的存储空间,行业用户可以根据训练数据的大小,评估所采用的存储方案。当前,有多类的存储方案

28、可以选择,包括:(1)对象存储 COS(Cloud Object Storage),读取模式可谓下载数据到训练机器本地,读写速度可以超过 0.42GB/s,若采用COS+GooseFS 存储方案,可以提供基于对象存储的多层缓存加速,IOPS 可达 20 万;(2)文件存储 CFS(Cloud Files Storage),IOPS 可达 3 万,若采用 CFS Turbo 方案,IOPS 可达 300 万。通常训练数据小于 50GB 时,行业用户可采用 COS 或 CFS 方案。当训练数据大于 50GB 时,行业用户可采用 COS+GooseFS 或 CFSTurbo 的方案。三是网络通信,当

29、前大模型主要采用分布式训练的方式,训练节点间的通信问题严重影响训练效率。行业用户可以根据模型的参数量级和训练数据量,选择所采用的网络技术。行业大模型的训练需要高性能的网络支持,通常需要至少支持 RDMA 100G 的网络。RDMA技术是为解决网络传输中服务器数据处理的延迟而应用的技术,其支持跨过操作系统的内核开销,直接访问到网卡。支持 RDMA 网络的主流技术包括 RoCE 和 InfiniBand:(1)RoCE 是在以太网上实现 RDMA,目前的 RoCE v2 协议已经可以实现 RDMA 路由在第三层以太网络中传输,可以支持高性能和横向扩展架构;行业大模型标准体系及能力架构研究报告15(

30、2)InfiniBand 可以实现更高的传输性能,实现网络网卡间的无损通信,需要专用交换机。InfiniBand 的网络延迟极低,可达 100ns。3.算法层评估目前基础大模型和微调算法众多,算法层评估主要根据业务需求和算力资源的限制,确定最适合业务场景的大模型和精调算法。在基础大模型选择方面,首先,行业用户应参照业务需求,根据需要处理的数据类型,选择基础的语言大模型、视觉大模型或语音大模型等;其次,根据需要完成的任务,选择对应任务版本大模型,例如,需要完成客服任务,应该选择已经在对话数据集上微调过的基础大模型;随后,根据部署的硬件资源要求,选择大模型的参数版本。在精调算法选择方面,结合算力和

31、时间要求,可以选择不同的精调算法。在评估精调算法时,可以采用少量的样本数据先行进行评估,以保证精调的效果。以大语言模型精调为例,当前可采用的精调算法包括有监督的参数精调(SFT)或参数高效精调(Parameter-EfficientFine-Tuning,PEFT)。4.数据层评估行业用户应根据业务的实际情况以及期望目标,明确数据规模、数据质量和数据安全隐私等问题,从而完成数据层的评估。在数据规模方面,需要行业用户有一定的数据积累,通常行业大模型建设需要 400500 万条数据,根据不同的场景可以有一定的浮动。数据规模一般以 GB 或条数进行量化,其中一条数据是指行业用户在指定场景下的一次最小

32、单元场景的实现过程。例如,在公文写作行业大模型标准体系及能力架构研究报告16场景,一条数据就是一篇完整的公文;在客服场景,一条数据就是一次问答或是一次客服多轮对话的过程。在进行数据准备时,可以先使用少量数据进行评估,例如 300500 条。在数据质量方面,由于其对模型的效果影响会很大,推荐引入人工的标注和确认,至少从原始数据中挑选一定比例进行标注,从而构建并严重高质量的数据集。行业用户正式归档或是正式业务系统标注留存的数据,通常质量较高。在数据安全和隐私保护方面,行业用户需要评估数据是否包含个人信息、敏感信息等,必要时需要对原始数据进行脱敏处理。在数据格式方面,需确定具体数据格式包括哪些。如文

33、本数据、音频数据或是其他格式类型。无监督数据,即原始数据,数据的格式可以是网页数据、PDF、WORD、PPT 或是语音类;有监督数据,即经过标注的数据,数据格式可以为 json 或 Query 格式。5.工程层评估在构建行业大模型时,行业用户可以选择配套工具或第三方平台提升模型构建效率。因此,需要根据需求目标和构建成本对工程工具和平台等进行选择。行业用户需要评估模型训练所需的算法模型平台,确定平台适配性和训练流程。通常模型训练平台具有从数据预处理、模型训练、自动学习、模型评估到模型发布部署的全流程支持能力。具体可以考虑以下几个方面:(1)模型训练平台是否包含需要的基础大模型或基础行业大模型,例

34、如金融行业基础大模型、文旅行业基础大模型等;行业大模型标准体系及能力架构研究报告17(2)数据标注平台是否可以提供数据标注作业、场景数据挖掘等数据生产服务;(3)训练和部署加速库是否具有加速组件,相应加速组件会有效提升模型训练的效率;(4)数据应用平台是否支持快速接入模型、数据和智能设备,提供模型服务、应用工作流编排、云边端调度等;(5)部署兼容性,行业用户需要评估希望部署的平台与行业大模型的兼容性,确认能否能够通过升级的方式进行更新;(6)模型加密,行业用户需要确认是否需要针对内置的模型加密,以防止模型本身的泄露问题。(二)行业数据与大模型共建行业数据与大模型共建包括明确场景目标、模型选择、

35、训练环境搭建、数据处理等环节。1.明确场景目标明确行业大模型实际应用场景及模型评价目标。例如金融领域,覆盖的业务场景可以包括风险控制、客服顾问、投资行研等。不同的业务场景,对于模型的评价目标会有不同。在风控场景,模型的评价目标主要为风险预警精确率、召回率、F1 值等;在客服顾问场景,模型的评价目标主要为平均响应时间、客户满意度等;在投资行研场景,模型的评价目标主要为数据准确性、成本效益等。与金融领域类似,在文旅领域,覆盖的业务场景可以包括行程定制、文案策划、讲解互动等。在行程制定场景,模型的评价目标主要为推荐准确性、定行业大模型标准体系及能力架构研究报告18制匹配度等;在文案策划场景,模型的评

36、价目标主要为信息覆盖度、文案创新性等;在讲解互动场景,模型的评价目标主要为响应时间、互动准确度等。在传媒、政务、教育等其他领域,明确实际应用场景及模型评价目标也都是关键环节。2.模型选择明确模型选型。根据大模型的基础应用领域,大模型可分为 NLP大模型、CV 大模型、多模态大模型等。行业客户应根据大模型的基础应用领域,确定所选择的模型。NLP 大模型主要用于自然语言处理,可以在客户服务、智能助手、问答文稿生成等领域,理解问题和需求,提供准确的解答和建议。如果行业用户的场景目标为智能客服领域,模型应选择 NLP 大模型。在此基础上,结合训练资源情况,选择所处行业优化适配的行业基础大模型,如 LL

37、aMA、ChatGLM 等。CV 大模型主要用于机器视觉,CV 大模型可以在图像分类、目标检测、图像分割、视频修复等领域,完成相应任务。CV 大模型的构建通常基于卷积神经网络、循环神经网络和注意力机制等,通常基于预训练模型,输出目标特征,并结合特征聚合模块,增强模型的全局图像感知能力,支持文字粒度、文本框粒度、整图粒度的特征表示,支持信息的抽取和识别。如果行业用户的场景目标为图像识别、视频修复,模型应选择 CV 大模型,并在此基础上,结合训练资源情况,选择所处行业优化适配的行业基础大模型。行业大模型标准体系及能力架构研究报告19多模态大模型主要用于跨模态场景,其相较于 NLP 类大模型,融合了

38、文字、图像、三维物体、声音等多维度的处理能力,可以有更丰富的应用场景。多模态大模型通过多模态语义理解、跨模态推理、多模态生成等技术进行构建,以实现跨模态的信息表达和交互,实现高精度、细粒度的模态融合。如果行业用户的场景目标为跨模态场景,如文生图、语音生成文案等,可选择多模态大模型,并根据训练资源情况,选择所处行业优化适配的行业基础大模型。多模态大模型的训练,通常对数据和算力方面的要求较高,所需的数据量和多样的数据类型较大,在训练和推理阶段消耗的资源较高。3.训练环境搭建搭建模型训练环境,包括硬件环境的搭建和软件平台的构建。其中硬件环境的搭建主要涉及计算、存储、网络等方面;软件平台的构建主要涉及

39、模型训练平台的选择、数据标注、加速组件等环境的建设。在硬件方面,行业用户可以根据资源及需求情况配置训练所需的计算、存储和网络资源,可优选支持容器 GPU 共享技术的计算资源;优选配置分布式的存储架构,配置多层次的存储加速引擎;优选支持GPU 直连的高吞吐量的 RDMA 网络。行业客户可以配置向量数据库,以支持 10 亿级的向量规模,日处理千亿级的检索能力。在软件方面,行业用户需要结合自身情况,选择优质的模型训练平台。优质的模型训练平台,可以提升模型训练、优化、评估、部署的整体效率。模型训练平台会预置多种 AI 任务的预训练模型及调优流程,支持用户数据准备与设置超参数,支持多种训练任务的调度和行

40、业大模型标准体系及能力架构研究报告20管理,支持自动化完成训练流程。行业用户可以应用独立的数据标注平台,完善数据集管理和数据标注的能力。加速组件应配置支持异步调度优化、显存优化、计算优化的环境,支持数据并行及模型并行。4.数据处理数据处理,将数据加工为模型训练所需数据,包括原始数据处理、数据标注、数据集划分等步骤。行业用户处理原始数据主要包括三个步骤,首先,对原始数据进行脱敏处理,以保证隐私及数据合规使用。原始数据可以来自公开数据集或是由实际业务系统收集的数据。其次,对数据进行预处理,包括去除噪声、去重、文本清洗、数据标注、切块等步骤。最后,通过数据转换、数据清洗、数据增强等,减少数据异常、缺

41、失、冗余的问题,保证数据集的高质量。数据可分为结构化数据和文本、图像、音视频等非结构化数据。结构化的数据预处理包括去重、处理缺失值和无效值等;文本数据的预处理包括降低字频、补充生僻字等;图像数据的预处理包括旋转、翻转、裁切等;音频数据的预处理包括降噪等;视频数据的预处理包括抽帧等。数据标注,当使用文本、图像等非结构化数据时,需要对处理好的数据进行标注。例如,文本类对象需要标注文字检测框、文字内容等;图像类对象需要标注目标检测框、实例分割块、关键点等;视频类对象需要标注目标识别框、语音分割块等;音频类对象需要标注语音、语调、音素等。行业大模型标准体系及能力架构研究报告21数据集划分,数据集可以划

42、分为训练集、验证集、测试集,其中训练集用于训练模型,通常包括无监督训练集和少量精标数据集;验证集可以用于模型超参数(hyper-parameter)的调整,以及过拟合情况的评估;测试集可以用于评估模型的最终性能。5.模型训练共建模型训练共建,对选定模型进行训练。模型训练中的核心要点是快速找到模型的最佳算法及对应的超参数。超参数的选择方法通常包括手动搜索、自动搜索等。行业大模型的训练过程,需要通过大规模的行业无监督数据进行自监督训练和有监督数据进行有监督的调优得到。在行业大模型的预训练过程中,可以通过增加有监督精调的数据,在预训练阶段就学习到更多的知识。模型训练应采用分布式并行训练技术,在训练过

43、程中使用 GPU集群(多机多卡)来提升训练速度。并行训练,包括数据并行、模型并行的训练模式,数据并行是指在多个设备上拷贝一份完整的模型参数,输入不同的数据参与计算,同步梯度,并行处理完成数据的训练;模型并行是指在多个设备上切分模型参数到各个 GPU,每个设备输入相同数据,同步参数,并行处理完成训练。模型训练共建流程为由行业用户将数据上传训练平台、准备训练代码和环境、发起模型训练任务、存储训练后的模型、测评训练后的模型。数据上传过程中,如采用公有云的部署方式,需要开通相应的存储资源,如采用本地化的部署方式,需要提前配置相应的私有化原行业大模型标准体系及能力架构研究报告22件和服务。在准备训练代码

44、前,需要配置完成相应的计算资源,可以根据不同的应用场景和模型特性,调整启动方式,配置对应的模型路径和数据路径。在结束模型训练后,需要经过必要的测评,才能部署发布。(三)行业大模型精调与优化部署行业大模型精调与优化部署包括模型精调、模型评估、模型重训优化、模型联调部署、模型应用运营等阶段。1.模型精调模型精调,首先选择合适的精调算法,精调算法选定后,利用前期准备的特定行业特定场景数据进行大模型的训练精调。目前行业大模型常用的精调算法,包括有监督精调算法和参数高效精调算法等。有监督精调(SFT)根据不同的任务及目标,将预训练模型的权重全部更新。有监督精调的具体做法是为目标模型添加一个大小为目标数据

45、集类别个数的输出层,并随机初始化该层的模型参数。在精调过程中,通过反向传播算法等对模型参数进行更新,使得模型在目标任务上表现更好。有监督精调,需要大量的标注数据用于目标任务,通常其所需的资源和时间会较多。行业大模型标准体系及能力架构研究报告23图 13 有监督的参数精调(SFT)参数高效精调(PEFT)一般针对特定的参数进行有效微调。常用的参数高效精调技术,包括模型蒸馏(distillation)、适配器训练(adapter training)、渐进收缩(progressive shrinking)等。模型蒸馏,主要通过训练一个较小的模型,模仿较大的预训练模型,将预训练模型生成的预测结果,训练

46、生成较小的模型,结合较大模型的知识学习情况,无需存储所有参数。适配器训练,是指在预训练模型中增加小型神经网络,用于特定任务的精调。这些适配器只占原始模型的一小部分,通常训练更快,对内存的需求更低。适配器可以针对多种任务进行训练,然后插入到预训练模型中以执行新任务。渐进收缩,主要涉及在精调期间逐渐减小预训练模型的大小。从一个大模型开始,逐渐减少参数的数量,直到达到所需的性能。这种方法可以产生比从头开始训练的模型性能更好的小型模型。目前在行业大模型精调中,参数高效精调(PEFT)的主流方法包括 P-tuning v2、LORA 等。其中 P-tuning v2 是由 Prefix-tuning 和

47、Prompt-tuning优化而来。P-tuning v2在每一层都加入了Prompts tokens行业大模型标准体系及能力架构研究报告24作为输入,而不是仅仅加在输入层,可以更多可学习的参数,同时也保证参数高效,通过加入到更深层结构中的 Prompt 能给模型预测带来更直接的影响。P-tuning v2 有更多的可优化的特定任务参数,以允许更多的每个任务容量,而它仍比原预训练语言模型会小得多。LORA 精调方法,通过低秩分解来模拟参数的改变量,从而以极小的参数量来实现大模型的间接训练。该方法通过在权重矩阵中增加低秩适配层,降维和升维矩阵,模拟特征秩。在任务训练时,固定模型的其他参数,只优化

48、两个矩阵的权重参数,更新低秩适应层,这允许模型在不改变其一般知识的情况下有效地学习特定于任务的信息。图 14 P-tuning 和 P-tuning v2 精调算法原理图 15 LoRA 精调算法原理2.模型评估行业大模型标准体系及能力架构研究报告25模型评估,在精调生成对应任务的大模型后,对模型进行评估,以判断模型是否满足应用要求。通常包括功能和性能两方面评估。根据应用场景和任务类型的不同,大模型的评估维度会有所不同。对于 NLP 类型大模型而言,其评估维度可以包括功能覆盖度、性能优越度。其中功能评估可以评估其是否涵盖词法分析、句法分析、语义分析、语义消岐、机器翻译、文本分类、文本生成、内容

49、推荐、阅读理解、摘要生成、文本纠错等功能。性能评估包括对应任务的准确率、召回率、F1 值等,必要时需要引入人工进行主观判断,以保证评估的完整性。对于 CV 类大模型而言,其评估维度可包括功能覆盖度、性能优越度。其中功能评估包括是否涵盖字符识别、图像识别、动作识别、图像分类、内容推荐、目标检测、语义分割、实例分割、视觉检索等功能。性能评估可以通过准确率、召回率、F1 值、命中率、平均交并比、检测准确率、分类准确率等维度进行评价,必要时需要引入人工进行主观判断。对于多模态类大模型而言,其评估的维度可以包括功能覆盖度、性能优越度。其中功能评估可以包括是否涵盖图文检索、图文生成、视频文本相关度匹配等功

50、能,性能评估可以通过命中率、准确度、匹配度等维度进行评价,可以引入人工进行主观判断。在模型评估过程中,可以引入更多的测试数据集,保证数据集的全面性、完整性、多样性,以保证模型评估的效果准确,更好的优化模型。行业大模型标准体系及能力架构研究报告263.模型重训优化模型重训优化,根据模型评估的情况,通常需要对模型进行多轮迭代训练优化。可以应用强化学习方式进行模型的重训,通过人工标注答案满意度,选出最符合人类思考交流习惯的答案,循环更新生成大模型。行业用户可以将重训得到的模型在模型训练平台上提交至模型仓库,并进行模型的验证测试,验证后可以正式发布并应用。模型重训可以分为离线重训和在线重训。对于实时性

51、要求较高的某些场景,可以选择在线重训。对于安全性要求较高的场景以及当对模型进行较大更替时可选择离线重训。模型重训可以减少由于数据、内容漂移等因素对模型性能的影响,也可以根据模型应用进程对模型进行即时调优。模型重训优化可以根据模型评估的结果触发,也可以在模型运营阶段根据监控指标触发,即当监控指标低于阈值时,自动触发请求或以人工方式,触发模型重训迭代。4.模型联调部署模型联调部署,包括推理服务部署、服务配置、应用服务联调等阶段。模型联调部署前,行业用户可以对预训练大模型及精调后的大模型做加密,训练框架同样可以做加密封装。在模型部署过程中,需要先将模型、配置、代码等进行封装,随后将封装好的模型服务部

52、署至目标环境并配置对应的 API,以保证后续应用服务的联调,保证模型服务与实际业务系统的对接。行业大模型标准体系及能力架构研究报告27模型部署需要支持更新策略,以保证新版本的模型服务可以持续部署更新于目标环境。支持对已部署的模型服务配置相应的管理策略,以保证模型的正常运行,并不断驱动模型的优化。5.模型应用运营模型应用运营,在生产环境中为已上线的模型服务提供监控、管理、运营维护等能力。模型的应用运营应覆盖大模型构建的全生命周期,全面记录模型运行状态。应支持模型的注册、纳管、风险管理;支持模型版本控制、更新、回滚;支持自动化通知告警,智能化分析和自动化处置。在模型应用运营环节,可以通过构建仓库的

53、管理方式,通过构建元数据仓库、特征仓库、模型仓库、代码仓库、参数仓库等,提供访问、复用、追溯等能力,实现对模型资产的有序管理。行业大模型标准体系及能力架构研究报告28第三章第三章 大模型标准体系先行,全面建立能力指标体系大模型标准体系先行,全面建立能力指标体系随着大模型的快速兴起,业界也意识到,创新技术的发展离不开标准化的推动,大模型标准体系的建设和完善,对于推动大模型应用落地,加速大模型与行业应用融合,促进产业向标准化、合规化、规模化方向发展,具有重要意义。中国信息通信研究院聚焦基础大模型在实际需求中的“建、用、管”等关键环节,从多个方向持续构建和完善大模型的标准体系,聚焦模型化、能力化、工

54、程化、产业化,围绕模型开发、模型能力、模型运营、模型应用、安全可信五大方面形成标准指标体系,全面评估大模型的综合水平。图 16 行业大模型标准体系(一)聚焦工程化应用,五大维度评估行业大模型基础能力1.模型开发标准模型开发标准可解决数据开发过程中流程不清晰、权责不明确等问题。模型开发,从数据构建开始、进行模型训练、模型管理、模型部署四步的全流程体系。模型开发标准可用于指导第三方测评机构对大规模预训练模型的模型开发能力的评估、验收等工作。模型开发标准内容可围绕数据管理、模型训练、模型管理、模型行业大模型标准体系及能力架构研究报告29部署、开发流程一体化等能力域展开,其中数据构建部分可包括数据获取

55、、数据处理、数据管理等能力子域;模型训练部分可包括训练方式、可视化、增量学习、资源优化与调度、分布式训练等能力子域;模型管理可包括模型存储、版本回溯、日志管理等能力子域;模型部署可包括模型微调、模型转换、模型裁剪、模型蒸馏、模型量化等能力子域。根据各项能力子域可进行具体细分至能力项,如模型微调可细分为微调方法丰富度、微调性能差等能力项。其中每个单一能力项可由多项客观指标进行综合评价。图 17 模型开发标准基本框架图2.模型能力标准模型能力标准可解决如何评估模型功性能丰富度、优越度等问题。语言理解能力、生成能力、逻辑推理能力等都为模型能力,为了更好评价不同模型在语义、视觉、语音、多模态等领域能力

56、,可针对模型能力建立功性能评价指标体系,指导评估机构采用主观和客观指标全面评测基础大模型、领域大模型、产业大模型的功能及性能。行业大模型标准体系及能力架构研究报告30模型能力标准评价指标可围绕功能丰富度、性能优越度、服务成熟度三个维度全面评价大模型能力。其中,功能及性能的评测范围可包含智能语义、智能视觉、智能语音、跨模态等能力域,服务成熟度可包含服务稳定性、服务鲁棒性、服务开放程度、服务并发性等能力域。各项能力域可进行具体细分至能力项,如智能语义可细分为是否覆盖词法分析、句法分析、语义消岐、机器翻译、对话系统等能力项。每个能力项可由多个主/客观指标进行综合评价。图 18 模型能力标准基本框架图

57、3.模型应用标准模型应用标准可解决模型应用过程中工程化路径不清晰、应用灵活度、成熟度无法定性定量评估等问题。模型应用,包括大模型开发、二次/多次开发、大模型应用等环节。大模型应用基于系统集成或 API等赋能模式,结合精标注的场景及任务数据,最终实现大模型在工业质检、电力巡检等场景,语言、视觉、跨模态等任务中的落地应用。行业大模型标准体系及能力架构研究报告31目前,大模型工程化仍处于探索期,行业在工程化路径方面达成初步共识,但是在产品形态、运营服务等方面仍存在部分问题。为解决上述问题,可建立模型应用标准指标体系,用于指导第三方测评机构对大规模预训练模型应用能力的评估、验收等工作。标准指标体系可主

58、要规定大规模预训练模型在应用阶段的能力要求,可包括工程路径、运营管理、应用与服务成熟度等核心环节。其中,工程路径可围绕大模型的落地方式及产品形态展开;运营能力可围绕应用平台的管理展开,可包括知识库管理、平台运维管理、数据运维管理等;管理能力可围绕大模型落地的工具链完备度、工具的易用性、可靠性等内容展开;应用成熟度可围绕效果优越性、服务可靠性、服务配套性展开;服务能力可围绕安全性、可靠性、计量准确度等指标进行展开。其中应用成熟度可细分为性能提升度、业务优化度、响应实时性、计量准确性等评测指标。图 19 模型应用流程框图4.模型运营标准行业大模型标准体系及能力架构研究报告32模型运营标准可解决模型

59、运营阶段工具平台能力无法评估,用户无法选型等问题。大模型在工程化落地和运营阶段,模型运营主要包括数据工程、模型调优、模型交付、服务运营、平台能力等核心部分。为推动模型的复用性,减少重复劳动,提高开发效率,同时为企业落地选型提供参考,可针对模型运营开展标准指标体系的构建,该指标体系可用于指导产品方对标完善其大模型平台产品能力,也可为应用方提供技术选型的参考。模型运营标准指标体系可围绕大模型的数据、开发、交付、运营、系统运维、生态扩展等全生命周期进行统一标注制定。具体包括对海量多模态非结构化数据的处理及数据生成能力、大模型在特定领域的调优算法支持度及分布式并行计算的支持度、大模型压缩及转化以适应边

60、端推理的部署及管理能力、服务发布及编排运营能力、资源调度与插件生态,确保大模型从生产到落地应用的全过程稳步运行。图 20 模型运营5.安全可信标准安全可信标准可解决大模型研发应用过程中安全可信度评估问题。大模型在研发及应用过程中安全可信的能力要求,包括基础设施安全可信、数据安全可信、算法模型安全可信和应用安全可信四大维度。为进一步解决大模型在落地过程中的可信问题,保障大模型安全行业大模型标准体系及能力架构研究报告33可用,需建立大模型全流程的安全可信评价体系,评估大模型各个环节的可信能力。该标准体系可用于指导第三方测评机构评估大模型数据、模型、应用的安全性,评估结果、过程、机制和规则的可信性,

61、以及评估大模型生态链的自主可控程度。安全可信标准体系可规定大模型从开发到部署应用全周期涉及到的可信能力要求,可主要分为技术可控与业务可用两大维度。其中,技术可控部分可重点围绕数据可信、算法模型可信和基础设施可信三个能力项展开,数据可信可主要针对训练及微调的数据集潜在的合规问题展开;算法模型可信可围绕算法设计、算法偏见等要素展开;基础设施可信可围绕开发套件、底层算法库、运算芯片、云平台等学习框架和算力设施的稳定性展开。业务可用部分可围绕应用可控、业务设计可信两个维度展开,应用可控可围绕权限管理、运维管理等保障措施展开,业务设计可信可围绕模型部署前的规划设计合理性及运维层面的可控性展开。(二)围绕

62、特定行业和场景需求,评估行业大模型服务能力1.金融大模型标准金融大模型标准可有效评估金融大模型的能力,促进金融行业智能化转型。金融大模型在银行、证券、保险等金融细分领域具有重要应用前景,在智能投研、智能投顾、智能风控、智能营销、智能客服等众多场景中提供助力,促进金融机构数智化水平提升。然而,金融大模型在应用过程中仍面临着诸多挑战。在数据安全方面,由于金融行业对身份信息、金融资产、交易记录、信用历史等数据流动的合规行业大模型标准体系及能力架构研究报告34要求较高,导致金融大模型在数据安全和隐私保护方面将面临更高的要求。在时效性方面,由于金融风险的效用具有期限,导致金融大模型对实时数据获取和处理能

63、力提出了更高要求。为了更好推动金融大模型高质量发展,有必要探索金融大模型标准和评测指标的构建。金融大模型标准可用于指导第三方测评机构对金融大模型能力的评估、验收等工作。金融大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中,应用场景可重点考察营销、风控、投研、投顾、文档处理、知识管理、客服等通用场景的覆盖情况,以及银行、保险、证券、基金、资管等专用业务场景的覆盖情况,具体能力项可可分为客户满意度、客户信用评估准确率、风险预警准确率、表单识别准确率、证件识别准确率等。能力指标可以重点考察不同模态数据的覆盖情况,以及任务具体指标、业务整体效果等方面的效果优越性,具体能力项可分

64、为实体识别、关系抽取、事件抽取、情感分析、文本生成、语音合成、语音识别、图片分类、图像真实性鉴定等。应用成熟可重点考察数据合规、模型可控、服务可靠等方面,具体能力项可分为数据加密性、模型的攻击防范性及输出准确性、服务的可扩展性、可维护性、兼容性等。2.文旅大模型标准文旅大模型标准可有效评估文旅大模型的能力,助力文旅行业发展,提升游客体验。文旅大模型在文化和旅游方面均有重要的应用场景,特别在景区导游、文化推广、旅游规划、虚拟旅游、旅游服务等行业大模型标准体系及能力架构研究报告35细分应用方面,可以优化提升应用服务水平,推进数字化升级进程。在景区导游应用中,可利用文旅大模型对景区的历史、人文进行全

65、方位的介绍,并根据游客的偏好提供智能导览服务。在文化推广应用中,通过对各类文化元素的分析解读,宣传传承文化元素,增进用户交互和体验。在旅游规划应用中,通过分析景区数据,协助文化旅游规划部门,优化景区的管理措施,支持为游客提供专属化的旅游路线。在虚拟旅游中,通过模型可以创建虚拟旅游环境,丰富游览体验,支持游客在虚拟空间中畅游名胜古迹,游览各个景点。在旅游服务应用中,可以基于模型为旅游平台、酒店、餐厅、商场等旅游服务,提供智能推荐,路线定制、咨询问答等,进一步提升游客体验。为了更好的推动文旅大模型高质量发展,提升用户体验,并完善应用体系,有必要探索文旅大模型标准和评测指标的构建。文旅大模型标准适用

66、于指导第三方测评机构对文旅大模型能力的评估、验收等工作。文旅大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中,应用场景可重点考察旅游行程定制、旅游文案、讲解互动等应用场景的覆盖情况,以及文旅规划、客流预测、文化研习等文旅专用业务场景的覆盖情况;能力指标可以重点考察数据覆盖、精准推荐、语义理解、实时交互、语义生成、数据分析等相应能力,以及任务具体指标等方面的效果;应用成熟可重点考察数据隐私合规、模型持续更新能力、安全性等方面,评估模型服务的可靠性。3.政务大模型标准行业大模型标准体系及能力架构研究报告36政务大模型标准可有效评估政务大模型的能力,促进智慧政务发展,提升政府

67、服务能力。大模型的出现为智慧政务注入了新一轮的发展动能,其更强大的理解与推理能力、更自然的交互与协作能力、更精准的识别与预测能力等,都将进一步拓宽智慧政务的服务面,持续提升政务服务的效能与温度。政务大模型核心能力对于提高行政效率、加强治理能力、优化资源配置、完善监督机制、促进经济发展等方面均具有广泛且深远的意义。然而,政务大模型仍存在多方面的挑战:一是需要确保模型输出合法合规合理;二是政务大模型应用应避免偏见与不公。为了更好推动政务大模型高质量发展,有必要探索政务大模型标准和评测指标的构建。政务大模型标准适用于指导第三方测评机构对政务大模型能力的评估、验收等工作。政务大模型能力评估标准可以围绕

68、能力指标、应用场景两个部分开展。能力指标可涉及技术能力、保障能力和应用成效,具体可包括生成能力、交互能力、推理能力、加密能力等,具体评测能力项可包括政务咨询准确率、响应率、公共服务优化性、政务数据分析效果、互动满意度等。应用场景,可涉及通用和专用两大类场景,可包含问询、检索、纳管、党建、监督、行政等场景丰富度,具体评测能力项可包括是否覆盖政策文件生成、政策文件的理解与解读等能力。标准可围绕上述指标体系构建体系化评估方法,包含每个评估项的设置目的、评估方法、分级标准等。4.传媒大模型标准行业大模型标准体系及能力架构研究报告37传媒大模型标准可有效评估传媒大模型的能力,促进传媒行业智能化转型。传媒

69、大模型在辅助写作、内容生成、内容审核、内容推荐、数字人播报等传媒行业场景已经开始应用,渗透至采编播发等各个环节,成为推动媒体融合发展的重要力量。传媒大模型的发展给媒体行业带来了全新的发展机遇,同时也带来了一系列的挑战。首先,传媒大模型目前生成的内容存在不确定性;其次,传媒大模型的生产作品可能涉及侵犯他人的著作权或其他相关权益的风险。为了更好推动传媒大模型高质量发展,有必要探索传媒大模型标准和评测指标的构建。传媒大模型标准适用于指导第三方测评机构对传媒大模型能力的评估、验收等工作。传媒大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。应用场景可重点考察模型对新闻、广告、影视、虚

70、拟人等领域的支持情况,以及对辅助写作、舆情管理等场景的支持情况,具体指标可包括是否覆盖新闻报道、广告营销、影视创作、文学创作等能力项。能力指标可重点考察语言、语音、视觉、跨模态等任务的支持度,以及场景应用、任务性能等效果的优越性,具体指标可包括内容制作匹配度、媒资检索准确率、审核准确率、广告精准度等。应用成熟度部分可重点考察内容真实性、服务稳定性、版权保护等方面。5.电信大模型标准电信大模型标准可有效评估电信大模型的能力,促进电信行业数字化转型。电信大模型在语音客服、套餐推荐、电软开发、网络运维、行业大模型标准体系及能力架构研究报告38故障定位等领域中的具有重要应用前景。电信大模型要充分满足电

71、信行业场景需求,还面临诸多挑战。在技术层面,电信大模型的构造、集成、运维和运营等缺乏统一的流程;在安全层面,电信数据容易包含敏感信息,数据和模型的安全性需要重点关注。为了更好推动电信大模型高质量发展,有必要探索电信大模型标准和评测指标的构建。电信大模型标准适用于指导第三方测评机构对电信大模型能力的评估、验收等工作。电信大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中,应用场景可重点考察客服、营销、政务知识管理等通用场景的覆盖情况,以及电信软件开发、通信网络优化、通信网络运维等专用业务场景的覆盖情况,具体指标可包括是否覆盖意图识别、对话回复生成、异常检测、日志挖掘、故障定

72、位、故障预测等能力。能力指标可重点考察文本、语音、图像、时间序列等多种模态的覆盖情况,以及任务具体指标、业务整体效果等方面的效果优越性,具体指标可包括运维效率提升率、客服服务满意度、客户营销精确度等。应用成熟部分可重点考察服务运行时长、生成内容可靠等方面的服务可靠度,数据安全、模型安全、模型自主等方面的服务可信度等。6.教育大模型标准教育大模型标准可有效评估教育大模型的能力,促进教育行业朝向个性化、多元化发展。教育大模型有望满足更具个性、更加多元、更高质量的教育需求,在问题生成、智慧教学等领域具有重要的应用行业大模型标准体系及能力架构研究报告39前景。然而,教育大模型得到快速应用发展的同时,其

73、在准确性、隐私保护等方面的能力仍显不足。为了更好推动教育大模型高质量发展,有必要探索教育大模型标准和评测指标的构建。教育大模型标准适用于指导第三方测评机构对教育大模型能力的评估、验收等工作。教育大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中应用场景可包括对数学、语文、英语、物理等学科的支持度和对知识问答、教学辅助、学习辅导等场景的支持度,具体指标可包括是否覆盖智能阅卷、课堂助手、虚拟教师、自动生成课程大纲、教学方案、个人学习计划等能力项。能力指标可从记忆、分析、创作、总结等能力维度对教育大模型的效果进行评估,具体指标可包括课程设计合理性、学习推荐匹配度、测评准确性等;

74、应用成熟可包括服务多样和服务稳定,服务多样可考察教育大模型服务对象、服务方式、交互形式等,服务稳定可考察教育大模型的知识准确性、学生隐私保护、持续学习性等方面。7.工业大模型标准工业大模型标准可有效评估工业大模型的能力,促进工业领域实现智能化转型。工业大模型将有望在研发设计、生产制造、管理服务等领域,进一步增强工业设计效率、工业机器人感知和执行力,为工业智能化制造带来强劲增长动能和广阔应用前景。但由于工业领域环境易变化、应用复杂度高、数据多模态等特征,工业大模型在落地进程中仍显不足,因此需构建一套围绕多模型协同、自适应、隐私和安行业大模型标准体系及能力架构研究报告40全保护等方面的标准能力体系

75、,用于引导工业大模型良好发展,推动工业大模型产业化进程。工业大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中,应用场景部分可重点考察系统优化、推荐和预测等通用场景的覆盖度,冶金、煤炭、石油等专用业务场景的覆盖度,具体指标可包括是否覆盖产品质量检测、工况检测、生产计划排程、安全隐患识别、机器维护预测等能力项。能力指标部分可重点考察语言、语音、视觉等任务的覆盖度,以及任务指标、业务整体等方面的效果优越性。具体评测指标可包括质量检测准确率、研发设计匹配度等。应用成熟部分可重点考察数据加密、访问控制等方面的系统安全性,可追溯性、攻击防范性等方面的服务稳定性。8.汽车大模型标准汽

76、车大模型标准可有效评估汽车大模型的能力,促进汽车行业高质量发展。汽车大模型可赋能汽车行业的多种应用场景,目前汽车大模型已应用于智能座舱、智能驾驶等场景,取得较好成效,但其在部署、推理、能耗等方面仍存在明显短板。为了更好推动汽车大模型高质量发展,有必要探索汽车大模型标准和评测指标的构建。汽车大模型标准可用于指导第三方测评机构对政务大模型能力的评估、验收等工作。汽车大模型能力评估标准可以围绕应用场景、能力指标、应用成熟三个部分开展。其中应用场景可主要考察对各类场景的支持度,如汽车的研发场景、使用场景、生产场景等,具体指标可包括是否覆盖行业大模型标准体系及能力架构研究报告41车载语音助手、泊车辅助、

77、自动辅助变道、领域知识库、仿真实验等能力项;能力指标可主要考察汽车行业大模型的语音能力、视觉能力、决策能力等,具体指标可包括智能决策准确率、知识库覆盖度等;应用成熟可主要考察汽车行业大模型的应用成熟情况,可包括算力配置、部署推理、数据管理、安全合规和系统生态等。9.家居大模型标准家居大模型标准可有效评估家居大模型的能力,促进智能家居行业健康可持续发展。智能家居的产品形态不断创新,家居大模型将在智能安防、智能家电、智能影音、智能传感、智能健康等场景具有重要应用前景。智能家居行业蓬勃发展的同时,用户也对数据加密、权限管理、定制化服务等能力提出了较高要求。为规范行业发展,推动大模型在家居领域的能效释

78、放,助力用户选型,可围绕家居大模型在智能家居中的应用场景、实现效果、服务稳定等方面建立标准指标评估体系,全面评估家居大模型在智能影音、智能传感、智能网络、智能照明等场景下的应用效果。其中,应用场景中的通用场景可包括智能空间和智能家居等,专业场景可包括智能安防、智能影音、智能传感等,具体指标可包括大模型是否覆盖情感分析、语义理解等能力项。实现效果可围绕任务效果和整体效果两个部分展开,任务效果可包括语音任务、视觉任务、跨模态任务等,效果优越性可包括场景应用效果、任务性能效果等;服务稳定可围绕安全隐私和系统成熟两个能力子域展开,安全隐私性可包括数据加密、权限管理、日志管理等,系统成熟可包括部署方式、

79、开放程度、定制行业大模型标准体系及能力架构研究报告42化服务等。行业大模型标准体系及能力架构研究报告43第四章第四章 行业大模型应用行业大模型应用“百花齐放百花齐放”,价值不断释放,价值不断释放通用大模型的价值巨大,但无数的企业管理者们也在思考如何才能利用好大模型的力量。相比于通但不精的通用大模型,更专注、更专业的行业大模型在金融、文旅、传媒等多个产业场景具有广泛的应用和商业创新价值。(一)文旅典型案例文旅大模型在文化和旅游方面均会有重要的应用场景,特别在景区导游、文化推广、旅游规划、旅游服务等细分应用方面,可以优化提升应用服务水平,推进数字化升级进程。在景区游览场景中(线下实景和线上沉浸式空

80、间),对景区的景点信息、景点特色、景点的历史故事等进行全方位的介绍,并根据游客的偏好提供智能导游导览服务,提供旅游助手的服务能力。在旅游路线规划场景中,通过分析景区数据,游客画像数据,协助景区、旅游平台、酒店、餐厅、商场等旅游服务主体为游客提供定制化、专属化的旅游路线,充分匹配游客的个性需求和景区吃住行游购娱的旅游资源,构建旅游管家的服务能力。对比以前在平台上各种点按、搜索、筛选,可以以更自然的对话交互模式解决出行需求。在文化宣传推广场景中,尤其是在文博场景中,通过对各类文化历史知识的分析解读,为广大消费者提供历史文化解读,历史文化故事讲解,历史文化知识梳理等功能,帮助用户以更便捷和高效的形式

81、学习、了解、传播文化,构建历史文化专家的服务能力。除大模型自身能力以外,还需要考虑大模型的开放生态能力,能行业大模型标准体系及能力架构研究报告44否连接动态数据、能否连接生态内其他产品的能力、能否连接景区侧的已有系统的数据等,比如结合插件能力连接包括 LBS 大数据、天气、AIGC 等在内的产业生态能力,为用户提供包括内容讲解、交通、餐饮、住宿、购物等多种人性化服务。基于大模型自身强大的内容理解、多轮对话、内容生成能力,再加上连接器所串联的其他数据,才能够提供更好的服务。文旅案例一:在文旅领域,一家线上旅游公司,其传统智能客服需要人工进行对话配置,知识维护量大、耗时长,且涉及订单等复杂业务场景

82、,在无配置的情况下,无法通过机器人闭环解决问题。精调后的客户专属模型,无需配置对话流程,即可实现端到端解决业务问题。提升任务完成率,降低整体成本。图 21 文旅案例 1文旅案例二:行业客户是一家旅游目的地文旅集团,当前景区文旅智能客服系行业大模型标准体系及能力架构研究报告45统,面临如下问题:需要工作人员针对景区运营和历史文化材料进行大量的整理工作,耗时耗力;客户提问需要精准匹配问答标题才能得到想要的预设好的回复信息;整体回复的准确率不高(当前系统只能达到 80%);无法提供个性化的,相对拟人化的问答交互,回答的答案都是预置好的结果信息。现网系统介入文旅大模型及模型调优之后,智能客户的问答效果

83、得到了显著提升:完成相关数据的整理和清洗工作,刷选出了模型训练可用的数据集。针对文档数据进行了调试,对文化数据进行了多轮参数调整及测试。基于现有测试集和数据集,通过数月的精调,文档数据集可达到 90%的准确率,QA 问答对数据集可达 95%准确率。行业大模型标准体系及能力架构研究报告46图 22 文旅案例 2(二二)金融典型案例金融典型案例金融案例一:在金融领域,传统的 OCR 深度学习模型不具备阅读理解和推理能力、模型指标上限低,不同场景下模型能力无法复制,定制成本高。行业内某企业联合一家头部银行,基于 OCR 大模型,上线了 4 类票据的自动化识别流程,信息录入准确率提升 50。图 23

84、文旅案例 3金融案例二:行业大模型标准体系及能力架构研究报告47用户是一家头部的消费金融公司,近年来随着用户规模增大,客户的获客成本逐渐增加。在贷前、贷中等 7 个关键业务环节都需精细化运营,每半年进行一轮模型迭代。过去该公司要投入大量的人力在风控建模。某企业金融风控大模型基于 maas 的服务模式,给该企业提供高性能的建模服务,双方联合共建 10 个定制化的风控模型,应用在反欺诈、信用初筛等多个业务场景;同时实现匹配专家级建模精度,风控模型迭代效率提升 8 倍。图 24 传统建模与金融风控大模型 MaaS 建模效果对比(三三)传媒典型案例传媒典型案例在传媒领域,智能摘要大模型可以从新闻的多种

85、来源渠道的采访稿,包括电视媒体渠道、新媒体等,自动化生成新闻的标题、关键词、导语(摘要)、正文等。该方案可提高新闻成稿的效率,用于辅助人工。新闻生成摘要需求,可指定生成的多个可用标题;可以指定总结34 个关键词;指定字数的内容摘要,正文陈述新闻内容。智能摘要大模型的评测维度,可以包括主观评测和客观评测。主观评测覆盖流畅性、主题相关性、上下文一致性、结构完整性等方面;客观评测行业大模型标准体系及能力架构研究报告48可以 ROUGE 值进行评测。该大模型建设方案,可以在千亿参数规模的通用大语言模型的基础上,进行模型蒸馏,得到百亿级参数模型。通过收集的传媒领域数据,进行预训练训练,数据可为几 G 到

86、几百 G 不等,从而获得传媒行业大模型。最后,再集合摘要场景经过精调得到对应任务场景大模型,以满足模型的实际应用需要。行业大模型标准体系及能力架构研究报告49第五章第五章 行业大模型行业大模型“千行百业千行百业”落地落地,驱动驱动 AI 原生应用发原生应用发展展伴随着行业大模型的蓬勃发展,金融大模型、文旅大模型、传媒大模型、医疗大模型、电信大模型、法律大模型、教育大模型、政务大模型等如雨后春笋般出现。更为重要的是,行业大模型为软件架构的演进革新注入新的活力,有望重塑全球数字化产业。随着 MaaS 等理念的提出,IT 技术栈将由原来的芯片、操作系统和应用三层架构,转变为芯片、框架、模型、应用四层

87、架构。近期,国内企业发布 AI原生(AI Native)向量数据库 Tencent Cloud VectorDB,从接入层、计算层、到存储层提供全生命周期 AI 化的向量数据库,被广泛应用于大模型的训练、推理和知识库补充等场景,效果优越。图 25 AI 原生向量数据库行业大模型对 AI 原生应用发展的影响,总体表现为以下几个方面:AI 原生应用要求 AI 必须是系统、应用和功能的基础,而行业大行业大模型标准体系及能力架构研究报告50模型正提供了构建基础能力的方法论和落地措施。应用开发者或行业用户,可以利用 MaaS 等模型构建范式,经过数据管理、模型精调、模型部署、应用适配等环节,将行业大模型

88、嵌入至软件架构体系中,利用 AI 原生思维重构所有的软件产品、服务和工作流程,开发出更多以大模型为核心的 AI“原生”类应用。除了在软硬件整体架构上的革新,行业大模型还有望推动大模型智能体(Agent)的发展。大模型 Agent 通常是以大模型作为大脑,面向通用或专属复杂问题,具有任务规划能力、长短期记忆力、工具使用能力,能够自动化、全流程完成任务的智能体。通常可以利用LangChain、AuotGPT、HuggingGPT 等工具构建大模型 Agent。需要注意,具有处理复杂任务的大模型 Agent 通常不是使用单一大模型,而是个由多模型和工具链组成的复杂系统,其中包含基础大模型、行业大模型、小模型等,并通过流水线等方式进行配置。而具有强大领域信息处理能力的行业大模型无疑可以在大模型 Agent 发挥重要作用。

友情提示

1、下载报告失败解决办法
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站报告下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。

本文(中国信通院&腾讯云:2023行业大模型标准体系及能力架构研究报告(58页).pdf)为本站 (海绵宝宝) 主动上传,三个皮匠报告文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三个皮匠报告文库(点击联系客服),我们立即给予删除!

温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。
客服
商务合作
小程序
服务号
会员动态
会员动态 会员动态:

152**39... 升级为至尊VIP 186**16... 升级为标准VIP

wei**n_... 升级为至尊VIP dia**nd... 升级为高级VIP

wei**n_... 升级为高级VIP 微**... 升级为标准VIP

159**58... 升级为标准VIP 135**74... 升级为高级VIP

wei**n_... 升级为高级VIP wei**n_... 升级为高级VIP

136**87... 升级为至尊VIP 海宝 升级为至尊VIP

wei**n_... 升级为至尊VIP wei**n_... 升级为标准VIP

L**m 升级为至尊VIP wei**n_... 升级为至尊VIP

wei**n_... 升级为高级VIP wei**n_... 升级为高级VIP

wei**n_... 升级为至尊VIP wei**n_... 升级为标准VIP

wei**n_... 升级为高级VIP 156**01... 升级为标准VIP

139**37... 升级为至尊VIP 微**... 升级为标准VIP

137**04... 升级为至尊VIP 158**40... 升级为标准VIP

ALE**77... 升级为高级VIP wei**n_... 升级为至尊VIP

135**45... 升级为标准VIP 135**68... 升级为高级VIP

136**65... 升级为至尊VIP 138**99... 升级为标准VIP

B F**le 升级为至尊VIP 135**54... 升级为高级VIP

136**65... 升级为高级VIP fa**ox 升级为高级VIP

173**78... 升级为标准VIP wei**n_... 升级为高级VIP

158**38... 升级为高级VIP 158**38... 升级为标准VIP

134**13... 升级为高级VIP Som**ne... 升级为至尊VIP

wei**n_... 升级为至尊VIP wei**n_... 升级为高级VIP

181**38... 升级为至尊VIP wei**n_... 升级为高级VIP

升级为高级VIP wei**n_... 升级为标准VIP

138**71... 升级为高级VIP wei**n_... 升级为至尊VIP

186**52... 升级为至尊VIP 135**22... 升级为标准VIP

微**... 升级为高级VIP 176**91... 升级为高级VIP

wei**n_... 升级为至尊VIP Sim** L... 升级为至尊VIP

wei**n_... 升级为标准VIP 张** 升级为标准VIP

婉华 升级为至尊VIP 138**40... 升级为高级VIP

wei**n_... 升级为至尊VIP 微**... 升级为高级VIP

wei**n_... 升级为高级VIP 185**24... 升级为标准VIP

wei**n_... 升级为至尊VIP wei**n_... 升级为至尊VIP

wei**n_... 升级为标准VIP 非**... 升级为至尊VIP

wei**n_... 升级为标准VIP 150**15... 升级为至尊VIP

187**03... 升级为至尊VIP 138**33... 升级为标准VIP

183**18... 升级为高级VIP 158**68... 升级为至尊VIP

wei**n_... 升级为标准VIP wei**n_... 升级为高级VIP

138**08... 升级为至尊VIP 微**... 升级为标准VIP

wei**n_... 升级为至尊VIP 135**85... 升级为至尊VIP

187**12... 升级为至尊VIP wei**n_... 升级为至尊VIP

181**95... 升级为高级VIP wei**n_... 升级为标准VIP

183**09... 升级为高级VIP wei**n_... 升级为标准VIP

wei**n_... 升级为标准VIP wei**n_... 升级为标准VIP

wei**n_... 升级为高级VIP 138**13... 升级为高级VIP

189**26... 升级为高级VIP Fi**o 升级为高级VIP

132**77... 升级为标准VIP wei**n_... 升级为标准VIP

177**34... 升级为至尊VIP 134**80... 升级为标准VIP

bil**ri... 升级为至尊VIP wei**n_... 升级为标准VIP

Alb**tt... 升级为至尊VIP 187**12... 升级为标准VIP