INDUSTRY REPORT 行业研究市场分析全景洞察2025深度行业分析报告2 0 2 5 Op e n A I 软硬件生态布局、算力需求与商业化进展分析报告0YQUnMrNqRtMnOqOwPq.
2025-10-13
27页




5星级
行业研究市场分析深度洞察行业分析报告2025INDUSTRY REPORT 2 0 2 5 金属软磁粉芯在A I 算力芯片与D D R 6 内存中的关键作用及市场前景分析报告 目 录 一、痛点:省电是.
2025-10-13
22页




5星级
识别风险,发现价值 请务必阅读末页的免责声明 1 1/1010 Table_Page 行业专题研究|电子 2025 年 9 月 28 日 证券研究报告 AI 的进击时刻的进击时刻 19 AI 推理驱.
2025-10-11
10页




5星级
AI 时代的 医疗保健业科技注入,赋能 医疗创新与患者关怀IBM 商业价值研究院|研究简报序言全球医疗保健行业的重要性超乎我们的想象。在许多国家,医疗保健行业是最大的就业支柱,但其正面临着一系列严峻的.
2025-10-11
16页




5星级
具身智能的基础知识2025年9月11日 R1.0版鲜枣课堂目录CONTENTS具身智能的基本概念具身智能的发展演进具身智能的核心技术具身智 能的产业链具身智能的未来发展PART具身智能的基本概念具身智.
2025-10-11
68页




5星级
出品机构:甲子光年智库发布时间:2025.10在AI创生时代,Data&AI数据基础设施是新世界的底座前言当前,全球正经历一场由地缘政治重塑和人工智能技术革命双重驱动的深刻变革。这两大趋势交织并进,正.
2025-10-11
31页




5星级
AI 时代的 银行业以 AI 驭险,更须为 AI 设防IBM 商业价值研究院|研究简报序言银行业和金融市场正处于技术革新浪潮驱动的关键拐点。全球贸易摩擦升级,宏观经济风云变幻,金融机构在迷雾中亟需重塑.
2025-10-11
24页




5星级
安全生产智能体白皮书(企业级)山东渤聚通云计算有限公司 共智制造业数字化转型促进中心 2025 年 9 月 目目 录录 1 编制背景与目的.1 1.1 编制背景.1 1.2 编制目的.1 2 企业介绍.3 2.1 企业概况与定位.3 2.2 资质荣誉与技术实力.3 2.3 核心业务与产品能力.4 2.4 服务能力与市场布局.5 2.5 未来规划与发展目标.5 3 行业趋势洞察.6 3.1 制造业安全生产发展现状.6 3.2 智能化转型驱动因素.6 3.3 安全生产智能体发展趋势.8 4 产品概述.9 4.1 产品定位与目标.9 4.2 核心价值.11 4.3 应用场景.13 5 技术架构.16 5.1 整体架构设计.16 5.2 环境支撑.16 5.3 模型体系.18 5.4 引擎能力.20 6 底座平台.22 6.1 物联中台管理子系统.22 6.2 数据治理管理子系统.24 6.3 数智分析管理子系统.25 6.4 智能中台管理子系统.26 6.5 接口总线管理子系统.28 7 核心功能.30 7.1 隐患排查与治理智能体.30 7.2 安全生产平台操作智能体.38 7.3 设备预测性维护智能体.47 7.4 员工教育培训智能体.55 8 客户案例.61 8.1 案例背景.61 8.2 解决方案.62 8.3 实施效果.64 9 未来展望.67 9.1 技术发展方向.67 9.2 应用拓展前景.68 企业级安全生产智能体白皮书 1 1 编制背景与目的编制背景与目的 1.1 编制背景编制背景 当前,企业安全生产管理正处于传统模式向智能化转型的关键过渡期,面临多维度痛点亟待突破。从日常安全管理流程来看,人工巡查仍是主流方式,隐患识别高度依赖工作人员的经验积累,不仅易因主观判断偏差出现漏检、误判问题,且检查完成后需手动整理报告,标准化程度低、耗时久,难以满足监管部门对快速复盘、实时追溯的要求;同时,企业安全数据分散存储于隐患记录系统、设备管理平台、培训档案库等多个独立系统中,跨系统数据调取与分析效率低下,而历史案例、操作规范等核心安全知识又呈碎片化分布,无法快速复用形成标准化解决方案,导致管理决策常因关键指标滞后而错失风险防控最佳时机。随着安全生产监管要求日趋严格与企业生产规模持续扩大,隐患处置不规范、风险识别覆盖有限的问题愈发凸显。在隐患整改环节,部分企业缺乏明确的法规依据支撑,整改流程易在责任分配、方案审批、结果验收等环节出现断点,且难以将历史整改经验转化为标准化处置模板,导致同类隐患反复出现,整改效果参差不齐;在风险监测层面,传统管理方式难以实时捕捉人员异常行为、设备状态异常及环境风险,风险响应速度始终滞后于实际风险演化进程,给企业安全生产埋下重大隐患。与此同时,人工智能、物联网、大数据等新一代信息技术的成熟与普及,为解决安全生产管理痛点提供了技术可能,行业对智能化解决方案的需求日益迫切。企业亟需一套能够整合多源数据、实现全流程智能协同的系统,打破信息壁垒,提升隐患识别精度与整改效率,强化设备全生命周期管理能力,同时降低对人工经验的依赖,推动安全生产从“被动应对”向“主动预防”转型。在此背景下,企业级安全生产智能体应运而生,成为破解行业痛点、满足企业智能化管理需求的核心载体。1.2 编制目的编制目的 本白皮书的编制,首要目的在于为企业搭建一个全面、清晰的安全生产智能体认知框架。通过系统性阐述企业级安全生产智能体的技术原理、功能特性与运作模式,帮助企业管理层、安全管理人员及技术人员深入理解这一智能化解决方案的本质与优势。打破企业对新技术应用的认知壁垒,消除对安全生产智能化转 企业级安全生产智能体白皮书 2 型的疑惑与顾虑,让企业清晰认识到安全生产智能体并非单纯的技术堆砌,而是能切实解决管理难题、提升运营效能的工具。其次,白皮书聚焦于为企业提供可落地的实践指引。详细剖析产品在不同行业、各类场景下的应用方式与实施路径,结合实际案例,从方案规划、系统部署到后期运维,展示企业级安全生产智能体的具体应用流程与方法。通过对产品核心功能、技术架构的详细说明,为企业在选型、部署安全生产智能化系统时提供客观、准确的参考依据,助力企业根据自身实际需求与发展规划,选择适配的智能化方案,避免盲目投入与资源浪费。最后,希望借助白皮书的发布,进一步推动安全生产智能化领域的交流与发展。分享行业内的前沿理念、创新技术与实践经验,激发企业对安全生产管理的创新思考,引导企业积极探索智能化转型的新路径、新模式。同时,收集企业在安全生产管理中的痛点与需求反馈,为产品的持续优化与升级提供方向,推动企业级安全生产智能体不断完善,从而提升整个行业的安全生产管理水平,实现企业与行业的共同进步与可持续发展。企业级安全生产智能体白皮书 3 2 企业介绍企业介绍 2.1 企业概况与定位企业概况与定位 山东渤聚通云计算有限公司成立于 2014 年 3 月,注册资本 5000 万元,总部位于烟台黄渤海新区天津南路 76 号“未来数字产业园”聚通云大厦,在济南、南京、上海等地设有研发运营机构,是一家聚焦新型工业化的国家级特色型工业互联网平台企业。公司以“云服务赋能产业经济”为使命,核心定位为制造业企业提供场景驱动的云平台解决方案与一站式企业上云服务,尤其深耕化工、新材料、装备制造、食品医药等领域,累计服务 3000 多家制造业企业。2.2 资质荣誉与技术实力资质荣誉与技术实力 2.2.1 资质认证资质认证 公司资质体系完善,兼具行业准入与国际标准认证:拥有国家高新技术企业、软件企业、山东省瞪羚企业、山东省“专精特新”中小企业等核心资质;通过CMMI3(软件能力成熟度模型集成)、ISO9001(质量管理体系)等国际认证;具备工信部 IDC/ISP/ICP 许可、云计算服务能力三级、信息系统安全等级保护三级等关键运营资质,为业务合规开展与服务质量保障奠定基础。2.2.2 核心荣誉核心荣誉 在行业认可方面,公司斩获多项国家级与省级荣誉:“聚通工业互联网平台”入选国家级特色型工业互联网平台,两项“工业互联网 ”场景应用(安全生产、质量管理方向)入选国家级试点示范,入选国家级制造业数字化转型促进中心;省级层面获评山东省优秀大数据产品、山东省中小企业数字化水平评测诊断服务商、山东省智能制造系统解决方案供应商等,同时还是山东省小微企业“创新服务券”服务商、中小企业公共示范平台,持续领跑区域工业互联网服务领域。2.2.3 技术与知识产权技术与知识产权 公司高度重视研发投入,研发费用占营收比例超 8%,累计获得知识产权与专利 233 项,构建起以多模态数据融合、工业垂直大模型为核心的技术壁垒。其中,主导构建的“全国化工安全生产多模态融合数据集”入选山东省高质量数据集,整合文本、图形图像、视频、传感器数据等 100TB 多模态数据(总条目 300亿条),覆盖化工行业法规标准、设备原理、事故案例等核心信息;依托该数据 企业级安全生产智能体白皮书 4 集研发的“聚通化工行业安全生产与设备健康知识大模型”,2025 年入选山东省工业领域行业大模型“揭榜挂帅”攻关项目,荣获山东省“数据要素”大赛二等奖,其数据支撑项目同时入选山东省“数据要素”创新应用项目奖补名单,技术实力获权威认可。2.3 核心业务与产品能力核心业务与产品能力 2.3.1 平台与场景化产品平台与场景化产品 公司以“聚通工业互联网平台”为核心,围绕制造业八大核心业务场景(安全生产、数字设计、设备运维、精益生产、质量保障、精准营销、敏捷供应、节能低碳),研发系列“小快轻准”数字化产品,形成覆盖多行业的数字化解决方案:安全生产领域:“聚通安全生产云平台”针对隐患排查效率低、风险预警滞后等痛点,实现实时监测、动态风险评估、智能应急推送,助力企业隐患整改率从 75%提升至 95%,风险评估耗时从 2 天缩短至 4 小时;设备管理领域:“聚通设备管理云平台”通过多维度故障预警模型与维保方案自动生成,将设备故障预测准确率从 30%提升至 60%,推动设备维护从“事后抢修”转向“事前预防”;能碳管理领域:“聚通能碳管理云平台”基于 ISO14067 标准实现自动化碳核算,帮助化工企业能源利用率提升 18%、单位产值碳排放强度降低 22%;质量管理领域:“聚通质量管理云平台”为食品医药行业提供区块链溯源与智能合规审核,实现原料追溯时效提升 80%、合规审计周期缩短 60%。2.3.2 工业垂直大模型应用工业垂直大模型应用“聚通化工行业安全生产与设备健康知识大模型”是公司核心技术产品,采用“数据-知识-决策”三层自研架构,融合 Transformer、YOLO 图像识别、BERT自然语言处理、LSTM 神经网络等技术,结合含超 10000 个知识节点的化工安全生产知识图谱,具备五大核心应用能力:风险智能评估:动态风险评估耗时从 3 天缩短至 3 小时,效率提升 24 倍;隐患排查治理:借助图像与文本分析,隐患漏检率降低 60%,排查周期从每月 2 次缩短至每周 1 次;应急指挥决策:整合地理、资源、工艺数据,提升应急响应速度与决策科学性;安全培训教育:定制 VR/AR 培训课程,员工安全培训效率提升 40%;企业级安全生产智能体白皮书 5 设备健康预测:设备故障预测准确率提升至 80%,可提前 72 小时预警,减少非计划停机率 30%。该大模型已在 100 余家化工及新材料企业落地,同时联合高校攻关模型轻量化与边缘计算技术,开发“聚通数字底座”,实现与企业现有 MES、DCS 系统无缝集成,部署成本较定制化方案降低 40%,适配中小企业算力需求。2.4 服务能力与市场布局服务能力与市场布局 2.4.1 服务模式与覆盖服务模式与覆盖 公司形成多元化服务体系:针对中小企业提供 SaaS 化订阅服务,降低数字化转型门槛;为大型企业提供定制化解决方案,同时承担山东省中小企业数字化诊断、山东省“工赋百景”、工业领域行业大模型揭榜挂帅项目等省级重点项目,累计完成超 3000 家企业服务覆盖。2.4.2 区域与行业拓展区域与行业拓展 市场布局以烟台为核心,逐步向华北、华东地区辐射,重点覆盖化工、新材料、装备制造、食品医药等行业,针对山东省专精特新企业、国家小巨人企业、小微企业提供分层差异化服务。未来计划进一步拓展有色金属、精细化工等细分领域,目标 3-5 年内服务企业突破 5000 家,构建“产学研用”协同生态。2.5 未来规划与发展目标未来规划与发展目标 未来 3-5 年,公司将持续深耕工业智能领域,核心规划包括:技术迭代:计划投入超 3000 万元优化多模态数据融合算法,新增 500TB 化工行业专属数据,将风险评估准确率提升至 93%、设备故障预测准确率提升至80%,开发第二代轻量化技术架构;业务拓展:新增人工智能算力芯片研发与可穿戴智能装备生产业务,提升本地算力支撑能力,实现作业人员操作规范实时监测;生态构建:与高校共建人工智能智算中心实验室(提供 100P 算力支撑),主导制定 3 项行业标准,推动大模型在八大场景全流程应用;目标定位:致力于成为中国领先的工业互联网 AI 解决方案提供商,助力化工、装备制造等行业智能化转型,支撑山东省人工智能产业高质量发展。企业级安全生产智能体白皮书 6 3 行业趋势洞察行业趋势洞察 3.1 制造业制造业安全生产发展现状安全生产发展现状 在制造业领域,高危行业与一般行业因生产特性差异,安全生产管理呈现显著分化。高危制造业(化工、矿山、冶金等)以流程化、连续性生产为主,安全风险具有突发性、连锁性特征。根据应急管理部发布的 2023 年全国安全生产形势报告,高危行业事故占比仍处于高位。在管理模式上,这些行业普遍建立严格的层级化管控体系,依赖人工巡检、资质认证、标准化作业流程等传统手段,但仍难以完全规避人为失误与管理盲区。像某大型石化企业安全检查发现,人工巡查对隐蔽管道的腐蚀、密封件老化等问题检出率不足 60%;矿山行业即便实施严苛的下井人员资质审核制度,井下复杂环境中的违规操作仍难以及时监管。在数字化应用层面,高危行业整体进程较快。据中国制造业安全生产数字化发展白皮书(2024)显示,65%的头部化工企业已部署物联网监测、DCS 分布式控制系统、数字孪生等技术。大型矿山企业借助井下上千个传感器实时采集数据实现风险预警,事故率可降低近 35%;钢铁企业通过数字孪生技术模拟高炉生产,可减少 40%的非计划停机时间。不过,行业内中小企业受制于资金与技术,数字化应用多局限于局部。中小型化工企业虽广泛引入气体监测系统,但大多未与设备运行、人员操作数据联动,无法形成安全管理闭环。此外,工业自动化与信息化 期刊调研显示,约 70%的高危制造企业存在安全生产系统数据互通难题。一般制造业(电子、食品、纺织等)以离散型生产为主,安全风险相对分散但隐患点多面广。中国安全生产科学研究院 2023 年调研报告指出,68%的一般制造企业存在安全管理漏洞。多数企业安全管理意识薄弱,模式粗放,制度缺失、责任不落实问题常见。某小型电子加工厂仅设 1 名兼职安全管理员,年度安全培训内容陈旧;某食品企业因未建立设备维护台账,机械伤害事故频发。在数字化建设方面,受制于资金、技术与人才,多数企业仍依赖人工记录、纸质台账。少数引入的基础管理软件也仅实现隐患登记等基础功能,无法与生产系统深度融合。以某中型纺织企业为例,虽购置安全生产管理软件,但因缺乏技术维护,数据录入滞后,难以发挥实时监控效能。智能制造与工业安全期刊分析表明,适配中小制造企业的安全生产系统市场渗透率不足 25%,导致行业智能化转型缓慢。3.2 智能化转型驱动因素智能化转型驱动因素 企业级安全生产智能体白皮书 7(1)政策驱动:法规体系完善与强制要求推动转型进程 近年来,国家围绕制造业安全生产发布多项政策法规,构建起覆盖全流程的政策引导体系。2021 年修订的中华人民共和国安全生产法明确提出“推动安全生产科学技术研究和安全生产先进技术的推广应用,提高安全生产水平”,从法律层面确立智能化转型的战略地位。2022 年,应急管理部印发“工业互联网 安全生产”行动计划(2021-2023 年),要求在高危行业推广应用物联网、大数据、人工智能等技术,实现风险实时监测预警与智能处置。2023 年,工信部联合应急管理部发布“十四五”危险化学品安全生产规划方案,强调通过数字化转型提升化工企业本质安全水平,要求重点化工园区 2025 年前建成安全生产信息化管理平台。这些政策不仅明确了技术应用方向,还通过资金补贴、税收优惠等配套措施,降低企业转型成本,倒逼企业加速智能化改造。(2)技术进步:核心技术突破破解传统管理痛点 物联网、大数据与人工智能技术的成熟,为安全生产难题提供了系统性解决方案。在数据采集层面,物联网技术实现了设备状态、环境参数的全域感知。化工企业通过部署智能传感器,可实时监测反应釜温度、压力、液位等数据,结合边缘计算技术,能在本地快速处理异常数据并触发报警,避免因网络延迟导致的风险响应滞后。大数据分析技术则解决了多源异构数据整合难题,将设备运维记录、隐患排查数据、人员操作日志等信息关联分析,挖掘潜在风险规律。矿山企业通过分析记录中的瓦斯浓度数据与开采进度关系,精准预测瓦斯突出风险点,提前采取防控措施。人工智能技术在隐患识别领域成效显著,计算机视觉算法可自动识别安全帽未佩戴、设备部件松动等违规行为;自然语言处理技术能快速解析海量法规文件,为企业提供合规管理建议,大幅提升隐患排查与整改效率。(3)企业需求:成本压力与风险防控双重驱动需求激增 企业对安全生产智能化的需求呈现爆发式增长,源于运营成本与风险防控的双重压力。从成本角度看,传统人工巡检模式效率低、误差大,且随着劳动力成本逐年上升,企业安全管理成本持续攀升。某大型制造企业测算显示,人工巡检每年需投入超千万元,但隐患漏检率仍高达 20%,而引入智能巡检系统后,成本降低 40%的同时,隐患发现率提升至 95%。在风险防控层面,安全生产事故不仅会造成直接经济损失,还会导致企业停产整顿、声誉受损,甚至面临刑事责任。近年来,重大安全生产事故追责力度不断加大,促使企业主动寻求更可靠的防控手段。此外,市场竞争加剧也倒逼企业提升安全生产水平,客户与投资方对企业ESG(环境、社会和公司治理)表现愈发关注,智能化安全生产系统成为企业提升竞争力的重要抓手。部分企业通过智能化改造,将安全事故率降低 60%以上,显著增强了市场信任度与融资能力,进一步刺激了行业内智能化转型需求的释放。企业级安全生产智能体白皮书 8 3.3 安全生产智能体发展趋势安全生产智能体发展趋势 安全生产智能体正朝着多维度融合、全流程闭环、深度适配场景的方向加速演进,通过技术创新与模式重构,不断突破传统安全管理的瓶颈。这种演进不仅体现在单一技术的升级,更呈现出跨领域协同、知识沉淀复用、场景精准适配的系统性变革特征。多模态智能融合成为提升风险识别能力的核心方向。当前智能体已实现文本、图像、传感器数据的协同分析,通过融合现场照片、视频流与环境参数,在毫秒级时间内完成巡检全流程分析,将漏检误检率降低 60%以上。未来,随着多模态大模型技术的成熟,智能体将具备更强大的跨模态推理能力,例如同时分析设备振动数据、红外热成像图像与操作日志,精准定位潜在故障源。知识与数据的深度协同推动决策智能化升级。基于知识图谱的智能体能够整合法规标准、事故案例、设备参数等多维度知识,形成动态更新的决策支持体系。应急管理部推动建设的应急知识库平台,通过构建危化、工贸等行业知识图谱,实现隐患排查的场景化引导问答与法规智能检索。这种知识沉淀机制使智能体可将历史经验转化为标准化处置模板,通过融合一线需求数据,构建覆盖安全准入、风险预判等全流程的数字化管理机制,显著降低现场违章比例。未来知识图谱与实时数据的联动将更紧密,实现从被动响应到主动预防的转型。全流程自动化闭环成为提升管理效能的关键路径。智能体正从单一功能模块向监测-分析-预警-处置全链路延伸,这种闭环能力不仅体现在单一场景,更将扩展至跨场景协同,例如将设备预测性维护与备件供应链管理智能联动,实现风险处置资源的最优配置。场景化适配与轻量化部署降低企业应用门槛。针对不同行业特性,智能体正发展出高度定制化的解决方案:高危行业侧重防爆型硬件与高可靠性算法,一般制造业则注重低成本轻量化部署。智能体提供的大模型一体机采用全栈国产化架构,无需硬件改造即可对接现有摄像头,大幅降低中小企业应用成本;而化工园区智能体则专注于有毒气体泄漏监测、反应釜压力预警等专业场景。这种分化趋势使智能体能够精准匹配不同规模企业的需求,推动行业整体智能化水平提升。标准化互联生态加速跨系统协同。谷歌 2025 年推出的 A2A 协议为不同智能体间的通信提供标准化框架,支持跨平台的任务协作与数据交互。这一趋势在安全生产领域尤为重要,可解决长期存在的数据孤岛问题,使企业内部安全智能体与政府监管平台实现合规数据自动同步,或让不同厂商的监测系统与处置系统无缝对接。未来随着更多企业加入标准化生态,安全生产智能体将形成跨企业、跨领域的协同网络,实现风险的全域感知与联动处置。企业级安全生产智能体白皮书 9 4 产品概述产品概述 依托山东渤聚通云计算有限公司在工业互联网、人工智能领域的技术沉淀与行业实践,企业级安全生产智能体作为聚焦制造业安全生产痛点的核心解决方案,深度融合物联网感知、大数据分析、工业垂直大模型等前沿技术,构建起“感知-分析-决策-执行-反馈”的全链路智能化体系。该产品以“破解安全生产管理瓶颈、推动企业安全管理从被动应对向主动预防转型”为核心导向,既承接企业现有安全生产业务管理云平台的标准化功能,又通过私有云部署的智能体应用实现个性化、场景化的智能升级,形成“公有云业务协同 私有云智能赋能”的一体化架构。4.1 产品定位与目标产品定位与目标 4.1.1 产品定位产品定位 企业级安全生产智能体应用平台,是山东渤聚通云计算有限公司为安全生产业务管理云平台(SaaS 模式)配套建设的核心智能化升级方案。其定位为深度适配现有安全生产业务管理云平台部署架构的企业级智能服务中枢,采用类似企业微信开放平台式的集成方式,将安全生产业务管理云平台作为宿主系统并实现全面接口化,在企业侧私有部署后,可与宿主系统无缝衔接,形成“公有云业务管理服务 私有云企业级智能体应用”的混合云一体化集成架构。该平台聚焦企业安全生产全流程痛点,以物联网、大数据及人工智能技术为核心支撑,构建覆盖隐患排查与治理、安全生产平台操作、设备预测性维护、员工教育培训等场景的智能体应用服务体系,既承接现有业务管理云平台的标准化功能,又通过个性化智能模块填补传统管理模式的短板,最终成为推动企业安全生产流程从“人工驱动”向“智能驱动”转型的关键技术载体。4.1.2 核心目标核心目标 本项目秉持“统一规划、分步实施”策略,通过深度融合物联网感知、大数据分析及人工智能辅助决策等技术,达成各应用系统数据的自动化同步与智能化处理,整合业务查询入口并构建智能交互界面,为数据价值的深度挖掘与充分释放筑牢智能化基础,具体核心目标如下:(1)隐患排查与治理目标 智能化隐患识别:实现对文本数据的语义分析及图像数据的自动识别,解决人工识别漏检、误判问题;企业级安全生产智能体白皮书 10 高效隐患推送与整改:结合人员定位数据与职责信息,将排查识别的隐患精准推送至附近巡检人员及关联责任部门负责人,同步智能推荐整改方法、作业流程及防控建议,缩短隐患响应时间;规范数据上报与预警:自动将排查数据转换为省平台要求的标准化上报格式,无需人工二次录入;对超时未完成整改、未按时上报等操作实时预警,确保流程闭环。(2)安全生产云平台操作优化目标 便捷的操作辅助:构建自然语言问答功能(支持语音输入),用户可通过“对话框”输入问题并获取详细操作步骤;同时提供操作流程引导,根据用户当前页面及角色实时提示“下一步操作”与注意事项;精准的文档检索与推荐:支持对企业制度、国家法律、技术标准等文档的语义搜索与精炼摘要提取,快速获取关键信息;基于用户角色定制个性化工作台,自动推荐常用模块与操作入口;个性化推荐支撑:通过埋点设计记录用户使用轨迹,为后续个性化推荐、常见问题库更新提供数据基础,提升平台使用效率。(3)设备预测性维护目标 全面的设备健康监测:对接 PLC、DCS、IoT 传感器等物联网硬件,实时采集关键设备(泵、阀、电机等)运行状态、振动、温度、电流等参数;基于采集的特征值构建健康度评估模型,生成设备健康得分及趋势图,直观呈现设备健康状况;及时的故障预测与维修建议:运用 AI 模型分析设备运行数据,预测关键指标变化趋势,精准识别潜在故障点;当异常数据超过阈值时,自动推送预警至维保人员并生成报警信息,同时根据故障类型与维保历史,自动生成维修步骤、工时估算和备件清单;优化资源调度:智能查询安全生产业务管理云平台中相关设备所需配件的库存与可用时间,结合维保人员工作安排,通过智能调度算法优化维修调度安排,提升维护效率。(4)员工教育培训目标 个性化培训与学习:对接岗位职责信息、员工学习记录、考试成绩等数据,通过大语言模型算法提取岗位技能维度并量化员工技能掌握程度,生成员工能力画像;针对能力短板模块,自动推送相关课程、文档和练习题,实现个性化学习内容匹配;培训效果评估与激励:实时采集员工培训完成率、考试及格率、错题分布等数据,生成直观的图表报告,清晰呈现培训效果;支持设置积分、排名、荣誉墙 企业级安全生产智能体白皮书 11 等激励机制,根据员工学习进度、考试成绩自动更新积分与排名,提升培训参与度。(5)共创与集成目标 明确分工协作机制:鉴于项目采用双方联合共创模式,明确山东渤聚通与上海恩吉尼尔的分工边界与协作机制,确保总体方案与具体开发无缝衔接;接口化集成适配:实现企业级智能体平台与安全生产业务管理云平台的企业微信式接口化集成,保障数据互通与业务协同;标准化兼容保障:视频接入遵循 GB/T28181 国标标准,软件中采用的控制协议、编解码协议、接口协议、媒体文件格式等符合国家标准、行业标准技术规范,确保系统兼容性与互联互通性。4.2 核心价值核心价值 企业级安全生产智能体应用平台通过技术创新与业务场景深度融合,从效率、风险、知识、合规、管理五大维度为企业创造核心价值,全面破解传统安全生产管理痛点,推动企业安全管理模式升级。4.2.1 效率提升,降低运营成本效率提升,降低运营成本 平台以自动化、智能化技术替代人工重复劳动,大幅削减企业在安全生产管理环节的人力与时间成本,实现“降本提效”双重目标:减少人工投入:自动化数据采集与处理功能替代 70%以上人工记录工作,例如隐患排查数据无需手动整理、设备运行参数无需人工抄录,隐患排查报告、设备健康评估报告等生成流程从小时级缩短至分钟级,让员工从繁琐的基础工作中解放,聚焦风险研判、流程优化等更高价值任务;降低学习与培训成本:智能问答助手与操作流程引导功能,帮助员工快速掌握平台使用方法,新员工培训周期缩短 40%,减少培训课程开发、讲师投入等资源消耗;同时,个性化学习路径推送让员工无需学习无关内容,培训效率提升的同时降低培训材料印制、场地租赁等成本;优化设备管理成本:设备预测性维护功能减少非计划停机时间,避免因设备突发故障导致的生产中断损失;智能查询备件库存与优化维修调度功能,既减少备件过量库存带来的资金占用,又避免因备件短缺导致的维修延误,综合降低设备管理成本。4.2.2 风险可控,强化安全防线风险可控,强化安全防线 依托多模态识别、全流程闭环管理技术,平台大幅提升隐患识别精度与风险 企业级安全生产智能体白皮书 12 响应速度,构建“事前预防、事中处置、事后追溯”的全周期安全防线:提升隐患识别能力:整合文本语义分析、图像识别、视频目标跟踪等多模态技术,隐患识别准确率提升至 90%以上,漏检率降低 60%;例如通过计算机视觉智能体自动识别人员未戴安全帽、设备老化、管道泄漏等隐患,通过自然语言处理智能体提取文本记录中的潜在风险,解决人工识别依赖经验、易遗漏的问题;加快风险响应速度:异常行为、设备故障的响应时间缩短 50%,例如设备异常数据超过阈值时,系统可在毫秒级触发预警并推送至责任人,人员异常行为可实时抓拍并提醒整改,避免风险进一步演化;提高隐患整改质量:全流程闭环管理确保隐患整改完成率提升至 95%以上,通过知识图谱匹配历史整改案例与法规依据,生成标准化整改方案,重复隐患发生率下降 70%,显著降低安全事故发生几率。4.2.3 知识沉淀,赋能持续优化知识沉淀,赋能持续优化 平台构建结构化知识管理体系,实现企业安全知识的沉淀、复用与迭代,为安全生产管理持续优化提供支撑:推动知识结构化沉淀:将企业沉淀的安全知识整合为结构化知识图谱,包含超 10000 个知识节点,知识复用率提升 60%;新员工可通过智能问答快速调取相关知识,减少对资深人员的依赖,解决知识碎片化、传承难的问题;支撑管理持续迭代:基于历史数据与案例的分析能力,助力企业持续优化安全管理流程、整改方案与培训内容;例如通过分析隐患整改数据,优化整改流程节点;通过分析设备故障案例,完善设备维护周期;通过分析培训效果数据,调整培训课程体系,形成“数据-分析-优化”的良性循环。4.2.4 合规保障,规避监管风险合规保障,规避监管风险 平台以标准化数据管理与自动化合规工具,确保企业安全生产管理全流程符合行业法规与监管要求,规避合规风险:确保监管数据合规:标准化数据存储与自动上报功能,确保监管数据格式统一、时效达标,100%符合行业法规与监管要求;例如自动将隐患排查数据转换为省平台要求的上报格式,无需人工调整,避免因数据格式错误、上报超时产生的处罚风险;保障整改方案合规:隐患处置过程中,系统自动匹配相关法规条款与合规标准,整改方案合规性达 100%;例如针对“管道泄漏”隐患,自动关联危险化学品安全管理条例中相关要求,确保整改措施符合法规规定,助力企业顺利通过各类合规性检查。4.2.5 管理升级,推动智能化转型管理升级,推动智能化转型 企业级安全生产智能体白皮书 13 平台打破传统“人工驱动”的管理模式,构建“数据-分析-决策-执行”全链路智能化体系,推动企业安全生产管理向精细化、智能化转型:实现全链路智能协同:通过物联网感知数据、业务系统数据、知识图谱数据的联动分析,将分散的信息资源转化为管理决策的核心驱动力;例如设备健康数据与生产计划数据联动,可提前调整生产安排以规避设备故障影响;隐患数据与人员排班数据联动,可精准调配整改人员;支撑精细化管理决策:为企业提供实时数据洞察与可视化监控,通过数据看板、数据大屏直观展示关键安全指标;领导可通过智能问数功能快速获取所需数据,决策响应速度提升 50%,避免因关键指标滞后导致的决策失误,支撑安全生产精细化管理。4.3 应用场景应用场景 企业级安全生产智能体应用平台基于“场景驱动”理念,深度适配制造业安全生产全流程,在高危行业(化工、矿山、冶金等)与一般行业(电子、食品、纺织、装备制造等)中,形成覆盖隐患排查、平台操作、设备维护、员工培训四大核心场景的解决方案,同时支持场景的灵活扩展与个性化适配,具体应用场景如下:4.3.1 高危行业安全生产场景高危行业安全生产场景 高危行业因生产流程复杂、危险环节多,对安全生产的实时性、精准性要求极高,平台可针对性解决以下核心场景痛点:化工行业隐患全周期管控场景:在化工企业生产车间、储罐区、装卸区等区域,通过物联中台对接符合 GB/T 28181 标准的监控摄像头、气体传感器、压力传感器等设备,实时采集图像数据与环境参数。隐患排查与治理智能体可自动识别管道泄漏、阀门异常、有毒气体超标等隐患,通过人员定位功能将隐患推送给附近巡检人员,同步调用知识图谱匹配危险化学品安全管理条例相关条款与历史整改案例,生成带压堵漏、置换通风等合规整改方案;数据智能上报功能自动将隐患数据按省应急管理平台格式整理上报,避免人工填报遗漏。同时,设备预测性维护智能体实时监测反应釜、压缩机等关键设备的振动、温度数据,提前 72 小时预警轴承磨损、密封件老化等故障,生成包含备件型号、维修工时的方案,减少非计划停机导致的化学品泄漏风险。矿山行业井下安全监测场景:针对矿山井下瓦斯突出、透水、冒顶等风险,平台通过井下物联网传感器实时采集瓦斯浓度、风速、顶板压力等数据,数智分析管理子系统将数据可视化展示并生成健康度评分;异常趋势预测智能体运用 企业级安全生产智能体白皮书 14 LSTM 时序算法分析历史数据,当瓦斯浓度接近阈值时,自动推送预警至井下作业人员与地面调度中心,同步触发通风设备启停指令。员工教育培训智能体结合井下作业岗位需求,生成“瓦斯检测操作”“应急逃生路线”等定制化课程,通过 VR 设备模拟井下突发场景,提升员工应急处置能力;同时,操作智能助手支持语音问答,井下员工可通过对讲机语音查询“井下避灾硐室位置”“顶板监测设备校准步骤”,无需手动操作平台,保障作业安全。冶金行业高温作业安全场景:在钢铁、有色金属冶炼场景中,平台通过红外热成像摄像头与温度传感器,实时监测高炉、转炉的炉壁温度、熔渣液位等参数,设备预测性维护智能体识别炉衬侵蚀、冷却系统故障等隐患,推送“炉衬修补”“冷却水管道清洗”等维修建议;隐患排查与治理智能体自动识别高温作业区域人员未穿隔热服、违规跨越安全线等行为,抓拍取证并推送警示信息。此外,制度法规检索功能支持快速查询冶金企业安全生产标准化评定标准中关于“高温熔融金属吊运”的要求,帮助管理人员实时核对作业合规性,降低灼烫、爆炸事故风险。4.3.2 一般行业安全生产场景一般行业安全生产场景 一般行业虽风险相对分散,但存在隐患点多、人员安全意识薄弱、数字化基础薄弱等问题,平台可通过轻量化部署与场景化功能,解决以下核心需求:电子制造业设备运维场景:电子企业 SMT 生产线(表面贴装技术)中的贴片机、回流焊炉等设备,依赖稳定运行保障产能。平台通过 IoT 传感器采集设备运行电流、吸嘴压力、炉温曲线等参数,设备健康监测智能体生成设备健康得分,当回流焊炉温区偏差超过 2时,自动预警并推荐“热电偶校准”“加热管更换”等维修步骤;资源优化调度功能对接企业 ERP 系统,查询吸嘴、刮刀等备件库存,优先调度邻近仓库备件,缩短维修时间。同时,操作智能助手为生产线员工提供“贴片机程序导入”“AOI 检测设备操作”等流程引导,新员工通过动态帮助浮窗快速上手,减少因操作失误导致的设备故障。食品医药行业质量与安全双控场景:食品医药企业需同时满足安全生产与质量合规要求。平台中质量管理云平台模块与安全生产智能体联动,隐患排查智能体自动识别车间人流物流交叉、原料存储温湿度超标等隐患,同步调用区块链溯源引擎追溯原料批次信息;员工教育培训智能体针对“洁净区操作规范”“无菌取样流程”等岗位技能,生成包含视频教程、考核试题的培训包,通过考试及格率分析调整培训重点。此外,制度法规检索功能支持一键查询食品安全法中关于“食品生产过程控制”的条款,生成合规检查清单,助力企业通过市场监管部门抽检。纺织行业车间安全管理场景:纺织企业车间存在棉絮堆积、消防通道堵塞、企业级安全生产智能体白皮书 15 机器防护装置缺失等隐患,平台通过摄像头与烟感传感器,实时监测车间环境;隐患识别智能体自动识别棉絮堆积超过 0.5m、消防通道有障碍物等情况,推送整改任务至车间安全员;操作智能助手为员工提供“梳棉机安全防护装置检查”“消防灭火器使用”等操作指引,通过语音输入功能方便一线员工查询“设备急停按钮位置”。同时,员工教育培训智能体针对新员工开展“纺织车间火灾应急处置”培训,通过案例分析题强化安全意识,降低火灾、机械伤害事故发生率。4.3.3 跨行业通用支撑场景跨行业通用支撑场景 除行业专属场景外,平台还提供跨行业通用的智能化支撑功能,适配企业安全生产管理的共性需求:安全生产平台统一操作场景:无论何种行业,企业员工使用安全生产业务管理云平台时,均面临功能复杂、查询繁琐的问题。安全生产平台操作智能体可嵌入现有平台界面,提供自然语言问答、个性化工作台(HSE 专员工作台显示隐患统计、审核待办,巡检员工作台显示巡检路线、待排查点位),同时汇总“平台登录失败”“隐患提交报错”等常见问题,新员工通过常见问题库快速解决操作难题,减少 IT 部门咨询压力。企业安全知识管理场景:各行业企业均存在安全知识碎片化问题。平台知识图谱引擎将这些知识结构化,构建“隐患-处理方案-法规依据”关联网络,员工可通过语义搜索查询“电机过载故障处理”,系统自动返回历史维修记录、电气安全工作规程相关条款、所需工具清单,实现知识复用;同时,反馈管理功能收集员工对知识内容的评价,持续优化知识图谱准确性,避免因知识滞后导致的整改失误。应急指挥协同场景:当企业发生安全事故时,平台可整合事故现场图像、周边应急资源、气象数据,通过场景助手管理功能生成应急指挥流程,推送“人员疏散路线”“初期火灾扑救方法”至相关人员;同时,调用设备预测性维护智能体分析事故关联设备状态,评估次生风险,为指挥决策提供数据支撑,提升应急响应效率。企业级安全生产智能体白皮书 16 5 技术架构技术架构 5.1 整体架构设计整体架构设计 智能体总体架构采用公有云与企业私有云相结合的混合云方案,其中公有云平台定位为开放平台(类似企业微信开放平台),安全生产业务管理云平台提供标准化的安全生产业务管理功能与开放平台接口;企业侧则部署私有云形态的企业安全生产智能体应用平台,通过公有云开放平台的接口实现与安全生产业务管理云平台的无缝对接,形成“公有云业务管理服务 私有云企业级智能体应用”的混合云一体化集成架构。该架构既依托公有云实现安全生产业务管理功能的集约化部署与标准化输出,又通过企业私有云智能体平台满足企业个性化的智能分析、本地业务适配需求,实现云端与企业侧数据互通、业务协同、功能互补。5.2 环境支撑环境支撑 企业级安全生产智能体应用平台的稳定运行与高效赋能,需依托适配的硬件环境与软件环境协同支撑。硬件层面聚焦设备接入、数据处理、智能计算等核心需求,构建高可靠、可扩展的硬件架构;软件层面通过标准化系统、工具与算法组件,保障平台功能落地与多系统协同。企业级安全生产智能体白皮书 17 5.2.1 硬件环境硬件环境 硬件环境围绕企业级安全生产智能体应用平台“物联感知-数据传输-计算处理-存储备份”全链路运行需求构建,兼顾基础业务支撑与 AI 算力需求,确保适配不同规模企业的部署场景。物联感知设备作为数据采集前端,需部署符合 GB/T 28181 国标的高清网络摄像头(分辨率不低于 400 万像素,支持红外夜视与移动侦测),按生产车间每 500 1 台、关键设备周边额外部署 1-2 台的密度配置,用于识别人员异常行为与设备外观隐患;同时配置多类型传感器,包括温度传感器(量程-40200,精度0.5)、压力传感器(量程010MPa,精度0.2%FS)、有毒气体传感器(检测下限1ppm)及振动传感器(采样频率1000Hz),均支持MQTT 协议实现数据实时上传,另有北斗定位终端或 WiFi 基站定位设备(定位精度10 米)用于人员位置获取,按每 1000 1 个定位节点部署。网络传输设备采用分层架构,出口端部署防火墙(支持千兆以上吞吐量与入侵防护),核心层用 100G 交换机(端口带宽100Gbps)连接算力服务器与存储设备,接入层用千兆交换机(48 个千兆电口 4 个万兆光口)连接前端感知设备,搭配 MOP100G 光纤跳线实现设备间远距离高速传输。存储设备包含公共存储主机(配双口 100G 网卡,搭配 6 块 Micron 6.4T SSD,总容量38.4TB,采用 RAID5冗余架构,支持单盘故障容错,数据重建时间4 小时,保障工业场景下多模态数据(视频、传感器数据)的存储可靠性,避免因硬件故障导致的数据丢失)用于共享数据存储,各服务器本地配置 500GB NVMe M.2SSD 作为系统盘,4 块3.84TB NVMe U.2 SSD(IOPS10 万)作为数据盘。企业级安全生产智能体白皮书 18 计算处理硬件分为基础计算与 AI 算力两类,基础计算服务器中,3 台Zookeeper 集群服务器用于集群协调;3 台 Flink 实时计算服务器部署 Hadoop 与Flink 框架;3 台 Kafka 消息队列服务器缓存实时数据;3 台 Elasticsearch 服务器用于全文检索;3 台 Neo4j 知识图谱服务器存储行业知识;1 台 Prometheus 运维监控服务器监控系统指标。AI 算力服务器包含大模型训练服务器与小模型推理服务器,分别支撑大模型训练与隐患识别、故障预测等推理任务。5.2.2 软件环境软件环境 操作系统统一采用 OpenEuler,适配各类服务器硬件,保障系统稳定性与兼容性。基础软件层面,虚拟化环境可部署 VMware vSphere 或华为 FusionSphere,容器化部署采用Docker与Kubernetes,搭配Harbor私有镜像仓库管理组件镜像;数据库体系包含 InfluxDB/TDengine 时序数据库(存储设备实时数据)、MySQL(主从架构,存储结构化业务数据)、MongoDB(存储非结构化数据)、Elasticsearch(全文检索)及 Neo4j(知识图谱),数据处理工具用 DataX 与 SeaTunnel 实现数据同步,Flink 处理流批数据,Kafka 与 EMQX 分别作为消息中间件与 MQTT broker,WVP-Pro 视频平台配合 FFmpeg 实现 GB/T 28181 协议视频设备接入与处理。中间件与集成软件方面,用 Spring Cloud Alibaba 实现系统间接口集成,支持 RESTful API 与 WebService 协议,且遵循企业微信接口规范保障与安全生产业务管理云平台衔接;前端可视化采用 ECharts 与 DataV 构建数据看板,Vue 与Element Plus 开发操作界面。算法与应用软件包含 TensorFlow、PyTorch 深度学习框架,OpenCV 图像处理库,以及“聚通化工行业安全生产与设备健康知识大模型”(集成 BERT、YOLOv8、LSTM 等算法),平台自带隐患排查与治理、设备预测性维护等场景化应用模块,兼容第三方安全生产管理软件。安全与运维软件部署奇安信天擎终端安全系统实现病毒防护与漏洞扫描,Keycloak 用于身份认证与 RBAC 权限管理;运维工具用 Prometheus 与 Grafana监控系统指标,ELK Stack 收集分析日志,Jenkins 实现 CI/CD 流水线,确保平台稳定运行与版本迭代。5.3 模型体系模型体系 5.3.1 数据模型数据模型 企业级安全生产智能体的数据模型以“标准化整合、结构化关联、动态化更新”为核心,整合安全生产全流程多源数据,构建覆盖业务、知识、设备、人员 企业级安全生产智能体白皮书 19 的全域数据体系,为智能分析与决策提供统一数据基础。在数据整合维度,将分散于隐患记录系统、设备管理平台、培训档案库的异构数据标准化处理,其中业务数据涵盖隐患类型、整改进度、设备台账、培训记录等结构化信息,通过定义统一字段格式实现跨系统数据对齐;非结构化数据如巡检照片、法规文档、操作视频等,通过格式转换与元数据标注纳入管理,形成“贴源层-清洗层-明细层-汇总层-应用层”的分层数据架构,其中贴源层(ODS)保留原始数据,清洗层(DWD)完成数据去重、补全与格式统一,明细层(DWS)按业务主题整合数据,汇总层(ADS)生成指标数据,支撑上层应用调用。在知识关联维度,构建包含超 10000 个知识节点的安全生产知识图谱,以“实体-关系-属性”三元组形式组织数据,核心实体涵盖隐患、设备、法规、人员等,通过定义“隐患-处理方案”“设备-故障类型”“法规-适用场景”等关联关系,实现知识的结构化沉淀;同时关联历史事故案例、设备运维记录等数据,为隐患识别、整改方案生成提供知识支撑。此外,数据模型支持动态更新机制,通过定时任务同步物联网设备实时数据、业务系统新增数据,并基于用户反馈持续优化知识图谱关联关系与数据字段定义,确保数据模型的时效性与准确性。5.3.2 算法模型算法模型 算法模型体系围绕安全生产核心场景需求构建,涵盖文本处理、图像识别、设备预测、异常检测等多类算法,形成“数据输入-模型计算-结果输出”的全流程智能处理能力。在文本隐患处理领域,采用 BERT 自然语言处理模型对巡检记录、检查表、微信照片备注等文本数据进行语义分析,通过预训练模型与行业语料微调,实现隐患信息的精准提取,提取准确率达 93%;同时结合关键词匹配与句法分析算法,对法规文档、操作规范等文本进行结构化解析,生成包含条款摘要、适用场景的法规知识库,支持语义检索与精准问答,响应时间3 秒。图像隐患识别领域采用 YOLOv8 目标检测算法,针对设备外观缺陷、人员违规行为、环境异常等场景,通过标注超 10 万张行业图像样本训练模型,实现多目标同时识别,识别准确率达 92%(测试数据集含 5 万张设备外观、人员操作场景图像,包含管道腐蚀、安全帽未佩戴等 30 典型隐患);同时引入图像分割算法对复杂场景图像进行像素级分析,精准定位隐患区域,为巡检人员提供精准指引。设备预测性维护领域采用 LSTM(长短期记忆网络)与 ARIMA(自回归积分移动平均模型)两类时序预测算法,LSTM 算法通过捕捉设备运行数据的长期依赖关系,构建设备健康度评估模型,生成 0-100 分的健康得分与趋势图,提前 72 小时预警潜在故障;ARIMA 算法则针对设备运行参数的线性变化趋势进行短期预测,当预测值接近阈值时触发预警;同时结合孤立森林异常检测算法,对设备运行数据中的离群值进行实时识别,快速定位故障征兆,异常检测准确率 企业级安全生产智能体白皮书 20 达 80%。此外,算法模型支持轻量化部署与动态优化,针对中小企业算力有限的场景,对核心算法进行模型压缩,降低算力占用,部署成本较定制化方案降低 40%;同时建立模型效果评估机制,通过准确率、召回率、误检率等指标实时监控算法运行效果,例如定期统计文本隐患提取准确率、图像隐患识别召回率,当指标低于阈值时,自动触发模型重新训练流程,结合新增标注数据优化模型参数,确保算法模型在不同行业场景中的适配性与稳定性。5.4 引擎能力引擎能力 5.4.1 数据治理引擎数据治理引擎 数据治理引擎作为企业级安全生产智能体的数据中枢,承担全业务数据的整合、治理、存储与服务功能,通过标准化数据管理流程,将分散的多源数据转化为高质量数据资产,为各智能应用提供可靠数据支撑。在数据整合环节,引擎支持多类型数据源接入,包括物联网设备实时数据(传感器采集的温度、压力、振动参数)、业务系统结构化数据(隐患记录、设备台账、培训档案)、非结构化数据(巡检照片、法规文档、操作视频),通过 DataX、SeaTunnel 等数据同步工具,按定时调度或实时流处理模式,实现数据的全量与增量同步,同时支持数据格式自动转换,转换后数据压缩比达 1:5,单表查询速度提升 3 倍,可满足设备运维记录的快速检索与分析需求,适配不同系统的数据交互需求。数据治理环节聚焦数据质量提升,通过主数据管理功能统一人员、设备、组织等核心实体的编码与属性定义,例如为每台设备分配唯一设备 ID,关联设备型号、安装位置、维保周期等静态属性与实时运行参数,确保跨系统数据一致性;元数据管理功能记录数据来源、字段含义、处理规则等信息,形成可视化数据血缘图谱,方便追溯数据流转路径与处理过程,当数据出现异常时,可快速定位问题源头。标签类目管理与指标体系管理功能则实现数据的结构化梳理,按“安全生产场景-业务主题-数据标签”层级构建标签体系,按“核心指标-衍生指标-计算逻辑”定义指标体系,并通过数据清洗器完成数据去重、补全、格式校验,确保数据准确性与完整性,最终以数据服务接口形式为智能分析引擎、知识图谱引擎等提供标准化数据调用服务。5.4.2 智能分析引擎智能分析引擎 智能分析引擎以“数据可视化、分析智能化、决策辅助化”为核心,通过整合高质量数据与灵活分析工具,将复杂的安全生产数据转化为直观可交互的分析成 企业级安全生产智能体白皮书 21 果,为企业安全管理提供精准数据洞察。在数据整合与处理层面,引擎对接数据治理引擎输出的标准化数据,支持多维度数据关联分析,同时提供 SQL 查询、即席分析等工具,满足管理人员自定义分析需求,并通过分布式计算框架实现海量数据的实时分析,确保分析结果的时效性。可视化展示层面,引擎提供丰富的图形化组件与配置功能,支持数据源管理(关联 MySQL、InfluxDB 等各类数据库)、数据视图管理(定义分析维度与指标,如按“时间-车间-隐患类型”维度分析隐患分布)、数据微件管理(提供折线图、柱状图、热力图、仪表盘等 30 可视化组件),管理人员可通过拖拽方式配置数据看板与数据大屏,构建“车间安全生产总览看板”,实时展示隐患整改率、设备健康度、培训完成率等核心指标,支持下钻分析;同时支持动态组态配置,基于场景信息与组态图库(含设备图标、指示灯、开关按钮等图形元素),构建可视化场景界面,为图形元素关联监控指标,设置动作规则,直观呈现设备运行状态与环境风险,帮助管理人员快速掌握安全生产全局情况。5.4.3 知识图谱引擎知识图谱引擎 知识图谱引擎是支撑安全生产智能决策的核心知识中枢,通过构建结构化知识网络与提供智能推理能力,实现知识的沉淀、复用与高效调用。在知识构建环节,引擎支持多源知识导入与结构化处理,可上传法规文档、设备手册、事故案例等多格式文件,通过 OCR 识别、文本解析等技术提取关键信息,按“实体-关系-属性”三元组形式构建知识图谱;同时支持人工补充知识节点与关联关系,形成覆盖隐患处理、设备运维、法规合规、应急处置等多维度的知识体系,知识节点超 10000 个,满足不同场景的知识需求。在知识应用与管理环节,引擎提供丰富的功能模块支撑智能服务,文档问答管理功能支持用户以自然语言提问,引擎通过知识图谱检索与语义匹配,返回包含处理步骤、所需工具、法规依据的精准答案,并关联历史案例;场景助手管理功能针对特定场景配置知识调用流程,例如在应急指挥场景中,引擎自动整合事故现场图像、周边应急资源、关联设备状态等数据,生成应急处置流程与决策建议,推送至指挥人员终端;单智能体管理功能支持配置专项智能体,为智能体关联专属知识库与工具,实现场景化智能服务。此外,引擎还支持知识库维护、反馈管理、工具管理,确保知识的时效性与服务的精准性,为隐患排查与治理、设备预测性维护、员工教育培训等场景提供有力知识支撑。企业级安全生产智能体白皮书 22 6 底座平台底座平台 6.1 物联中台管理子系统物联中台管理子系统 物联中台管理子系统是企业安全生产智能体应用平台实现物联网设备接入、监控、数据流转及视频整合的核心支撑模块,旨在构建标准化、一体化的物联网设备全生命周期管理体系,为安全生产场景中的设备状态感知、数据实时分析及智能决策提供底层支持。该系统以“设备互联标准化、数据流转自动化、监控管理可视化”为核心目标,通过整合物联网感知技术、消息队列技术及视频监控国标协议,实现对各类物联设备的统一接入、集中管控与数据赋能。模块名称 功能名称 功能说明 物联设备管理 物模型管理 新增、修改、删除物联网通用物模型,定义设备属性、命令、事件等标准化数据模型,作为设备数据交互的基础框架。产品分类管理 对物联网设备产品进行分类创建、编辑及删除,如按设备类型、应用场景等维度划分,便于产品统一管理。产品信息管理 维护产品的详细信息,包括产品型号、厂商、支持的物模型、通信协议等,关联产品与物模型的映射关系,为设备接入提供标准模板。设备分组管理 对接入的设备进行分组创建、调整及删除,可按区域、生产线、设备类型等灵活划分分组,实现设备的批量管理与权限隔离。设备信息管理 录入、编辑、删除设备基础信息,包括设备编号、所属产品、安装位置、通信参数(IP、端口)等,关联设备与分组及物模型,完成设备入网配置。设备实时监测 实时采集并展示设备运行状态、关键参数、在线状态等信息,支持设备状态异常告警,提供设备数据实时刷新与历史曲线查看。消息队列管理 客户端管理 通过 EMQXAPI 对接,实现客户端连接信息的查看、客户端 ID 管理、连接状态监控、客户端认证与权限配置。企业级安全生产智能体白皮书 23 监听器管理 配置 EMQX 的监听端口与协议,查看监听器运行状态,支持监听器的启用/停用与参数调整。消息主题管理 创建、删除消息主题,配置主题权限,查看主题订阅关系与消息流转统计,支持按设备或业务场景划分主题层级。规则资源管理 管理 EMQX 规则引擎所需的外部资源,配置资源参数并测试连接有效性,为规则执行提供数据转发目的地。规则引擎管理 通过 EMQXAPI 定义消息处理规则,设置触发条件、处理动作,实现设备消息的实时路由与处理,支持规则的启用、停用与日志查看。视频监控管理 运行看板 实时展示服务器性能指标、网络速率,以及设备总数/在线数、通道总数/在线数、推流总数/在线数、拉流代理总数/在线数等关键数据。分屏监控 支持多画面分屏展示视频监控画面,可手动切换监控通道、调整画面布局,支持画面放大、抓拍、录像回放操作。国标设备管理 对接符合 GB/T28181 标准的视频设备,实现设备注册、状态监测、目录查询,支持设备参数配置与国标协议参数维护。推流列表管理 维护设备推流信息,查看推流地址、码率、状态(在线/离线),支持推流任务的手动启停与推流日志查询。拉流代理管理 配置拉流代理参数,建立对外部视频流的拉取连接,管理代理节点与流转发规则,确保视频流稳定传输与分发。通道管理 管理视频设备的通道信息,包括通道编号、名称、关联设备、视频编码格式等,支持通道状态监控与录像计划配置。云端录像 配置视频通道的录像策略,管理录像存储路径与时长,提供录像文件查询、回放与下载功能。节点管理 管理视频监控系统的节点服务器,查看节点负载、在线状态,支持节点的新增、删除与负载均衡配置。企业级安全生产智能体白皮书 24 6.2 数据治理管理子系统数据治理管理子系统 数据治理管理子系统是企业安全生产智能体应用平台的核心数据支撑模块,旨在构建统一、高效、标准化的数据管理体系,实现全业务数据的整合、治理、存储与服务,为各智能体应用提供高质量的数据支撑。该系统以“数据资产化”为核心目标,通过整合企业安全生产全流程数据(包括但不限于人员信息、设备参数、隐患记录、培训数据等),建立标准化的数据模型与管理规范。一方面,通过主数据管理、元数据管理等功能,确保数据的一致性、准确性和完整性,消除数据孤岛;另一方面,通过标签类目管理、指标体系管理等,实现数据的结构化梳理与价值挖掘,为业务分析、智能决策提供数据基础。同时,系统支持与安全生产业务管理云平台、物联网设备等多源数据的对接,通过作业信息管理功能实现数据的实时处理与计算,构建从数据采集、清洗、转换到存储、分析的全链路数据闭环。其灵活的扩展性与开放性,可适配企业业务的动态变化,为后续数据智能应用的迭代升级提供坚实的数智底座。国标级联 支持与上级/下级国标平台进行级联配置,实现跨平台视频资源共享与控制信令交互,配置级联协议参数与权限策略。模块名称 功能名称 功能说明 主数据管理 实体信息新增 实体信息对照主数据对象,如人员、组织、工程、客户等,声明需要维护的实体信息。实体信息修改 实体信息删除 字典分类新增 描述实体中牵涉到的数据字典,如人员信息中,工号与姓名的映射关系;工程信息中,工程编号与工程名称的关系等等,保持后续数据存储与使用时的语义一致。字典分类修改 字典分类删除 元数据管理 元数据新增 对主数据对象的描述信息进行定义,包括字段编号、中文名、字段类型等等。同时可以对各字段在查询时是否显示、展现的控件类型与查询规则进行配置。元数据修改 元数据删除 标签类目管理 标签类目新增 对某一资源画像中的标签信息进行描述,包括标签类型、描述、采集逻辑、采集频率、采集方式与采集数据源,采集的最终结果进入大数据库。标签类目修改 标签类目删除 企业级安全生产智能体白皮书 25 6.3 数智分析管理子系统数智分析管理子系统 数智分析管理子系统是企业安全生产智能体应用平台的可视化分析与决策支持核心模块,旨在通过数据整合、图形化展示及动态组态配置,将复杂的安全生产数据转化为直观、可交互的可视化成果,为企业安全管理提供精准的数据洞察与决策依据。该系统以“数据可视化、分析智能化、展示个性化”为核心目标,整合来自数据治理管理子系统的实时数仓数据、物联网设备的实时监测数据及业务系统的实时业务数据,通过灵活的数据源配置、多维数据视图构建及交互式图形组件,实现数据从“采集-处理-展示-决策”的全链路可视化闭环。模块名称 功能名称 功能说明 数据源管理 数据源新增 对数智分析微件中需要使用到的数据库数据源信息进行管理,测试连接是否正常。数据源修改 数据源删除 数据视图管理 数据视图新增 利用查询语句组成虚拟数据视图,供图形展示使用 数据视图修改 数据视图删除 数据微件管理 数据微件新增 在数据视图的基础上配置展示图形。数据微件修改 数据微件删除 数据字典管理 数据字典新增 可通过手动输入或以数据视图为基础,生成数据字典缓存,用于图形展示时,代码翻译成中文。数据字典修改 数据字典删除 数据看板管理 数据看板配置 通过拖拽方式将多个数据微件配置组合成为看板,并可配置查询条件。指标体系管理 指标信息新增 对指标对象的要素进行描述,包括指标的业务意义、指标主题与指标具体包含的属性等等,指标的数据生成可以由程序定制实现,也可以通过第三方直接采集进入大数据库。指标信息修改 指标信息删除 作业信息管理 作业信息新增 对实时计算平台作业要素进行管理,以 Flink SQL 方式实现数据源头与数据下游的连接并实现聚合与各类算子,最终将作业信息提交至实时计算平台进行批/流计算处理。作业信息修改 作业信息删除 企业级安全生产智能体白皮书 26 数据大屏管理 数据大屏配置 通过拖拽方式将多个数据微件配置组合成为大屏。场景信息管理 场景信息新增 创建可视化场景,定义场景名称、描述、尺寸等基础属性,关联场景所需的设备、指标数据源。场景信息修改 修改场景的基础属性、关联的设备及数据源,调整场景布局范围。场景信息删除 删除不再使用的场景,清理关联的组态配置数据。组态图库管理 图库分类新增 创建图形元素分类,便于图形资源的归类管理。图库分类修改 调整分类名称、排序或合并分类,维护分类层级结构 图库分类删除 删除无用的图形分类,同时清理该分类下的所有图片资源。图形资源上传 向指定分类中上传图片,支持图形预览、命名及尺寸调整,作为组态配置的基础图形素材。图形资源维护 对已上传的图形资源进行替换、删除或属性编辑。组态信息管理 组态图形配置 基于场景和图库资源,通过拖拽方式布置图形元素,设置图形位置、大小、层级等样式属性,构建类似大屏的可视化界面。指标监听配置 为每个图形元素关联设备的监控指标,设置指标数据的获取频率和更新方式。动作规则配置 定义图形元素的动态行为:当监听的指标满足特定条件时,触发预设动作。组态模板保存 将配置完成的组态界面保存为模板,支持复用或后续调整优化。组态模板预览 实时预览组态界面的动态效果,模拟指标变化时图形元素的动作响应,验证配置正确性。6.4 智能中台管理子系统智能中台管理子系统 智能中台管理子系统是企业安全生产智能体应用平台的智能化应用中枢,旨在通过标准化配置、模块化集成与全生命周期管理,构建覆盖“智能交互-场景落地-知识支撑-持续优化”的全链路智能应用体系,为企业安全生产场景提供灵活可定制的智能化工具。该系统以“降低智能应用门槛、提升业务适配能力”为核心目标,整合大语言模型、RAG 知识库、MCP 工具及端侧小模型等技术要素,通过可视化配置与接口化集成,实现智能应用的快速构建、部署与迭代。企业级安全生产智能体白皮书 27 模块名称 功能名称 功能说明 文档问答管理 文档问答配置新增 配置文档问答类应用,支持上传文件或直接输入文本提问,关联智能语言大模型,定义交互参数,实现用户与大模型的文档驱动式交互。文档问答配置修改 调整已配置的文档问答应用参数,如更新关联的大模型、修改文件格式支持范围或提问交互规则。文档问答配置删除 移除不再使用的文档问答应用配置,清理关联的模型调用权限及文件存储资源。场景助手管理 流程配置新增 定义场景任务的完整流程,包括流程名称、目标描述、参与节点及节点间流转规则,支持可视化拖拽配置流程逻辑。节点信息配置 为流程中的每个节点配置信息,明确节点执行条件与异常处理机制。应用运行管理 启动配置好的场景流程,自动触发节点间数据流转,最终输出任务结果。单智能体管理 智能体配置新增 配置单智能体应用,支持上传文件或直接输入文本提问,关联 MCP 工具与智能语言大模型,定义工具调用逻辑,实现智能体的问答交互。智能体配置修改 调整智能体应用的参数,如更新 MCP 工具配置、切换关联的大模型或修改文件解析规则。智能体配置删除 删除无用的单智能体配置,释放关联的 MCP 工具资源与模型调用权限。知识库管理 知识库新增 创建 RAG 知识库,支持上传多格式文档,配置文档分片、embedding 处理规则,构建结构化知识索引。知识库维护 对已创建的知识库进行文档增删、更新,调整 embedding 模型或知识索引策略,确保知识时效性。召回测试 对知识库进行召回效果测试,输入测试问句,自动计算召回准确率、召回速度等指标,生成测试报告并支持导出。工具管理 MCP 工具配置新增 配置 MCP 工具的接入信息,支持三种配置方式:1)UVX/NPX 协议配置(填写协议参数、企业级安全生产智能体白皮书 28 6.5 接口总线管理子系统接口总线管理子系统 接口总线管理子系统是企业安全生产智能体应用平台实现各子系统、外部系统及设备间高效通信与数据交互的核心枢纽,旨在通过标准化接口规范、统一接认证信息);2)SSE 公开接口配置(填写接口地址、请求头参数);3)Docker 环境配置(填写容器开放地址、端口及访问权限)。MCP 工具配置修改 更新 MCP 工具的配置参数,维护工具与智能体/模型的关联关系。MCP 工具配置删除 移除无效的 MCP 工具配置,清理接口调用权限及容器访问记录。模型管理 语言模型新增 录入智能语言模型信息,包括模型标识、调用类型(公有/私有)、调用路径、调用令牌(API Key)。语言模型修改 更新模型的调用信息启用/停用模型(私有模型支持部署状态同步)。语言模型删除 移除不再使用的语言模型配置,清理关联的调用记录与权限。算法管理 小模型算法配置新增 配置端到端小模型算法的服务地址,支持 OCR、embedding、图像分类等算法,填写服务接口地址、请求格式、认证方式。小模型算法配置修改 更新算法服务地址、调整请求超时时间或认证信息。小模型算法配置删除 删除无效的小模型算法配置,解除与智能体/文档处理流程的关联。反馈管理 反馈查看 展示用户对智能应用的反馈记录,包括反馈内容、原始交互上下文、用户初始标记。反馈二次标记 管理员对标记为“其他”的反馈进行二次分类:-若标记为“有用”,进一步细化为“内容准确”“易于理解”“内容完善”;-若标记为“没用”,进一步细化为“没有帮助”“信息虚假”“有害”“不安全”;标记结果用于优化模型响应与应用效果。企业级安全生产智能体白皮书 29 入管理与全链路监控,构建稳定、可扩展、安全的系统间数据交换通道,保障平台整体数据流转的顺畅性与一致性。该系统以“接口标准化、接入集中化、运维可视化”为核心目标,整合各类接口协议,提供接口注册、配置、调用、监控及权限管控等全生命周期管理功能。模块名称 功能名称 功能说明 接口总线 服务系统 运行概况 对系统中的接口与定时任务做概况分析统计并展示在看板上。接口服务 主要对各业务系统的接口的注册,管理,授权,调用代理,转换等服务的管理。消息服务 建立统一的消息发布与消息订阅,管理消息池与消息发布推送。任务调度 管理统一的调度任务,并记录调度任务执行的状态,耗时,处理反馈等信息。运行统计 统计服务接口运行时的数据,接口负载,调用排行,访问趋势,错误率等。日志审计 记录接口,消息等服务访问的记录及查询。企业级安全生产智能体白皮书 30 7 核心功能核心功能 企业级安全生产智能体的核心功能体系,围绕制造业安全生产全流程痛点构建,以“场景化智能赋能”为核心逻辑,整合隐患排查与治理、平台操作辅助、设备预测性维护、员工教育培训四大核心模块,形成覆盖“风险识别-流程优化-设备保障-人员能力提升”的全链路智能化解决方案。各功能模块既独立解决特定场景问题,又通过数据互通与业务协同形成联动效应,最终实现“数据驱动决策、智能优化管理”的目标。7.1 隐患排查与治理智能体隐患排查与治理智能体 依托企业安全生产智能体应用平台(整合数据采集存储、硬件信息及视频采集、智能体技术等核心能力)与安全生产业务管理云平台的深度联动,成功构建起一套隐患排查治理智能化系统。该系统全面覆盖隐患智能识别、精准推送、整改建议生成及数据自动上报等核心功能模块,实现全流程智能化管理。同步输出条理清晰的隐患排查数据报表(基于企业安全生产智能体应用平台的标准化数据存储与分析能力生成)、详尽的整改作业指导文档(结合企业安全生产智能体应用平台采集的设备硬件参数与智能案例匹配技术),以及实时更新的隐患排查与整改状态监控报告(通过企业安全生产智能体应用平台与安全生产业务管理云平台的数据联动实现动态追踪)。7.1.1 隐患智能识别隐患智能识别 文本隐患抽取:借助企业安全生产智能体应用平台对安全生产业务管理云平台中巡检记录、检查表、微信照片备注等文本数据的集中存储与结构化处理能力,通过平台内置的自然语言处理智能体开展深度语义剖析,精准提取潜藏的隐患内容,避免信息碎片化导致的漏检问题。(1)算法工程 任务名称 算法应用 任务描述 图像分类 图像分类算法 识别图片类型,判断其属于巡检记录、检查表、微信照片备注等带文字的图片,还是纯设备图像等非文字类图片,为后续差异化处理提供依据。图像到文本 文本提取算法 对识别为带文字的图片,先定位文本所在区域,再将图像形式的文本内容识别并转换为可编辑的字符序列,实现文字信息的提取。企业级安全生产智能体白皮书 31(2)软件工程 图像隐患识别:依托企业安全生产智能体应用平台对接的设备监控摄像头(遵循 GB/T 28181 国标标准)、巡检手持终端拍照等图像采集设备,将实时图像数据传输至平台进行高效存储与预处理,再通过内置的计算机视觉智能体自动命名实体识别与关系抽取 设备图像隐患识别算法(含语义理解实体识别、关系抽取等子算法)从涉及设备的图像中提取出设备的类型、状态和指标,支撑隐患识别。模块名称 功能名称 功能说明 文本隐患抽取 接口对接管理 负责企业安全生产智能体应用平台与安全生产业务管理云平台接口的配置、开发、测试与调试工作。记录接口对接的相关信息,监控接口状态,保障数据收集的顺畅性。排查任务信息同步 同步排查任务相关信息,包括任务详情、现场照片、位置等数据,确保平台获取完整的排查场景信息,为隐患识别提供全面上下文。隐患库同步 实现与业务平台隐患库的实时同步,确保每个隐患排查任务可关联对应的风险事件列表,为隐患匹配提供准确的比对基准。隐患特征库管理 展示当前内置的隐患特征库内容,可进行特征的新增、删除、编辑操作,支持导入和导出特征库文件。隐患匹配智能体接口开发 开发隐患匹配智能体接口,支持输入文件后,自动识别文件类型:文字类文件通过调用隐患库进行相关内容召回,判断是否存在隐患及具体情况;图像类文件触发隐患识别算法调用,判断隐患类别。隐患信息提取结果列表 以列表形式展示从隐患内容中提取的关键信息,如隐患 ID、隐患内容、隐患级别等,可点击查看详细记录。隐患结果导出 点击该按钮可将隐患识别结果以 Excel、PDF 等格式导出,支持选择导出的字段和数据范围。系统日志查询功能 查询系统在接口对接、定时任务执行、数据处理、预警发送等过程中的操作日志。支持按时间范围、操作类型等条件筛选日志,方便系统维护和问题排查。企业级安全生产智能体白皮书 32 识别设备老化、管道泄漏、仪表异常等安全隐患,提升识别精度。(1)算法工程(2)软件工程 隐患智能推送:基于企业安全生产智能体应用平台的硬件定位模块获取人员实时位置数据,经平台与安全生产业务管理云云平台的人员职责信息关联匹配后,由内置的决策智能体将排查识别的隐患精准推送至附近的巡检人员及隐患关联的责任部门负责人,同步附上隐患具体位置、风险等级及初步防控建议,确保响应及时性。若安全生产业务管理云云平台已有人员定位数据,可通过企业安全生产智能体应用平台直接打通;若需补充,则由平台快速部署定位硬件并接入系统。任务名称 算法应用 任务描述 图像隐患识别 图像识别算法 识别设备图片中设备老化、管道泄漏、仪表异常等安全隐患。模块名称 功能名称 功能说明 图像隐患识别 接口对接管理 负责企业安全生产智能体应用平台与安全生产业务管理云平台接口的配置、开发、测试与调试工作。记录接口对接的相关信息,监控接口状态,保障数据收集的顺畅性。安全隐患识别智能体接口开发 开发安全隐患识别智能体接口,通过调用隐患识别算法对图像类文件进行分析,自动判断是否存在隐患及具体类别,并返回识别结果。目标检测结果展示管理 以可视化方式展示目标检测算法的结果,包括检测到的目标对象的位置、类别等信息,支持在图像或视频上进行标注显示,可对展示的结果进行筛选和排序。视频目标跟踪展示管理 实时展示视频目标跟踪算法的结果,动态显示目标的运动轨迹和状态变化,可对跟踪过程进行回放、暂停、快进等操作,查询跟踪历史记录。识别结果存储与查询管理 将隐患识别结果存储到数据库中,支持按设备、时间、隐患类型等条件进行查询和统计分析,生成报表,可对报表进行导出和分享操作。系统日志查询功能 查询系统在接口对接、定时任务执行、数据处理、预警发送等过程中的操作日志。支持按时间范围、操作类型等条件筛选日志,方便系统维护和问题排查。企业级安全生产智能体白皮书 33(1)软件工程 7.1.2 智能整改建言智能整改建言 隐患类型匹配:企业安全生产智能体应用平台整合历史隐患处理案例、设备运维记录等结构化数据,内置的知识图谱智能体结合从安全生产业务管理云平台获取的隐患类型、严重等级、位置信息,以及通过平台接口获取的实时天气、环境温湿度等外部数据,快速匹配相似度最高的历史解决方案,形成针对性整改方法推荐。(1)算法工程 模块名称 功能名称 功能说明 隐患智能推送 接口对接管理 负责企业安全生产智能体应用平台与安全生产业务管理云平台接口的配置、开发、测试与调试工作。记录接口对接的相关信息,监控接口状态,保障数据收集的顺畅性。隐患信息发送接口集成 集成隐患信息发送接口,当识别到隐患时,将隐患标识(含隐患类型、位置、风险等级等)推送至安全生产业务管理云平台,由业务平台根据预设规则推送给指定业务人员,确保责任到人。推送记录查询 查询隐患推送的历史记录,包括推送时间、接收人员、推送内容等信息,支持按时间、接收人员等条件进行筛选。数据关联结果查询 查询人员职责信息与隐患信息的关联结果,以及人员实时位置与隐患位置的比对结果,可查看具体的关联和比对详情。系统日志查询功能 查询系统在接口对接、定时任务执行、数据处理、预警发送等过程中的操作日志。支持按时间范围、操作类型等条件筛选日志,方便系统维护和问题排查。任务名称 算法应用 任务描述 数据结构化 数据结构化算法 将历史隐患处理案例、设备运维记录等非结构化数据转化为结构化数据,抽取满足知识图谱建模需要的隐患类型、严重等级、位置信息等信息,便于后续的存储、分析和匹 企业级安全生产智能体白皮书 34(2)软件工程 配,为隐患类型匹配和整改方法推荐提供结构化的数据基础。相似度匹配 相似度匹配算法 对获取的当前隐患相关信息(隐患类型、严重等级、位置信息等)与历史隐患处理案例进行相似度计算,匹配出相似度最高的历史解决方案,结合知识图谱中整合的多维度知识,形成针对性的整改方法推荐。知识图谱构建 知识图谱构建算法 构建包含隐患类型、处理方案、设备信息、环境因素等多维度知识的图谱,将结构化后的历史数据及外部数据融入图谱中的实体与关系网络,为隐患类型匹配和整改方法推荐提供知识支撑,实现多维度信息的关联推理。模块名称 功能名称 功能说明 隐患类型匹配 接口对接管理 负责企业安全生产智能体应用平台与安全生产业务管理云平台接口的配置、开发、测试与调试工作。记录接口对接的相关信息,监控接口状态,保障数据收集的顺畅性。隐患处理知识图谱构建 将同步的历史隐患案例、设备运维记录等数据转化为结构化实体,定义实体属性及实体间关系,构建包含多维度知识的图谱;支持实体与关系的增删改查,关联外部环境数据。知识图谱推理规则配置 配置基于知识图谱的推理规则,如“当隐患类型为管道泄漏 严重等级高危 位置车间 A 湿度90%时,优先推荐带压堵漏 防锈处理方案”;支持规则的可视化编辑、启用/停用及版本管理。隐患处理智能推荐智能体接口开发 开发接口接收当前隐患的结构化参数(隐患类型、严重等级、位置等)及外部环境数据,调用知识图谱引擎进行实体匹配与关系推理,检索相似度最高的历史解决方案;返回结果包含匹配的方案详情、关联实体关系链及推荐优先级,支持接口调用日志与异常处理。知识图谱维护管理 提供知识图谱可视化管理界面,展示实体分布、关 企业级安全生产智能体白皮书 35 整改作业建议:基于企业安全生产智能体应用平台采集的设备型号、参数规格等硬件信息,结合平台存储的作业标准库、工器具台账,由内置的流程智能体生成包含作业步骤、所需工具清单、安全防护措施的整改作业指导,确保整改过程规范高效。(1)算法工程(2)软件工程 系网络及数据更新日志;支持手动录入新实体、修正关系权重,定期与业务平台同步更新数据,确保图谱时效性。系统日志查询功能 查询接口对接、数据结构化处理、知识图谱构建、推理规则执行、推荐结果生成等过程的操作日志,支持按时间、隐患类型、实体关系等条件筛选,便于系统维护与问题追溯。任务名称 算法应用 任务描述 信息向量化 向量化算法 将设备型号、参数规格等硬件信息以及作业标准库、工器具台账中的内容转化为向量形式,为后续的相似度计算和信息匹配提供基础,以便更好地准备入知识库,支撑整改作业建议的生成。信息重排序 重排序算法 对从作业标准库、工器具台账等知识库中召回的相关信息进行相关度重排序,提升信息的准确性和针对性,为规划合理的整改作业步骤、确定所需工具清单及安全防护措施提供更优质的依据。整改作业指导生成 文本生成算法(大语言模型算法)运用大语言模型算法,理解用户对于整改作业的需求指向,依据召回并经重排序的信息规划出合理的整改作业步骤,将作业步骤、确定的工具清单及安全防护措施整合生成完整、规范的整改作业指导,确保作业流程的逻辑性和连贯性,满足实际整改需求。模块名称 功能名称 功能说明 整改作业建议 接口对接管理 负责企业安全生产智能体应用平台与安全生产业务管理云平台接口的配置、开发、测试与调试工作。记录接口对接的相关信息,监控接口状态,保障数据收集的顺畅性。作业步骤规划功能 触发内置的流程智能体调用流程规划算法,根据召 企业级安全生产智能体白皮书 36 7.1.3 数据智能上报数据智能上报 上报数据规整:企业安全生产智能体应用平台按照省平台的标准化格式要求,对从安全生产业务管理云平台收集的排查数据进行自动清洗、转换与校验,无需人工二次录入。(1)算法工程 回的作业标准规划出详细的整改作业步骤。可对规划出的步骤进行预览、编辑和调整,以满足实际整改需求。工具清单与防护措施确定功能 结合召回的工器具信息,确定所需工具清单及对应的安全防护措施。可对工具清单进行增减操作,对安全防护措施进行修改和完善,确保其合理性和全面性。作业指导生成功能 将规划好的整改作业步骤、确定的工具清单及安全防护措施整合生成完整的整改作业指导。支持自定义作业指导的格式和排版,如添加封面、目录等。作业指导展示功能 以可视化界面展示生成的整改作业指导,支持分页查看、放大缩小等操作,方便用户浏览和阅读。作业指导导出功能 允许将生成的整改作业指导以常见文件格式导出,便于用户下载、打印和分享。历史作业指导查询功能 提供查询历史生成的整改作业指导的功能,可按时间范围、设备型号、作业类型等条件进行筛选查询,支持查看历史作业指导的详细内容和相关生成记录。系统日志查询功能 查询系统在接口对接、定时任务执行、数据处理、预警发送等过程中的操作日志。支持按时间范围、操作类型等条件筛选日志,方便系统维护和问题排查。任务名称 算法应用 任务描述 数据结构化 数据结构化算法 将从安全生产业务管理云平台收集的排查数据按省平台的标准化格式要求进行格式化处理,包括字段映射、格式转换等,同时能够自动校验数据的完整性、准确性和合规性,确保数据符合上报要求,无需人工二次录入,为数据智能上报提供可靠的结构 企业级安全生产智能体白皮书 37(2)软件工程 异常提醒警示:企业安全生产智能体应用平台的规则引擎智能体实时监控整改闭环进度与数据上报时效,若未在规定时间内完成,立即通过安全生产业务管理云平台的消息通知功能向责任人发出预警,同时在平台留存异常记录,便于追溯管理。(1)软件工程 化数据基础。模块名称 功能名称 功能说明 数据智能上报 接口对接管理 负责企业安全生产智能体应用平台与安全生产业务管理云平台接口的配置、开发、测试与调试工作。记录接口对接的相关信息,监控接口状态,保障数据收集的顺畅性。数据结构化智能体接口开发 开发数据结构化智能体接口,接收输入的原始报文,按照省平台要求的格式进行自动整理(包括字段映射、格式转换、校验规则适配等),生成符合标准的报文格式并返回,支持接口调用日志查询和异常处理。数据转换结果查询 查询经过数据转换算法处理后的数据,检查数据是否已转换为符合上报要求的形式。支持按字段、数据区间等条件进行查询。系统日志查询功能 查询系统在接口对接、定时任务执行、数据处理、预警发送等过程中的操作日志。支持按时间范围、操作类型等条件筛选日志,方便系统维护和问题排查。模块名称 功能名称 功能说明 异常提醒警示 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。包括设置接口参数、进行接口测试与调试,监控接口运行状态,保障定时从云平台收集排查数据的顺畅性。排查数据收集 按照定时任务要求,从安全生产业务管理云平台收集排查数据。记录每次数据收集的时间、数据量和收集状态,若收集失败进行告警并尝试重试。整改闭环进度监控功能 实时监控整改闭环进度,与规定时间进行对比。记录整改任务的开始时间、预计完成时间和实际完成 企业级安全生产智能体白皮书 38 7.2 安全生产平台操作智能安全生产平台操作智能体体 依托企业安全生产智能体应用平台(整合数据采集存储、硬件信息及视频采集、智能体技术等核心能力)与安全生产业务管理云平台的深度联动,成功开发出一个可嵌入安全生产业务管理云平台的操作智能助手。该助手集成了智能问答、操作引导、法规搜索和个性化推荐等丰富功能,实现与安全生产业务管理云平台的无缝衔接。同时,基于企业安全生产智能体应用平台对用户角色数据的分析与存储能力,为不同角色员工生成个性定制的操作工作台,并借助平台的智能整理功能,整理出详尽的常见问题库及解答文档,满足不同用户的使用需求。7.2.1 智能问答助手智能问答助手 自然语言答疑:在安全生产业务管理云平台界面设置“对话框”,用户输入自然语言提问后,提问信息实时传输至企业安全生产智能体应用平台,平台内置的自然语言处理智能体对问题进行语义解析,调用存储在平台中的业务流程数据及操作指南,自动生成详细操作步骤并反馈至安全生产业务管理云平台对话框,实现快速答疑。情况,若未按时完成触发预警机制。数据上报时效监控功能 监控数据上报时效,检查数据是否在规定时间内完成上报流程。记录数据上报的时间节点,若超时触发预警。预警发送功能 当整改闭环进度或数据上报时效未在规定时间内完成时,通过安全生产业务管理云平台的消息通知功能向责任人发送预警。记录预警发送的时间、接收人、预警内容等信息。异常记录管理功能 在平台留存异常记录,包括异常类型(整改未按时完成、数据上报超时等)、异常发生时间、相关任务或数据详情等。支持对异常记录进行查询、编辑和删除操作,便于追溯管理。系统日志查询功能 查询系统在接口对接、定时任务执行、数据处理、预警发送等过程中的操作日志。支持按时间范围、操作类型等条件筛选日志,方便系统维护和问题排查。企业级安全生产智能体白皮书 39(1)算法工程(2)软件工程 任务名称 算法应用 任务描述 语义理解 大语言模型算法 智能理解用户输入的自然语言提问内容,精准把握用户的疑问点和需求,为后续的知识检索提供明确方向,是实现自然语言答疑的基础环节。文本向量化 文本向量化算法 将用户输入的提问内容及平台存储的业务流程数据、操作指南等知识库内容转化为向量形式,通过向量空间中的相似度计算来匹配知识库中相近的内容,为准确召回相关信息提供数据支撑。重排序 重排序算法 对从知识库中召回的与用户提问相关的内容,通过计算相似度进行排序,提升结果的相关性和准确性,确保更贴合用户需求的内容优先呈现。文本生成 大语言模型算法 根据重排序后的召回内容,利用大语言模型算法进行整理和组织,将相关信息转化为用户易于理解的详细操作步骤等文本答案,实现对用户提问的自动、准确回应。模块名称 功能名称 功能说明 自然语言答疑 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。设置接口参数、进行接口测试与调试,监控接口运行状态,保障提问信息实时传输和回答顺畅反馈。常见问题知识库搭建 构建“常见问题知识库”,整合平台操作手册、用户高频咨询问题及预设解答内容,支持知识条目按业务场景分类存储,具备新增、编辑、删除及版本管理功能。操作问答智能体接口开发 开发操作问答智能体接口,接收用户输入的自然语言问题(文本形式),通过语义分析算法检索知识库中意思相近的内容,自动整理成结构化回答(含操作步骤、关联链接等)并返回,支持接口调用日志记录与异常处理。系统日志管理功能 记录系统在接口对接、提问传输、语义解析、知识检索、回答生成和反馈等过程中的操作和事件日志。支持日志的查询、导出和清理,方便系统维护 企业级安全生产智能体白皮书 40 语音输入支持:借助企业安全生产智能体应用平台对接的物联网硬件设备,集成语音识别功能,一线员工通过移动设备操作安全生产业务管理云平台时,语音信息经物联网平台采集后传输至企业安全生产智能体应用平台,由平台的语音识别智能体转换为文本并进行处理,便于员工高效提问。(1)算法工程(2)软件工程 7.2.2 操作流程引导操作流程引导 和问题排查。任务名称 算法应用 任务描述 语音转文本 语音识别算法(含语音降噪子算法)先运用语音降噪算法对采集到的语音信息中含有的背景噪音等干扰因素进行过滤和消除,提升语音信号的清晰度;再通过语音识别算法将经过降噪处理后的语音信息准确转换为对应的文本内容,以便后续的自然语言处理和问题解答,支撑一线员工通过移动设备高效提问。模块名称 功能名称 功能说明 语音输入支持 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台、物联网平台的接口。包括设置接口参数、进行接口测试与调试,监控接口运行状态,保障语音信息的顺畅传输以及文本信息与问答功能的衔接。语音输入操作问答智能体接口开发 开发语音输入操作问答智能体接口,接收转写后的文本内容,复用自然语言问答模块的语义检索逻辑,从“常见问题知识库”中匹配相关内容并整理返回;同时支持语音合成功能,将回答结果转换为语音反馈给用户。语音输入记录查询功能 查询一线员工的语音输入记录,包括语音输入时间、语音内容(可回放)、识别后的文本内容等信息。支持按时间范围、员工信息等条件进行筛选查询。系统日志管理功能 记录系统在接口对接、硬件连接、语音传输、语音处理等过程中的操作和事件日志。支持日志的查询、导出和清理,方便系统维护和问题排查。企业级安全生产智能体白皮书 41 场景导航提示:企业安全生产智能体应用平台实时同步用户在安全生产业务管理云平台的当前页面及角色信息,通过内置的决策智能体分析用户操作场景,结合平台存储的业务流程数据,在安全生产业务管理云平台实时提示“下一步操作”与注意事项,为用户提供精准引导。(1)算法工程(2)软件工程 任务名称 算法应用 任务描述 语义理解 大语言模型算法 智能理解用户角色信息与当前界面信息,精准把握用户所处的操作场景和潜在需求,为后续的信息匹配提供方向。文本向量化 文本向量化算法 将用户角色、当前界面标识等信息及平台存储的业务流程数据、操作指南等知识库内容转化为向量形式,通过向量空间中的相似度计算匹配知识库中与当前场景相近的操作指引内容,为精准召回相关信息提供支撑。重排序 重排序算法 对从知识库中召回的与当前场景相关的操作指引内容,通过计算相似度进行排序,优先呈现与用户角色和当前界面最相关的“下一步操作”建议及注意事项,提升指引的针对性。文本生成 大语言模型算法 根据重排序后的召回内容,生成简洁明了的文本形式的操作引导信息,并反馈至安全生产业务管理云平台,为用户提供精准的场景导航提示。模块名称 功能名称 功能说明 场景导航提示 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。包括设置接口参数、进行接口测试与调试,监控接口运行状态,确保实时同步用户当前页面信息、角色信息及用户指引状态,保障引导提示信息能准确反馈至业务管理平台指定位置。用户角色与页面信息获取 通过平台权限管理模块获取当前登录用户的角色,同时实时捕获用户当前操作页面标识。操作提示智能体接口开发 开发操作提示智能体接口,接收用户角色和当前页面信息后,从“常见问题知识库”中召回与该场景 企业级安全生产智能体白皮书 42 动态帮助浮窗:基于企业安全生产智能体应用平台对安全生产业务管理云平台各模块信息的整合与分析,当用户进入安全生产业务管理云平台特定模块时,平台的智能推荐算法自动筛选出与当前模块相关的帮助内容,在安全生产业务管理云平台页面右侧浮现动态帮助浮窗,减少用户跳转与查找操作,提升使用便捷性。(1)算法工程(2)软件工程 强相关的操作指南,以弹窗或侧边栏形式展示,支持手动关闭和“下次不再提示”设置。系统日志管理功能 记录系统在接口对接、用户信息同步、指引判断与展示等过程中的操作和事件日志。支持日志的查询、导出和清理,方便系统维护和问题排查。任务名称 算法应用 任务描述 语义理解 大语言模型算法 智能理解用户当前操作的页面信息及潜在需求场景,精准定位用户可能需要的帮助内容方向,为后续信息检索提供依据。文本向量化 文本向量化算法 将当前页面信息及平台存储的操作手册、常见问题等帮助内容转化为向量形式,通过向量相似度计算匹配知识库中与当前场景相近的帮助内容,确保检索的相关性。重排序 重排序算法 对从知识库中召回的帮助内容,结合用户角色、操作频率等因素进行相似度重排序,优先呈现与当前模块关联最紧密的内容,提升帮助浮窗的实用性。文本生成 大语言模型算法 根据重排序后的召回内容,生成简洁直观的文本形式帮助信息,并以动态浮窗形式在安全生产业务管理云平台页面展示,减少用户跳转查找操作,提升使用便捷性。模块名称 功能名称 功能说明 动态帮助浮窗 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。设置接口参数,进行接口测试与调试,监控接口运行状态,确保能获取业务管理云平台各模块的链接、提示词、操作手册、常见问题等内容,且检索内容能顺利传输到业务管理平台。企业级安全生产智能体白皮书 43 制度法规检索:企业安全生产智能体应用平台对企业制度、国家法律、技术标准等文档进行集中存储与结构化处理,当用户在安全生产业务管理云平台需要检索相关法规时,输入关键词后,平台的语义搜索智能体对文档进行深度检索,快速提炼关键信息并生成精炼摘要,在安全生产业务管理云平台内迅速提供给用户,确保信息获取的及时性与准确性。(1)算法工程 页面信息实时捕获 通过前端埋点技术,实时获取用户当前操作页面的 URL、元素 ID 及用户交互行为,确定用户可能需要的帮助场景。动态帮助智能体接口开发 开发动态帮助智能体接口,基于当前页面信息从“常见问题知识库”中精准召回相关操作内容,支持悬浮窗位置拖动、大小调整及折叠/展开操作。系统日志管理功能 记录系统在接口对接、数据获取、算法执行、内容传输、浮窗展示等过程中的操作和事件日志。支持日志的查询、导出和清理,便于系统维护和问题排查。任务名称 算法应用 任务描述 语义理解 大语言模型算法 智能理解用户输入的搜索内容,精准提取核心需求和关键信息,明确检索方向,为后续的法规文档匹配提供依据。文本向量化 文本向量化算法 将用户输入的检索关键词及企业制度、国家法律、技术标准等非结构化文档转化为向量形式,通过向量空间中的相似度计算,匹配知识库中与检索内容相近的法规条款和制度内容,为精准召回相关信息提供数据支撑。重排序 重排序算法 对从知识库中召回的法规文档内容,结合发布时间、效力级别、与检索关键词的关联紧密程度等因素进行相似度重排序,提升结果的相关性和准确性,确保最贴合用户需求的内容优先呈现。文本生成 大语言模型算法 根据重排序后的召回内容,快速提炼关键信息并生成精炼的摘要(包含原文片段、来源文档及关联解读),以清晰易懂的文本形式在安全生产业务管理云平台提供给用户,确保信息获取的及时性与准确 企业级安全生产智能体白皮书 44(2)软件工程 7.2.3 用户行为分析与个性化推荐用户行为分析与个性化推荐 工作台个性化定制:企业安全生产智能体应用平台持续采集并存储用户在安全生产业务管理云平台的操作数据,通过智能分析用户角色及操作习惯,由平台的用户行为分析智能体自动推荐常用模块与操作入口,为不同角色员工定制个性化的操作工作台,提升工作效率。(1)算法工程 性。模块名称 功能名称 功能说明 制度法规检索 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。包括设置接口参数、进行接口测试与调试,监控接口运行状态,确保非结构化文档能传输至智能体应用平台,检索结果及摘要能反馈至业务管理云平台。安全制度与法律法规知识库搭建 抽取国家及地方安全生产相关的法律法规、行业标准、企业内部安全制度等文本信息,进行结构化处理,搭建“安全制度、法律法规知识库”,支持 PDF、Word 等格式文档的批量导入与自动解析。文档检索智能体接口开发 开发文档检索智能体接口,接收用户输入的检索关键词,通过语义检索算法从知识库中匹配相关法律法规条款、制度内容,返回结果包含原文片段、来源文档及关联解读,并支持按发布时间、效力级别排序。法规维护管理 支持对存储的法规文档进行基础业务管理,包括新增法规录入(手动上传或对接接口同步)、已有法规修改、版本管理(记录法规更新历史,支持不同版本对比)等操作,确保法规库内容的准确性和时效性。系统日志管理 记录系统在接口对接、文档传输、算法执行、结果反馈等过程中的操作和事件日志。支持日志的查询、导出和清理,便于系统维护和问题排查。任务名称 算法应用 任务描述 语义理解 大语言模型算法 智能理解用户角色信息与操作习惯,挖掘用户的功 企业级安全生产智能体白皮书 45(2)软件工程 能需求与使用偏好,为个性化工作台定制提供方向。文本向量化 文本向量化算法 将用户角色、操作习惯等信息及平台存储的业务模块、操作入口等内容转化为向量形式,通过向量空间中的相似度计算,匹配知识库中与当前用户特征相近的个性化配置方案,为推荐常用模块与操作入口提供数据支撑。重排序 重排序算法 对从知识库中召回的推荐内容,结合用户角色优先级、操作频率权重等进行相似度重排序,优先呈现最贴合用户需求的常用功能,提升工作台的个性化适配度。文本生成 大语言模型算法 根据重排序后的召回内容,生成结构化的工作台个性化配置方案,并转换为程序可直接调用的格式,同步至安全生产业务管理云平台,实现个性化操作工作台的自动生成。模块名称 功能名称 功能说明 工作台个性化定制 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。设置接口参数、进行接口测试与调试,监控接口运行状态,保障用户操作数据能顺利传输至智能体应用平台。埋点设计与部署功能 在安全生产业务管理云平台设计埋点,明确需要记录的用户使用轨迹信息,并完成埋点的部署和维护,确保准确采集用户操作数据。个性化工作台生成 根据个性化推荐算法的结果,将推荐的常用模块与操作入口传输至安全生产业务管理云平台,为用户生成个性化的操作工作台。控制工作台的布局、显示样式等,确保用户体验良好。个性化工作台更新 随着用户操作习惯的变化或角色的调整,定期或实时触发个性化推荐算法,更新用户的操作工作台,保证推荐内容的时效性和适用性。用户行为分析结果查询 提供查询用户行为分析结果的功能,包括用户的操作习惯、角色与功能需求的关联分析结果等。支持按用户、时间范围等条件进行查询,方便管理人员了解用户行为和优化系统。企业级安全生产智能体白皮书 46 常见问题汇整:企业安全生产智能体应用平台实时汇总安全生产业务管理云平台使用过程中的常见问题,结合用户反馈及平台的智能整理功能,形成详细的解答内容,整理成常见问题库,供新员工在安全生产业务管理云平台随时查阅,助力新员工快速熟悉平台操作。(1)算法工程(2)软件工程 系统日志管理 记录系统在接口对接、数据采集、算法运行、工作台生成等过程中的操作和事件日志。支持日志的查询、导出和清理,便于系统维护和问题排查。任务名称 算法应用 任务描述 语义理解 大语言模型算法 智能理解用户在使用安全生产业务管理云平台过程中反馈的问题内容,精准把握问题核心含义,明确问题所属的操作场景或功能模块,为后续的问题匹配与汇整提供依据。文本向量化 文本向量化算法 将用户反馈的问题、平台操作手册内容及常用问答等文本信息转化为向量形式,构建向量数据库,通过向量空间中的相似度计算,匹配知识库中与当前问题相近的已有答案或相关内容,为常见问题的汇整提供数据支撑。重排序 重排序算法 对从知识库中召回的与用户反馈问题相关的内容,结合问题出现的频率、匹配度及用户满意度等因素进行相似度重排序,优先筛选出高频、高关联度的问题及答案,提升常见问题库内容的实用性。文本生成 大语言模型算法 根据重排序后的召回内容,生成清晰、规范的文本形式解答,整理形成常见问题库条目(包含问题描述与对应解答),同步至安全生产业务管理云平台供用户查阅,助力新员工快速熟悉平台操作。模块名称 功能名称 功能说明 常见问题汇整 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。设置接口参数,进行接口测试与调试,监控接口运行状态,确保能实时获取用户反馈问题信息,以及知识库能同步至业务管理云平台。操作问答智能体接口复用自然语言问答模块的操作问答智能体接口,针 企业级安全生产智能体白皮书 47 7.3 设备预测性维护智能体设备预测性维护智能体 凭借企业安全生产智能体应用平台(整合数据采集存储、硬件信息及视频采集、智能体技术等核心能力)与安全生产业务管理云平台设备管理模块的深度数据交互,成功构建起实时设备健康监测系统和设备异常趋势预测模型。依托企业安全生产智能体应用平台的数据处理与分析能力,生成精准的设备预测性维修保养计划、详细的维修建议文档,以及优化的备件库存管理方案和高效的维修调度安排,为设备管理提供全流程支持。7.3.1 设备健康监测设备健康监测 实时数据采集:借助企业安全生产智能体应用平台对接的物联网硬件,实现对关键设备(泵、阀、电机等)运行状态、振动、温度、电流等参数的实时采集。采集的数据经物联网平台传输至企业安全生产智能体应用平台进行存储与处理,并与安全生产业务管理云平台设备管理模块实时同步,确保数据的及时性与准确性。(1)软件工程 复用与优化 对“常见问题知识库”进行专项优化,提升对操作类问题的检索精度;支持按问题热度排序返回结果。系统日志管理 记录系统在接口对接、数据采集、算法运行、工作台生成等过程中的操作和事件日志。支持日志的查询、导出和清理,便于系统维护和问题排查。模块名称 功能名称 功能说明 实时数据采集 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台、物联网平台的接口。设置接口参数,进行接口测试与调试,监控接口运行状态,保障设备参数数据的传输通道顺畅及数据实时同步。设备台账信息同步 开发设备台账同步接口,定时从安全生产业务管理云平台获取设备台账信息,并与本地系统数据比对更新,确保台账信息一致性;支持手动触发同步及同步日志查询。企业级安全生产智能体白皮书 48 可视健康评分:企业安全生产智能体应用平台利用内置的数据分析智能体,基于采集的特征值计算并构建健康度评估模型,将设备健康得分及趋势图实时反馈至安全生产业务管理云平台,让工作人员直观掌握设备健康状况。(1)算法工程(2)软件工程 安全生产业务管理系统时序数据库接入 对接安全生产业务管理系统的时序数据库,配置数据库连接参数(地址、端口、账号密码),实现设备实时运行参数(振动、温度、电流等)的直接接入与存储,减少数据中转环节,提升采集效率。历史数据查询 支持按设备 ID、时间范围、参数类型等条件查询历史采集数据,可导出为 Excel、CSV 等格式,便于追溯设备运行状态变化。系统日志管理 记录接口对接、设备连接、数据采集、传输、校验、存储等过程的操作日志,支持按时间、操作类型、设备 ID 等条件筛选查询,便于系统维护和问题排查。任务名称 算法应用 任务描述 关键特征提取 大语言模型算法 运用大语言模型算法,从采集的设备运行参数中提取关键特征值,这些特征值是构建健康度评估模型的核心输入数据,为后续健康得分计算提供基础。健康得分计算 大语言模型算法 基于提取的关键特征值,结合设备正常运行的参数阈值范围,利用大语言模型算法计算设备的健康得分(量化设备健康状态,通常以 0-100 分呈现),同时分析影响健康得分的关键因素。健康趋势分析 趋势预测算法 运用趋势预测算法,根据历史健康得分数据,分析设备健康状态的变化趋势,生成趋势图,直观展示设备健康状况的演变过程,辅助工作人员预判设备未来的健康状况,为设备维护提供决策支持。模块名称 功能名称 功能说明 可视健康评分 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。设置接口参数、进行测试与调试,监控接口运行状态,确保设备运行参数能顺畅传输至智能体应用平台,且健康得分及趋势图能反馈至业务管理云平台。企业级安全生产智能体白皮书 49 7.3.2 异常趋势预测异常趋势预测 异常征兆识别:企业安全生产智能体应用平台运用 AI 模型对存储的设备运行数据进行深度分析,预测关键指标变化趋势。通过智能体技术精准识别潜在故障点,并将分析结果与安全生产业务管理云平台共享,为故障预防提供数据支持。(1)算法工程 设备健康度评分智能体接口开发 开发设备健康度评分智能体接口,接收设备实时运行参数,调用健康度评估模型计算健康得分,返回评分结果(0-100 分)及关键影响因素;支持接口调用频率配置。健康度实时录入时序数据库 在健康得分计算完成后,自动将得分、计算时间、设备 ID 等信息录入安全生产业务管理系统的时序数据库,确保健康度数据与设备运行参数的时序一致性,为后续趋势分析提供完整数据链。健康度评估模型构建功能 基于提取的关键特征和健康度计算逻辑,构建健康度评估模型。支持模型的版本管理,可保存不同时期的模型供对比和回溯。健康得分查询 支持按设备 ID、时间范围等条件查询设备历史健康得分及对应的趋势图,可导出数据和图表,辅助设备状态分析。系统日志管理 记录接口调用、参数获取、模型计算、结果反馈等过程的操作日志,支持按时间、设备 ID 等条件筛选查询,便于系统维护和问题排查。任务名称 算法应用 任务描述 时序表征 时序数据处理算法 对设备运行的时序数据进行处理,通过特征提取等方式获取其内在的时序运行模式,提炼出能够反映设备运行状态的关键特征,为后续的时序预测和异常识别提供基础数据支撑。时序预测 时序预测算法 基于时序表征得到的运行模式,利用时序预测算法对设备未来的运行参数变化趋势进行预测,生成未来一段时间内的时序数据趋势,判断是否存在向异常状态发展的可能性,为异常征兆识别提供预判依据。时序异常识别 时序异常检测算法 将时序预测得到的未来趋势与设备正常运行的时序模式及阈值范围进行对比,通过异常检测算法识别 企业级安全生产智能体白皮书 50(2)软件工程 故障预警推送:当监测到的异常数据超过阈值时,企业安全生产智能体应用平台迅速作出反应,通过安全生产业务管理云平台的消息推送功能自动通知维保人员,并生成详细的报警信息,包括异常参数、可能的故障点等,便于维保人员及时处理。(1)算法工程 出偏离正常范围的时序特征,即异常征兆,并结合设备特性定位可能的故障点,实现对异常趋势的早期识别,支撑设备故障的提前预警。模块名称 功能名称 功能说明 异常征兆识别 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。设置接口参数、进行测试与调试,监控接口运行状态,确保设备运行参数能顺畅传输至智能体应用平台,且健康得分及趋势图能反馈至业务管理云平台。故障识别智能体接口开发 开发故障识别智能体接口,接收设备关键指标的实时数据及趋势预测结果,调用关键指标变化趋势算法,识别偏离正常范围的异常模式,精准定位潜在故障点,返回故障点信息及置信度。趋势预测执行 运用训练好的趋势预测模型,对设备关键指标的变化趋势进行预测,生成预测结果记录预测时间和相关参数。异常检测执行 通过异常检测算法,将趋势预测结果与预设的正常运行阈值范围进行对比,识别异常征兆并定位潜在故障点,生成异常分析报告。分析结果同步 将异常征兆识别结果、异常分析报告通过接口实时同步至安全生产业务管理云平台,确保工作人员能及时获取故障预防的决策依据,记录同步状态,若同步失败进行重试和告警。历史趋势查询 支持按设备 ID、时间范围、指标类型等条件查询历史趋势预测数据及异常识别记录,可导出数据和报告,辅助工作人员追溯设备状态变化。系统日志管理 记录接口调用、参数获取、模型计算、结果反馈等过程的操作日志,支持按时间、设备 ID 等条件筛选查询,便于系统维护和问题排查。企业级安全生产智能体白皮书 51(2)软件工程 7.3.3 预测维修与维修建议预测维修与维修建议 任务名称 算法应用 任务描述 时序表征 时序特征提取算法 对设备运行的历史时序数据进行处理,提取其中的关键特征,获取设备的时序运行模式,为后续的故障预警分析提供基础特征数据。时序预测 时序预测算法 基于时序表征得到的运行模式,利用时序预测算法对设备未来一段时间内的运行参数变化趋势进行预测,生成参数的预期变化曲线,判断是否存在向故障状态发展的潜在趋势。时序异常识别 时序异常检测算法 将时序预测结果与设备正常运行的参数阈值范围进行对比,通过异常检测算法识别出超出正常范围的异常时序特征,结合故障历史数据确定异常对应的故障类型及严重程度,为故障预警推送提供依据。模块名称 功能名称 功能说明 故障预警推送 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。包括设备监测数据接口、异常识别结果接口、消息推送功能接口及人员配置信息接口的参数设置、测试调试与状态监控,保障各类信息传输顺畅。故障识别智能体接口(阈值异常识别)开发 开发故障识别智能体接口,实时监测设备运行参数与预设阈值的偏差,当参数超过阈值时,自动识别为阈值异常,触发预警流程并返回异常标识。安全生产管理云平台设备异常信息提示接口开发 开发安全生产管理云平台设备异常信息提示接口,接收异常设备标识、异常指标等信息,通过云平台内置的消息机制推送至责任人,并同步记录提示状态。预警记录管理 存储所有故障预警记录,包括报警信息内容、推送对象、推送时间、处理状态等,支持按设备、时间、预警级别等条件查询、筛选和导出。系统日志管理 记录接口调用、数据获取、阈值比对、预警触发、消息推送等过程的操作日志,支持按时间、设备 ID、操作类型等条件查询,便于系统维护和问题追溯。企业级安全生产智能体白皮书 52 智能预测维保:企业安全生产智能体应用平台整合安全生产业务管理云平台的设备历史保养维修记录和设备基础信息,通过智能分析智能体进行深度挖掘与分析,给出科学合理的设备预测性维修保养建议,有效减少设备故障停机时间。(1)算法工程(2)软件工程 维修方案建议:根据设备故障类型和维保历史数据,企业安全生产智能体应用平台的决策智能体在安全生产业务管理云平台自动生成详细的维修步骤、准确任务名称 算法应用 任务描述 故障与保养时间模式挖掘任务 时序模式挖掘算法 运用时序模式挖掘算法,针对按故障类型分类的设备历史保养维修记录,分析不同故障类型对应的时间序列数据,挖掘各类故障与保养周期、运行时长等时间因素的潜在模式,为不同故障类型的维修周期预测提供依据。模块名称 功能名称 功能说明 智能预测维保 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。设置接口参数、进行测试与调试,监控接口运行状态,确保能获取按故障类型分类的设备历史保养维修记录和设备基础信息,且预测性维修保养建议能反馈至业务管理平台。设备台账下维修记录同步 开发维修记录同步接口,从安全生产业务管理云平台获取设备台账关联的历史维修记录,按设备 ID 分类存储,支持增量同步(仅同步新增记录)和全量同步。设备维修知识库构建 将同步的维修记录整理为结构化数据,构建设备维修知识库,支持知识条目关联及版本管理。设备维修问答智能体接口开发 开发设备维修问答智能体接口,接收设备信息,从“维修知识库”中检索相似度最高的历史维修记录,返回匹配的处理方案、备件需求、参考案例等内容,支持按匹配度排序。系统日志管理 记录接口调用、数据获取、清洗、算法执行、建议生成等过程的操作日志,支持按时间、设备 ID、操作类型等条件筛选查询,便于系统维护和问题排查。企业级安全生产智能体白皮书 53 的工时估算和完整的备件清单,为维修工作提供清晰指引。(1)算法工程(2)软件工程 任务名称 算法应用 任务描述 语义理解 大语言模型算法 智能理解设备的故障类型及维保历史数据(包括过往维修记录、更换部件、处理效果等),精准提取故障特征与维保关联信息,为后续维修方案的匹配提供明确方向。文本向量化 文本向量化算法 将故障类型描述、维保历史数据及知识库中存储的维修手册、标准作业流程、历史成功维修案例等文本内容转化为向量形式,通过向量相似度计算匹配与当前故障高度相关的维修内容,为方案推荐提供数据支撑。重排序 重排序算法 对从知识库中召回的维修内容,结合故障严重程度、设备型号适配性、历史维修成功率等因素进行相似度重排序,优先筛选出最贴合当前场景的维修步骤、所需工具及注意事项,提升方案的实用性。模块名称 功能名称 功能说明 维修方案建议 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。设置接口参数、进行测试与调试,监控接口运行状态,确保能获取设备故障类型信息,且维修方案文档能顺畅反馈至业务管理平台。设备台账下备件明细信息同步 开发备件明细同步接口,从安全生产业务管理云平台获取设备台账关联的备件明细,与维修方案中的备件需求进行匹配,确保方案可行性。维修工时更新至维修记录 在维修任务完成后,自动计算维修工时(最终维修完成时间与发起时间的差值),并更新至对应的维修记录中,支持手动修正工时数据,为后续维修方案的工时估算提供依据。设备维修指引智能体接口开发 开发设备维修指引智能体接口,接收设备故障类型,从“维修知识库”中检索相近故障的维修记录,提取标准化维修步骤、所需工具、安全注意事项等,生成详细维修指引并返回。企业级安全生产智能体白皮书 54 资源优化调度:企业安全生产智能体应用平台智能查询安全生产业务管理云平台中相关设备所需配件的库存与可用时间,结合维保人员的工作安排等信息,通过智能调度算法优化维修调度安排,确保维修工作高效开展。(1)算法工程(2)软件工程 维修方案查询 在安全生产业务管理云平台提供维修方案查询入口,支持按设备 ID、故障类型、时间等条件查询历史维修方案文档,可在线查看或导出。系统日志管理 记录接口调用、故障信息获取、知识库操作、方案生成与推送等过程的操作日志,支持按时间、设备 ID、操作类型等条件筛选查询,便于系统维护和问题排查。任务名称 算法应用 任务描述 资源适配分析任务 大语言模型算法 运用大语言模型算法,将设备维修所需配件的库存、可用时间与维保人员的工作安排进行匹配分析,找出配件与人员时间相适配的组合,为调度安排提供基础。维修调度优化任务 大语言模型算法 借助大语言模型算法,综合考虑配件可用时间、维保人员工作饱和度、维修任务紧急程度等因素,对维修调度方案进行优化,生成高效的维修安排计划。模块名称 功能名称 功能说明 资源优化调度 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。设置接口参数、进行测试与调试,监控接口运行状态,确保能获取配件库存、配件可用时间及维保人员工作安排等信息,且优化后的维修调度安排能反馈至业务管理平台。配件信息获取 从安全生产业务管理云平台获取配件库存数据(种类、数量)及可用时间(采购周期、在途时间等),记录获取时间、数据内容及状态,若获取失败进行告警并重试。维保人员工作安排获取 实时获取维保人员的工作安排表(已排期任务、空闲时间段等),记录获取时间和内容,确保人员信 企业级安全生产智能体白皮书 55 7.4 员工教育培训智能体员工教育培训智能体 借助企业安全生产智能体应用平台(整合数据采集存储、硬件信息及视频采集、智能体技术等核心能力)与安全生产业务管理云平台培训模块的深度联动,成功打造出员工教育培训智能系统。该系统涵盖员工能力画像分析、智能题库生成、培训效果智能评估等功能,实现与安全生产业务管理云平台培训模块的无缝融合。依托企业安全生产智能体应用平台的数据处理与分析能力,为每位员工生成精准的能力画像报告,提供个性化学习路径推荐,同时生成详细的培训效果分析图表和报告,为企业员工培训工作提供全面支持。7.4.1 员工能力画像分员工能力画像分析析 员工画像分析 岗位能力建模:企业安全生产智能体应用平台对接安全生产业务管理云平台息的时效性,若获取异常进行提示。资源匹配执行 调用资源匹配算法,将设备维修所需配件与库存信息、可用时间进行匹配,同时与维保人员的工作安排进行适配,筛选出可行的资源组合,记录匹配结果和匹配度。维修调度安排生成 运用智能调度算法,结合维修任务紧急程度等因素,对可行资源组合进行优化,生成包含维修人员、维修时间、所需配件等内容的最优维修调度安排,支持手动调整调度计划。调度安排推送 通过接口将优化后的维修调度安排推送至安全生产业务管理云平台,记录推送时间、接收状态,若推送失败进行重试和告警,确保相关人员及时获取。调度安排查询 支持按设备、维修任务、维保人员等条件查询维修调度安排,可查看调度详情,并导出调度表。调度执行状态跟踪 跟踪维修调度安排的执行状态,同步更新状态信息,形成调度闭环管理,便于进度监控。系统日志管理 记录接口调用、数据采集、算法执行、调度生成与推送等过程的操作日志,支持按时间、操作类型等条件筛选查询,便于系统维护和问题排查。企业级安全生产智能体白皮书 56 的岗位职责信息、员工学习记录、考试成绩等数据,经平台的数据采集与存储能力进行整合处理。通过内置的智能分析智能体,对这些数据进行深度挖掘,为每位员工生成全面、精准的能力画像,清晰呈现员工在各岗位技能上的优势与短板。(1)算法工程(2)软件工程 任务名称 算法应用 任务描述 岗位技能维度提取任务 大语言模型算法 运用大语言模型算法,从岗位职责信息中提取关键岗位技能维度,明确岗位能力评估的核心指标,为员工能力画像构建提供框架。技能掌握程度量化任务 大语言模型算法 借助大语言模型算法,将员工学习记录、考试成绩等数据转化为对应技能维度的量化分值,客观反映员工在各技能上的掌握程度。员工能力画像整合任务 大语言模型算法 基于各技能维度的量化分值,利用大语言模型算法整合形成员工能力画像,清晰呈现员工在岗位技能上的优势领域与待提升短板。模块名称 功能名称 功能说明 员工画像分析 接口对接管理 负责配置、维护企业安全生产智能体应用平台与安全生产业务管理云平台的接口。包括岗位职责信息接口、员工学习记录接口、考试成绩接口及画像反馈接口的参数设置、测试调试与状态监控,保障各类数据传输顺畅。员工能力画像生成 根据各技能维度的量化分值,通过画像生成逻辑构建员工能力画像,明确标注优势技能(高分值维度)与短板技能(低分值维度),支持画像内容的人工补充与调整。能力画像查询 支持按员工姓名、岗位类型、技能维度等条件查询员工能力画像,可查看画像详情(各技能分值、优势短板分析),并导出画像报告。画像更新功能 当员工产生新的学习记录或考试成绩时,自动触发数据采集、清洗、量化及画像更新流程,确保能力画像的时效性。系统日志管理 记录接口调用、数据采集、清洗、算法执行、画像生成与反馈等过程的操作日志,支持按时间、员工 ID、操作类型等条件筛选查询,便于系统维护和问 企业级安全生产智能体白皮书 57 学习路径推送:基于生成的员工能力画像,企业安全生产智能体应用平台的决策智能体精准识别员工的短板模块,自动从平台存储的培训资源库中筛选出相关课程、文档和练习题,推送至安全生产业务管理云平台的员工培训界面,实现个性化学习内容推送。(1)软件工程 7.4.2 智能题库生成智能题库生成 题目自动生成:企业安全生产智能体应用平台利用自身的大语言模型智能体,基于企业培训资料、大纲及安全生产业务管理云平台的岗位说明书等数据,自动生成选择题、判断题、案例分析题等各类题目,同时关联员工能力画像中的短板技能维度,自动提升对应知识点的题目占比,并调整题目难度,确保题库与员工能力提升需求精准匹配。同时,平台会对生成的题目进行质量校验,确保题目符合培训要求。(1)算法工程 题追溯。模块名称 功能名称 功能说明 学习路径推送 接口对接管理 实现企业安全生产智能体应用平台与安全生产业务管理云平台的接口化集成,支持双向数据传输。员工能力画像数据获取 通过接口从安全生产业务管理云平台获取员工能力画像数据(含各类标签)。搭建培训资料知识库 整合企业内部培训资料(PPT、视频、手册)、外部标准规范、历年考题等,按“岗位-技能-知识点”分类存储,支持文档上传、编辑、版本管理。开发培训资料匹配智能体接口 通过接口接收安全生产业务管理云平台传输的员工考核不合格短板模块。基于短板模块检索培训资料知识库,匹配相关课程、文档、练习题,按关联度排序后推送至云平台员工培训界面。系统日志管理 记录接口调用、数据采集、清洗、算法执行、画像生成与反馈等过程的操作日志,支持按时间、员工 ID、操作类型等条件筛选查询,便于系统维护和问题追溯。任务名称 算法应用 任务描述 企业级安全生产智能体白皮书 58(2)软件工程 试卷智能组配:根据安全生产业务管理云平台传来的岗位需求、难度要求、知识点范围等信息,企业安全生产智能体应用平台的智能组卷算法会在题库中快速筛选合适题目,自动组成个性化试卷。这些试卷支持在安全生产业务管理云平台上进行现场练习与正式考试模式,满足不同场景的需求。(1)算法工程 题目自动生成任务 大语言模型算法 基于企业培训资料、大纲及岗位说明书等数据,借助大语言模型理解知识要点、逻辑关系及岗位技能要求,按照不同题型特征生成各类题目。题目质量复核任务 大语言模型算法 对生成的题目,运用大语言模型从内容准确性、逻辑合理性、题型规范性等方面进行复核,判断是否符合培训要求。模块名称 功能名称 功能说明 题目自动生成 接口对接管理 实现企业安全生产智能体应用平台与安全生产业务管理云平台的全面接口化集成,保障数据传输。开发问题生成智能体接口 支持设置题目类型(选择/判断/案例分析)、数量、格式及难度等级。调用智能体接口,基于输入文档内容及配置参数自动生成题目,同步完成答案与解析生成。通过算法校验题目准确性、逻辑性,标记异常题目供人工审核。系统日志管理 记录接口调用、数据采集、清洗、算法执行、画像生成与反馈等过程的操作日志,支持按时间、员工 ID、操作类型等条件筛选查询,便于系统维护和问题追溯。任务名称 算法应用 任务描述 需求参数解析任务 大语言模型算法 对安全生产业务管理云平台传来的岗位需求、难度要求、知识点范围等信息进行深度解析,转化为可直接用于题库检索的具体参数,如知识点关键词、难度系数区间、岗位对应的技能模块等。试卷组合任务 大语言模型算法 根据试卷的组成要求,从候选问题清单中筛选并组合题目,生成符合要求的完整试卷,确保试卷结构合理、内容适配。题库问题召回题库问题召回算法 基于解析出的参数,在题库中进行精准检索,召回 企业级安全生产智能体白皮书 59(2)软件工程 由安全生产业务管理云平台实现 7.4.3 培训效果智能评估培训效果智能评估 培训达成分析:企业安全生产智能体应用平台实时采集安全生产业务管理云平台中员工培训完成率、考试及格率、错题分布等数据,通过平台的数据分析能力进行处理和分析,生成直观的图表报告,清晰呈现培训效果,为培训优化提供数据依据。(1)软件工程 学习激励机制:在安全生产业务管理云平台设置积分、排名、荣誉墙等激励机制,企业安全生产智能体应用平台会实时统计员工的学习进度、考试成绩等数据,根据激励规则自动更新积分、排名信息,并在安全生产业务管理云平台展示荣誉墙,以此提升员工培训参与度。(1)软件工程 任务 与参数匹配度高的合适问题,形成候选问题清单,为试卷组配提供充足的题目来源。模块名称 功能名称 功能说明 培训达成分析 平台对接接口 实现企业安全生产智能体应用平台与安全生产业务管理云平台的全面接口化集成,确保数据传输稳定、高效。培训数据采集 通过接口实时获取员工培训相关数据。图表报告生成 基于存储的统计数据,利用看板工具生成直观的图表报告。系统日志管理 记录接口调用、数据采集、清洗、算法执行、画像生成与反馈等过程的操作日志,支持按时间、员工 ID、操作类型等条件筛选查询,便于系统维护和问题追溯。模块名称 功能名称 功能说明 学习激励机制 平台对接接口 实现企业安全生产智能体应用平台与安全生产业务管理云平台的全面接口化集成,保障数据传输的稳定性和高效性。员工学习数据获取 确保智能体应用平台能实时获取安全生产业务管理云平台中员工的学习进度、考试成绩等数据。激励信息同步 保障更新后的积分、排名信息及荣誉墙内容能顺畅 企业级安全生产智能体白皮书 60 同步至安全生产业务管理云平台进行展示。积分规则配置 在安全生产业务管理云平台中设置完成课程、考试优秀等情况下获得相应积分的规则。排名规则配置 在安全生产业务管理云平台中设定按积分总数、进步幅度等方式进行排名的规则。荣誉墙展示规则配置 在安全生产业务管理云平台中确定积分前几名、获得特定成就等可上榜荣誉墙的规则。员工学习数据 智能体应用平台实时采集员工的学习进度、考试成绩等数据 积分计算与更新 按照配置的积分规则,对员工的积分进行计算并实时更新。员工排名统计 根据积分情况及排名规则进行员工排名的统计。荣誉墙员工筛选 依据荣誉墙展示规则筛选出符合上榜条件的员工信息。系统日志管理 记录接口调用、数据采集、清洗、算法执行、画像生成与反馈等过程的操作日志,支持按时间、员工 ID、操作类型等条件筛选查询,便于系统维护和问题追溯。企业级安全生产智能体白皮书 61 8 客户客户案例案例 企业级安全生产智能体应用平台已在化工、新材料、装备制造等多行业落地实践,通过深度适配不同企业的安全生产痛点,提供“技术 业务”双驱动的解决方案,验证了平台在降本提效、风险防控、合规保障等方面的核心价值。以下选取典型客户案例,从案例背景、解决方案、实施效果三个维度,详细阐述平台的实际应用路径与落地成效,为同行业企业智能化转型提供可参考、可复制的实践经验。8.1 案例背景案例背景 某化工新材料企业是一家专注于高端化工中间体、高性能新材料研发与生产的中型制造企业,总部位于烟台黄渤海新区,年产能超 5 万吨,产品广泛应用于医药、电子、新能源等领域。企业生产流程涉及硝化、加氢、精馏等多道高危工艺,车间内布局有反应釜、储罐、输送管道等关键设备,同时存储有甲醇、苯等危险化学品,安全生产管理难度较高,在引入企业级安全生产智能体应用平台前,面临多重典型痛点:从隐患排查管理来看,企业长期依赖人工巡检模式,6 个生产车间每日需安排 12 名巡检人员分 3 班开展巡查,隐患识别高度依赖员工经验管道细微泄漏、阀门密封件老化等隐蔽性隐患,人工检出率不足 50%;巡检记录需手动填写纸质表格,每日整理成电子报告耗时超 2 小时,且存在数据填写不规范、关键信息遗漏等问题,难以满足应急管理部门对隐患追溯的要求。2023 年,企业因人工漏检导致的小型泄漏事故发生 2 起,虽未造成人员伤亡,但直接导致车间停产整改 3 天,经济损失超 80 万元。在设备管理层面,企业核心生产设备(3 台高压反应釜、8 台精馏塔)已运行 5-8 年,逐步进入故障高发期,但仍采用“事后维修”模式:设备故障需依赖操作人员发现异常后上报,维保人员到场排查故障原因平均耗时 4 小时,非计划停机时间每月累计达 12-15 小时;同时,设备运维记录分散存储于不同维保人员的电脑中,未形成结构化台账,类似“反应釜搅拌轴磨损”的故障重复出现 3 次,每次整改方案均需重新制定,设备管理效率低下。员工培训与平台操作方面,企业现有安全生产管理平台功能模块达 23 个,新入职的巡检员、操作工等一线员工需通过 1 周集中培训才能初步上手,且实际操作中仍频繁出现“不知如何提交隐患记录”“找不到设备维保申请入口”等问题,每月因操作不熟练导致的业务延误超 10 次;此外,企业安全培训内容更新滞后,企业级安全生产智能体白皮书 62 2024 年新修订的 危险化学品企业特殊作业安全规范 未及时纳入培训体系,部分员工仍按旧标准操作,存在合规风险。数据管理与合规上报环节,企业安全数据分散于隐患记录系统、设备管理平台、培训档案库 3 个独立系统,跨系统数据调取需人工导出 Excel 后二次整合,统计“季度隐患整改率”需分别从 3 个系统提取数据,耗时超 1 天;同时,向省应急管理平台上报隐患数据时,需安排专人将企业内部格式数据手动转换为标准格式,2023 年曾因数据格式错误导致上报延误,被监管部门通报批评。这些痛点不仅制约企业安全生产管理效率,也难以满足日益严格的行业监管要求,亟需通过智能化手段实现突破。8.2 解决方案解决方案 针对某化工新材料企业的安全生产痛点,山东渤聚通云计算有限公司为其部署企业级安全生产智能体应用平台,采用“私有云部署 公有云协同”的混合云架构,深度对接企业现有安全生产业务管理云平台,围绕隐患排查与治理、设备预测性维护、安全生产平台操作、员工教育培训四大核心场景,提供全流程智能化解决方案。8.2.1 隐患排查与治理智能化方案隐患排查与治理智能化方案 为解决人工巡检效率低、数据上报不规范问题,平台重点搭建“感知-识别-推送-整改-上报”全闭环体系。在硬件部署上,为企业 6 个生产车间加装 28 台符合GB/T28181 标准的高清监控摄像头(覆盖反应釜、储罐区、输送管道等关键区域),同时部署 32 个气体传感器(监测甲醇、苯等有毒气体浓度)、16 个振动传感器(安装于反应釜搅拌轴、泵体等部位),通过物联中台管理子系统实现设备统一接入与实时数据采集,数据传输延迟控制在 100ms 以内。在智能识别环节,隐患排查与治理智能体调用文本提取算法、YOLO 图像识别算法,自动处理巡检人员手持终端上传的检查表照片(提取文本隐患信息)、车间监控视频(识别管道泄漏、阀门异常、人员未穿防护服等隐患),识别准确率达 92%;针对气体浓度超标、设备振动异常等数据类隐患,系统通过预设阈值自动触发预警,例如当苯浓度超过 5mg/m时,立即生成一级预警。隐患推送与整改阶段,平台结合企业人员定位系统(北斗定位终端),将隐患信息精准推送至附近巡检人员及对应车间负责人的移动端,推送内容包含隐患位置(精确到具体设备编号)、风险等级、初步防控建议;同时,智能整改建言模块调用化工安全生产知识图谱(含 8000 知识节点),匹配类似历史案例与 危险化学品安全管理条例相关条款,生成包含作业流程、工器具清单、安全措施 企业级安全生产智能体白皮书 63 的标准化整改方案,减少人工决策时间。数据上报环节,平台数据治理管理子系统按省应急管理平台要求,自动完成隐患数据的格式转换、字段校验,每日凌晨自动同步上报数据,无需人工干预,上报成功率达 100%。8.2.2 设备预测性维护方案设备预测性维护方案 针对设备故障预警滞后、运维效率低问题,平台从数据采集、健康监测、故障预测、维修调度四方面构建解决方案。数据采集层通过接口对接企业现有 PLC、DCS 系统,实时采集 3 台高压反应釜、8 台精馏塔的运行参数,同时接入设备历史维保记录,存储于时序数据库中,支持按设备 ID、时间范围快速查询。设备健康监测模块基于采集的特征值,构建健康度评估模型,采用 LSTM 神经网络算法计算设备健康得分(0-100 分),并生成趋势图(支持按日、周、月查看)例如当反应釜健康得分从 90 分降至 75 分时,系统自动标记为“亚健康状态”,推送提醒至设备管理部门。异常趋势预测环节,平台数智分析管理子系统运用 ARIMA 时序预测算法,对设备关键指标进行未来 72 小时趋势预测,当预测值接近阈值时,触发故障预警;同时,通过孤立森林异常检测算法识别潜在故障点,例如 2024 年 11 月通过分析搅拌轴振动数据,提前 48 小时预警“轴承磨损”故障,避免设备停机。维修调度与方案支持方面,平台整合企业 ERP 系统中的备件库存数据,当生成维修任务时,智能查询备件可用数量与库位,并结合维保人员排班表,优化调度安排;同时,维修方案建议模块基于设备故障类型与历史维保记录,自动生成维修步骤、工时估算及备件清单,维修人员可通过移动端查看并执行,维修记录自动同步至设备台账。8.2.3 安全生产平台操作优化方案安全生产平台操作优化方案 为降低员工平台使用门槛,平台部署安全生产平台操作智能体,实现“问答-引导-检索-推荐”一体化支持。智能问答助手嵌入企业现有安全生产管理平台界面,支持文本与语音输入,员工输入问题后,系统通过 BERT 自然语言处理算法解析语义,调用常见问题知识库,返回详细操作步骤;针对复杂问题,自动转接至管理员后台,确保响应时效。操作流程引导模块通过前端埋点技术,实时获取员工当前页面与角色,在页面右侧生成动态帮助浮窗,提示“下一步操作”与注意事项;同时,针对高频操作,提供场景导航功能,员工点击“快速入口”即可直达对应模块,减少页面跳转。制度法规检索功能整合企业内部制度、国家法规共 56 份文档,支持语义搜索例如员工搜索“受限空间作业要求”,系统快速提取关键条款并生成精炼摘 企业级安全生产智能体白皮书 64 要,检索响应时间3 秒;同时,系统自动监测法规更新,2024 年新增的化工园区安全风险排查治理导则发布后,72 小时内完成知识库更新并推送提醒至安全管理部门。个性化工作台方面,平台基于员工角色与操作习惯,自动推荐功能入口,支持拖拽调整布局;同时,汇总平台使用常见问题形成 FAQ 专区,新员工可通过“新手引导”功能快速熟悉平台核心操作,缩短上手周期。8.2.4 员工教育培训智能化方案员工教育培训智能化方案 为解决培训内容滞后、效果不佳问题,平台构建“画像-推送-考核-评估”的个性化培训体系。员工能力画像模块对接企业人力资源系统、培训记录系统,通过大语言模型算法提取岗位技能维度,量化员工技能掌握程度,生成可视化能力画像,清晰标注短板模块。学习路径推送环节,系统根据能力画像,自动从培训资源库中筛选匹配内容例如针对“受限空间作业指挥”短板的员工,推送受限空间作业安全规范解读视频课程(45 分钟)、受限空间应急演练案例文档及 10 道专项试题,员工可通过移动端碎片化学习,学习进度自动同步至平台。智能题库生成模块基于企业培训大纲与岗位说明书,运用大语言模型算法自动生成选择题、判断题、案例分析题,支持按岗位、难度设置参数,自动组卷生成个性化试卷;考试模式分为“现场练习”(支持即时纠错)与“正式考试”(限时、防作弊),考试成绩自动录入系统并关联能力画像,更新技能得分。培训效果评估方面,平台数智分析管理子系统生成培训达成率报表、错题分布图表,同时支持积分、排名激励机制员工完成课程得 10 积分,考试优秀得 20 积分,积分可兑换安全防护用品,月度积分排名前 10 名员工展示于“荣誉墙”,提升培训参与度。8.3 实施效果实施效果 某化工新材料企业引入企业级安全生产智能体应用平台后,通过近 1 年的落地运行,在隐患排查、设备管理、平台操作、员工培训四大核心场景实现显著优化,同时在成本控制、合规管理、管理效率等方面取得实质性突破。8.3.1 隐患排查与治理效率大幅提升,风险防控能力显著增强隐患排查与治理效率大幅提升,风险防控能力显著增强 在隐患识别层面,平台多模态识别技术有效解决人工巡检漏检问题文本隐患提取准确率达 93%,图像隐患识别准确率达 92%,较人工巡检 50%的检出率提升超 80%;2024 年企业隐蔽性隐患发现数量较 2023 年增加 112 起,其中 企业级安全生产智能体白皮书 65 98%在萌芽阶段完成整改,未再发生因漏检导致的泄漏事故,车间停产整改次数从 2023 年的 2 次降至 0 次,直接减少经济损失超 150 万元。隐患处置效率方面,“智能识别-精准推送-整改反馈”全流程周期从人工时代的平均 48 小时缩短至 8 小时,整改响应速度提升 83%;标准化整改方案的复用率达 75%,重复隐患发生率从 2023 年的 28%降至 9%,例如“精馏塔管道轻微泄漏”隐患,通过复用历史整改方案,整改时间从 6 小时压缩至 2.5 小时。数据上报环节实现 100%自动化,上报成功率从人工填报的 85%提升至 100%,2024 年未出现数据格式错误或上报延误问题,顺利通过省应急管理部门 4 次专项检查,合规性评分从 2023 年的 82 分提升至 96 分。8.3.2 设备管理从设备管理从“事后维修事后维修”转向转向“事前预防事前预防”,生产连续性显著改善,生产连续性显著改善 设备健康监测与故障预测功能有效降低非计划停机风险平台对 3 台高压反应釜、8 台精馏塔的故障预测准确率达 80%,较人工预判 30%的准确率提升167%,2024 年共提前预警“反应釜密封件老化”“精馏塔塔板堵塞”等故障 17 起,其中 15 起通过预防性维护避免停机,设备非计划停机时间从每月 12-15 小时降至 3-4 小时,降幅超 70%,按企业日均产能 140 吨、产品均价 8000 元/吨计算,每月减少产能损失约 89.6 万元。设备运维效率与成本控制成效突出标准化维修方案使单台设备维修时长从平均 4 小时缩短至 1.5 小时,维保人员工作效率提升 62.5%;同时,智能备件查询与调度功能减少备件库存积压,2024 年设备备件库存金额从 2023 年的 85万元降至 58 万元,降幅 31.8%,且未出现因备件短缺导致的维修延误;此外,设备健康度评估模型使设备平均使用寿命延长 1.2 年,2024 年设备更新投入较计划减少 60 万元,综合设备管理成本降低 28%。8.3.3 安全生产平台操作门槛安全生产平台操作门槛降低,员工工作效率显著提高降低,员工工作效率显著提高 安全生产平台操作智能体有效解决员工“用不好、查不快”的问题智能问答助手日均响应员工咨询 120 余次,问题解决率达 95%,员工因操作疑问咨询IT 部门的次数从每月 45 次降至 8 次,IT 支持成本减少 82%;动态帮助浮窗与场景导航功能使员工完成“隐患记录提交”“维保申请发起”等高频操作的时间从平均 15 分钟缩短至 5 分钟,操作效率提升 67%。制度法规检索与个性化工作台进一步释放效率红利语义搜索功能使员工查询法规条款的时间从平均 20 分钟压缩至 2 分钟,检索效率提升 90%;2024年新修订的危险化学品企业特殊作业安全规范发布后,员工通过平台快速获取关键更新内容,规范落地周期从以往的 1 个月缩短至 1 周,违规操作发生率从5%降至 1.2%。个性化工作台使员工日均打开平台模块的次数从 18 次减少至 9 企业级安全生产智能体白皮书 66 次,无效操作时间减少 50%,整体工作效率提升 35%。8.3.4 员工培训精准度与参与度提升,安全意识与技能显著增强员工培训精准度与参与度提升,安全意识与技能显著增强 员工教育培训智能体实现“因材施教”的培训目标基于能力画像的个性化学习路径推送,使员工培训内容匹配度从 60%提升至 92%,新员工培训周期从1 周缩短至 3 天,且培训后实操考核通过率从 75%提升至 95%、安全法规测试平均分从 68 分提升至 85 分,确保培训周期缩短的同时,新员工安全操作能力与合规认知达标,培训成本(含教材、讲师、场地)降低 40%;2024 年员工安全技能考试平均分从 72 分提升至 88 分,及格率从 85%提升至 98%,其中“受限空间作业”“危险化学品检测”等关键技能满分率达 65%,较 2023 年提升 40 个百分点。培训效果与员工参与度形成良性循环积分与荣誉墙激励机制使员工培训完成率从 2023 年的 78%提升至 99%,日均培训时长从 30 分钟增加至 45 分钟,主动学习意识显著增强;同时,培训效果评估数据为课程优化提供支撑,2024年针对“特殊作业许可办理”等错题率较高的模块,更新课程内容 32 处,新增案例分析题 45 道,员工对培训内容的满意度从 75%提升至 92%。此外,2024 年企业未发生因员工技能不足或违规操作导致的安全事故,员工安全意识与企业安全管理水平实现同步提升。企业级安全生产智能体白皮书 67 9 未来展望未来展望 面向未来,企业级安全生产智能体正站在技术创新与产业变革的关键节点。随着人工智能、大数据、物联网等前沿技术的持续突破,以及安全生产需求的不断升级,安全生产智能体的发展将迎来全新的机遇与挑战。在技术维度,算法精度与效率的提升、数据价值的深度挖掘、物联感知能力的强化,将重塑安全生产管理的技术底座;在应用层面,跨行业场景的拓展、与企业其他管理系统的深度融合,以及与新兴技术的协同创新,将进一步释放安全生产智能体的潜力。以下从技术发展方向与应用拓展前景两个方面,对企业级安全生产智能体的未来进行深入展望。9.1 技术发展方向技术发展方向 在人工智能算法层面,未来将聚焦于精度与效率的双重突破,以实现更精准的隐患识别、故障预测与智能决策。一方面,深度学习算法将进一步优化,通过改进卷积神经网络(CNN)、循环神经网络(RNN)及其变体等模型结构,提升对复杂场景下安全隐患的识别能力。在图像识别领域,算法将能够更准确地检测出微小的设备裂纹、管道腐蚀等隐患,识别精度有望从当前的 90%-95%提升至98%以上;在文本分析方面,自然语言处理(NLP)技术将实现对安全日志、维修记录等非结构化数据的深度理解,自动提取关键隐患信息,为后续决策提供有力支撑。另一方面,强化学习与迁移学习等技术的应用将提高智能决策的效率与准确性。强化学习可使智能体在复杂的安全生产环境中,通过不断试错与优化策略,自主学习最优决策方案,实现对隐患的快速响应与处理;迁移学习则能将在某一领域或场景中训练好的模型,快速应用到其他相似场景,减少模型训练成本与时间,加速安全生产智能应用的落地。同时,边缘计算与人工智能的结合将推动算法在本地设备的实时运行,降低数据传输延迟,实现对设备故障的毫秒级预测与预警,极大提升系统的响应速度与可靠性。大数据分析与挖掘技术的发展,将进一步释放安全生产数据的价值,为企业提供更具针对性的管理建议。未来,大数据分析将从传统的描述性分析向预测性分析与规范性分析转变。通过引入先进的机器学习算法与数据挖掘技术,关联规则挖掘、聚类分析、时序预测等,深入剖析安全生产数据之间的潜在关系与变化规律。例如,对设备运行参数、环境监测数据、历史事故记录等多源数据进行关联分析,可提前预测设备故障、环境风险等安全隐患发生的概率与时间,帮助企 企业级安全生产智能体白皮书 68 业制定预防性维护计划与风险防控措施。结合数据可视化技术,将复杂的分析结果以直观易懂的图表、仪表盘等形式呈现,使企业管理人员能够快速获取关键信息,做出科学决策。此外,大数据分析还将与知识图谱技术深度融合,构建涵盖安全生产法规标准、操作规范、专家经验等内容的知识网络,实现数据与知识的双向驱动,为企业提供智能化、个性化的安全管理解决方案,助力企业提升安全生产管理水平。物联网技术的广泛应用将实现更全面、实时的设备状态感知与环境监测。未来,物联网设备将朝着微型化、低功耗、高集成度方向发展,使得在安全生产场景中能够部署更多、更隐蔽的传感器节点,实现对设备关键部件、生产环境的全方位监测。在化工企业中,通过在反应釜、管道等关键设备上安装微型传感器,实时采集温度、压力、流量、振动等参数,结合区块链技术保证数据的真实性与完整性,为设备健康管理与故障预测提供准确的数据基础。物联网技术与 5G、卫星通信等通信技术的融合,将实现数据的高速、稳定传输,打破地域限制,使偏远地区或危险作业环境中的设备与环境数据能够及时回传至监控中心。物联网设备的自组织网络与边缘计算能力将得到增强,实现数据的本地处理与分析,减少对云端的依赖,提高系统的自主性与可靠性。9.2 应用拓展前景应用拓展前景 未来,安全生产智能体将打破行业边界,实现应用场景的全方位拓展与深度渗透,同时通过技术融合与系统集成,构建更智能、更高效的安全生产管理生态。在行业与场景拓展方面,安全生产智能体将从传统制造业、化工等领域,加速向能源、交通等行业延伸。在能源领域,无论是石油天然气的开采储运,还是电力系统的发输配电,安全生产智能体都将发挥关键作用。在石油开采现场,智能体可通过部署在钻井平台、输油管道上的各类传感器,实时监测设备振动、压力、温度等参数,结合 AI 算法预测设备故障,提前安排维护,避免因设备损坏导致的原油泄漏事故;在电力行业,智能体能够对变电站设备进行智能巡检,利用无人机搭载高清摄像头和红外热成像仪,自动识别电力设备的外观缺陷、温度异常等问题,还可对输电线路周边的树木生长、违章建筑等隐患进行监测,保障电网安全稳定运行。交通领域同样是安全生产智能体的重要应用方向。在铁路运输中,智能体可对铁轨状态、列车运行参数进行实时监测,通过分析轮轨磨损数据、列车振动情况,预测潜在的行车安全风险,及时安排检修;在城市轨道交通中,智能体能够对车站的客流密度、电梯运行状态、消防设施等进行全方位监控,一旦发现异常 企业级安全生产智能体白皮书 69 情况,立即启动应急响应机制,保障乘客安全。在公路运输方面,智能体可应用于长途货运车辆的安全管理,通过车载传感器和摄像头,实时监测驾驶员的疲劳状态、车辆的行驶速度和轨迹,对超速、疲劳驾驶等危险行为进行及时预警。在系统集成层面,安全生产智能体将加强与企业其他智能系统的深度融合,实现整体管理的智能化协同。企业内部通常已部署 ERP(企业资源计划)、MES(制造执行系统)、CRM(客户关系管理)等多种管理系统,未来安全生产智能体将与这些系统打通数据壁垒,实现信息共享与业务联动。当安全生产智能体检测到设备故障时,可自动将维修需求同步至 ERP 系统,触发备件采购流程;同时将生产计划调整信息反馈给 MES 系统,确保生产任务的合理安排。此外,安全生产智能体还能与企业的应急指挥系统集成,在发生安全事故时,快速调取人员、物资、设备等相关信息,制定科学的应急救援方案,提高应急处置效率。在技术融合创新方面,安全生产智能体将与 5G、边缘计算等技术深度融合,进一步提升系统的实时性和可靠性。5G 网络的高带宽、低延迟特性,能够支持大量高清视频、传感器数据的快速传输,使安全生产智能体能够实时获取现场的高清图像和精准数据,实现对安全隐患的及时发现和处理。在危险化学品生产车间,通过 5G 网络将监控视频和设备数据实时传输至云端智能体,智能体可迅速分析判断是否存在泄漏、火灾等风险,并立即发出警报。边缘计算技术则将数据处理能力下沉到靠近数据源的边缘设备,减少数据传输延迟和对云端的依赖。在矿山等网络信号较弱的场景中,边缘计算节点可对传感器采集的数据进行本地分析和处理,快速识别设备异常并及时采取措施,同时将关键数据上传至云端进行进一步分析和存储,保障安全生产监测系统在复杂环境下的稳定运行。
2025-10-10
73页




5星级
请务必阅读正文之后的免责条款部分 中小与股权研究中小与股权研究 专题研究专题研究 证券研究报告证券研究报告 中小与股权研究/2025.10.01 Meta 首发首发 Ray-Ban Meta Dis.
2025-10-09
5页




5星级
央国企智算创新实践报告央国企智算创新实践报告 (2022025 5 年年)中国信息通信研究院云计算与大数据研究所 中石油(北京)数智研究院有限公司 中国移动云能力中心 2025年9月 版权声明版权声明.
2025-10-09
48页




5星级
智启边缘英特尔软硬件一体化赋能产业 AI 应用实践白皮书前言当前,人工智能(AI)正以前所未有的速度重塑着各行各业的发展格局。从智能制造到智慧零售,从智慧交通到智慧城市,AI 技术的广泛应用正在推动产.
2025-10-09
46页




5星级
请务必阅读正文之后的免责声明及其项下所有内容20252025年年1010月月0808日日人工智能行业专题(人工智能行业专题(13)OpenAIOpenAI的软硬件生态布局与进展的软硬件生态布局与进展行.
2025-10-09
31页




5星级
人工智能驱动的未来城市腾讯研究院王鹏国务院关于深入实施“人工智能+”行动的意见互联网+降本增效人工智能+范式重塑推动智能与经济社会各业各领域泛深度融合,重塑类产活范式,促进产命性跃迁和产关系深层次变,.
2025-10-07
22页




5星级
从云原生到 AI 原生核心技术与最佳实践2025云栖大会精选资料阿里云云原生应用平台目录企业AI落地实践:AI原生应用架构AI 原生驱动企业架构新范式演进01AI 原生应用白皮书解读:加速 AI 发生02云原生进化论:加速AI应用构建最佳范式03生成式 AI 在实体店经营中的机会与实践04满帮AI建设现状分享05Operation Intelligence:可观测与智能运维(AIOps)Operation Intelligence:可观测助力数字世界效率与智能06重构可观测:大模型驱动的云监控 2.0 与 AIOps 新范式07降本提效,稳定先行:企业级 AI 全栈可观测落地实践08从高校到行业战场:打造云原生软件重构迁移、韧性测试、智能运维一体化技术体系09目录Serverless 助力 AI Agent 开发与落地实践函数计算:AI时代的最佳运行时10函数计算发布 FunctionAI,助力企业构建AI 原生应用11多模态世界的Serverless AI 实践之路12Serverless 应用引擎SAE:从传统应用到AI应用的一站式托管13AI 中间件:AI 时代的中间件技术演进与创新实践未来已来:下一代 AI 中间件重磅发布,解锁 AI 应用架构新范式14Multi Agent 探索与实践:AgentScope Java 版重磅发布15Apache RocketMQ for AI:全面拥抱企业级 AI 应用,引领 AI MQ 新时代16EventBridge for AI ETL 全新发布,事件驱动重塑 AI 应用数据全链路17AI 网关全新升级,HiMarket AI 开放平台重磅发布18AI 时代的数据通道:云消息队列 Kafka 的演进与实践19AI 原生驱动企业架构新范式演进AI-Native Driving the Evolution of Enterprise Architecture阿里云资深技术专家周琦(简志)CONTENT目录从云原生到AI原生数字世界拓展企业效率与智能01企业级应用开发挑战AI 对企业需求,对开发者之挑战02AI 原生应用架构展望03企业架构新范式,落地实践,案例展示从云原生到AI原生数字世界拓展企业效率与智能单体应用传统分布式应用云原生应用AI 应用基础架构 数据库SOAESB数据库 缓存微服务 容器云服务Serverless大模型 自然语言交互 训练 推理企业级 AI 落地挑战挑战1特性环境交付标准商业逻辑企业级应用特点AI 优势ROI、稳定、可控、合规体验、创意、便捷打通内部系统、内部数据互联网生态,个性化系统正确率、可追溯、审计可接受不完美和容忍度要有 ROI:结果驱动,看中成本规模为主,短期不关注成本挑战2智能概率机确定性图灵机通用Agent垂直场景Chatbot目标存量应用稳定、安全、性能、成本灵活快速、开源开放AI 应用特点传统应用特点DeepResearchAI Coding观测&评估工具可观测AIOps助手Serverless平台AI 网关AI 框架&平台安全围栏(Coming Soon)AI 对开发 运维的挑战企业级能力效率和效果DevOps大模型黑盒,结果不可控,有幻觉稳定性差延迟大易被攻击成本高排查难结果不确定难以评估调试周期超长正确性面向过程记录,面向过程评估稳定性开箱即用Metric 度量系统稳定性安全数据审计,质量监控,效果评估记忆网关运行时可观测知识库AI MQAI 原生架构Agent InfraAI CodingAI Operation架构评估&优化AgentScope SDK,应用白皮书指南AI Coding使用AI Coding加速效率AI 评审通过代码工程提升评审效率AI 原生架构解决方案语义化工程建设数据驱动质量提升AI辅助提升效率定义目标,评价机制提升效率,业务核心指标提升效率,业务核心指标看板、数据集看板、数据集AI 原生架构 数据工程 上下文工程应用架构,基础组件,构建原型应用架构,基础组件,构建原型围绕数据,核心指标不断优化围绕数据,核心指标不断优化团队实践工具开发工具开发Context EngineeringContext Engineering快速增长的 AI 算力有限的人力AI 落地企业过程201020172024智能化生产力70%时间都在等待、查询系统对数字世界感知是核心竞争力数据:整合环境数据使用:AgentScopeMCP:供上下游协同Benchmark300个常见问题:资产查询,异常检测,根因分析,安全巡检集成:可观测 AIOps助手Demo VideoOperation Intelligence 建设之路可观测AIOps助手:Journey of Building Operation Intelligence目标:诊断线上异常、定位根因谢谢THANKSAI 原生应用白皮书解读加速 AI 应用发生阿里云智能集团资深技术专家李艳林(彦林)Interpretation of AI-Native Application Architecture White PaperAI 原生应用架构目录AI 原生应用架构白皮书 背景模型迈过拐点,Agentic AI 爆发01AI 原生应用架构 定义基于模型,Agent驱动,以数据为中心,整合工具链02AI 原生应用架构 实践构建以数据为中心的Agent平台解决效率和效果问题03AI 原生应用架构 展望让新型生产关系适应新型生产力;充分发挥想象力,充分释放AI潜能04AI 发展阶段AI Agent 趋势据Markets and Markets预测,全球AI Agent市场规模将从2024年的51亿美元增至2030年的471亿美元,年复合增长率达44.8%;Gartner预计,到2028年,至少15%的日常工作决策将通过AI Agent自主完成。国务院关于深入实施“人工智能 ”行动的意见到2030年,智能体等应用普及率超90%。行业报告AI 原生应用白皮书背景模型迈过拐点,Agentic AI 爆发AI场景爆发:Chat,Coding,智能驾驶,消费电子,智能玩具,DeepResearch等Google搜索指数,AI Agent 过去16个月,1088%增长。行业趋势改变世界机器人(Physical AI)具身智能/自进化/脑机接口接管数字世界APP(Agentic Al)私域数据/Tools/场景模型性能突破Model(Scaling Law)大数据/大模型/多模态/空间智能AI Agent 技术成熟度AI Agent 技术趋势模型迈过拐点:DeepSeek是AI的Android时刻;QwenVL模型/Gemini催熟多模态生态AI Agent 迈过炒作周期峰值,进入生产大规模落地阶段技术成熟度AI 原生应用白皮书背景Manus打开通用Agent想象A2A/MCP 标准解决了可插拔扩展问题Agent 平台出现(高代码/低代码/零代码)技术趋势AI Agent 迈过炒作周期,AI 原生应用初步成型Siloed,Single-PurposeAgentsPlatform-Level AgentsUniversal AgentsLevel Of IntelligenceSmarter modelsusing more tools toAccomplish highervalue tasksUsefulness解决问题的链路步骤意图与需求解析明确任务目标、理解背景与约束解决方案规划构思达成目标的路径、逻辑或创意执行载体构建将规划转化为可运行的形式运行与优化迭代系统运转并根据结果迭代1234数字化范式智能化范式人完全主导人主导,系统辅助人完全主导智能系统主导规划(模型推理),人辅助微调 上下文工程人设计(写代码等),数字系统执行智能系统根据上下文自主构建 执行数字系统运行,人主导优化智能系统根据上下文自主运行 迭代人想清楚,机器执行机器思考 执行,人监督数字化让机器会执行智能化让机器会思考人的思维能力被机器内化AI 云原生应用架构新范式PromptMemoryAgentToolsLLMInstructionsPlanning StoreActionsPromptResponse多 Agent高代码/零代码单Agent高代码/零代码Workflow低代码/高代码单任务RAG泛化(LLM编排)具象(Code编排)单应用多应用RetrieveAI 云原生应用架构定义基于模型,Agent驱动,以数据为中心,整合工具链AI 原生应用架构AI 原生应用架构模式ReasoningPerceptionGUI人决策驱动数据多模态感知AI 云原生应用架构定义云原生 AI原生 双轮驱动AI 原生应用架构(智能化)云原生应用架构(数字化)GPU大数据(Blink ES)手机手机手表眼镜微服务1MySQL/Redis/OSS微服务2微服务3CPU(K8s)Tools向量数据库(RAG)AgentPromptCPU(FC)GPU(PAI/FC)大模型(通义)PCIOTGenUIMCPAgent驱动数据竞争壁垒:充分挖掘私域数据,沉淀数据,优化数据场景数据模型场景高频,结构化,风险可控,通用公域数据:平衡效果,成本和性能AI 原生应用架构竞争力找到核心提效场景,构建高质量数据壁垒,借助大模型大势快速迭代AI 原生应用架构定义 数据飞轮客户数据可沉淀,行业数据可演进,评估数据可量化,反馈数据可持续高质量数据反馈数据客户数据评估数据行业数据DeepResearchAI Coding观测&评估工具AIOPSServerless平台AI 网关AI 框架&平台安全围栏AI 原生应用架构实践-挑战Dev阶段面临开发效率和效果问题/Ops阶段面临难以维护问题难以维护效率和效果Agent-FrameworkStudio:AI 原生应用平台Agent管理Model管理网关账号权限Agent Core(多语言)A2A/MCP/Callback/Evaluate/Tracing低代码零代码CLIAdmin/Devs调试&观测&评估Agent 组件观测&评估在线IDEAgent Runtime(Serverless)Sandbox/Code Interpreter/Browser Tool身份认证Observability网关Prompt/RAG/MemAI 原生应用架构实践-解法构建以数据为中心的 AI 原生应用平台,解决效率和效果问题,构建 AI 企业级能力AI 开放平台(应用层 Scaling Law)数字人(接管数字世界)机器人(接管物理世界)Code AgentPrompt通用Agent垂直AgentCPU大模型人(负责制定愿景和规则)人机关系碳硅共生/法律伦理社会RAGMemGPU一生二人生产数字人&机器人二生三,生万物机器人接管世界XPU小模型生产力LLM WA/LLM-SLM/GPU-XPU生产关系Agent&MCP-Agent&Agent生产资料PE-CE(Prompt&RAG&MEM)数字世界-物理世界混合模型二生三,生万物Agent接管世界一生二元Agent生产通用/垂直AgentAI 原生应用架构 展望让新型生产关系适应新型生产力;充分发挥想象力,充分释放AI潜能人机交互GenUI/多模态/脑机AI 原生应用架构 展望让 AI 扩展自己和组织边界EngineeringProductDesignEngineeringDesignProductSalesMarketingSalesMarketing谢谢THANKS云原生进化论:加速AI应用构建最佳范式阿里云智能资深产品专家杨秋弟(曼红)Cloud-Native Evolution:Best Practices for Accelerating AI Application DevelopmentAI 应用发展势不可挡Agentic AI 应用逐步进入企业核心系统新增应用智能化比例高模型调用增速爆发到2028年,33%的企业软件将集成代理型AI,而2024年这一比例还不到1%到2027年,实现人工智能与6大重点领域广泛深度融合,新一代智能终端、智能体等应用普及率超70%GenAI的支出增长尤其迅猛,预计将从2023年的160亿美元增长到2027年的1430亿美元,年均复合增长率(CAGR)高达73.3%(数据来源:Gartner 2025年中国人工智能十大趋势)(数据来源:国务院人工智能规划)(数据来源:IDC全球人工智能支出指南)AI 应用发展势不可挡Agentic AI 应用逐步进入企业核心系统新增应用智能化比例高模型调用增速爆发到2028年,33%的企业软件将集成代理型AI,而2024年这一比例还不到1%到2027年,实现人工智能与6大重点领域广泛深度融合,新一代智能终端、智能体等应用普及率超70%GenAI的支出增长尤其迅猛,预计将从2023年的160亿美元增长到2027年的1430亿美元,年均复合增长率(CAGR)高达73.3%(数据来源:Gartner 2025年中国人工智能十大趋势)(数据来源:国务院人工智能规划)(数据来源:IDC全球人工智能支出指南)Web 单体应用异步任务微服务应用事件驱动应用存量应用OSSMQRDS云原生可观测BaaS应用运行时流量网关APIGatewayECS容器ALB云原生网关FC/SAE智能体应用Prompt TemplateToolsMemoryAgentLLMInstructionsReasoningStore/RetrieveActionsPromptResponse引入智能体应用让业务系统更智能与存量应用打通复用已有业务能力智能体开发:全新的 Agent 开发技术栈,如何快速开发、部署与市场验证存量系统融合:Agent 如何与存量系统打通,利用已有资产,赋能企业核心业务稳定运行:如何保障新构建的 AI应用稳定、安全的运行应用发展与基础设施升级的双向驱动云基础设施AI 基础设施PlanningAI 应用架构落地难点多智能体编排ChatAgentFlowAgentCodeAgentWeb 单体应用异步任务微服务应用事件驱动应用存量应用OSSMQRDS云原生可观测BaaS应用运行时流量网关APIGatewayECS容器ALB云原生网关FC/SAE智能体应用Prompt TemplateToolsMemoryAgentLLMInstructionsReasoningStore/RetrieveActionsPromptResponse引入智能体应用让业务系统更智能与存量应用打通复用已有业务能力智能体开发:全新的 Agent 开发技术栈,如何快速开发、部署与市场验证存量系统融合:Agent 如何与存量系统打通,利用已有资产,赋能企业核心业务稳定运行:如何保障新构建的 AI应用稳定、安全的运行应用发展与基础设施升级的双向驱动云基础设施AI 基础设施PlanningAI 应用架构落地难点多智能体编排ChatAgentFlowAgentCodeAgentWeb 单体应用异步任务微服务应用事件驱动应用存量应用OSSMQRDS云原生可观测BaaS应用运行时流量网关APIGatewayECS容器ALB云原生网关FC/SAE智能体应用Prompt TemplateToolsMemoryAgentLLMInstructionsReasoningStore/RetrieveActionsPromptResponse引入智能体应用让业务系统更智能与存量应用打通复用已有业务能力智能体开发:全新的 Agent 开发技术栈,如何快速开发、部署与市场验证存量系统融合:Agent 如何与存量系统打通,利用已有资产,赋能企业核心业务稳定运行:如何保障新构建的 AI应用稳定、安全的运行应用发展与基础设施升级的双向驱动云基础设施AI 基础设施PlanningAI 应用架构落地难点多智能体编排ChatAgentFlowAgentCodeAgent云原生助力企业 AI 应用快速开发、稳定运行MobileAPPWebAPPUserdevice云原生API网关(南北向流量网关)函数计算function AI(CPU GPU)AI网关多种部署方式的LLM模型调用AI应用统一入口模型代理OpenAIGemini通义千问DeepSeekPAI/百炼/FC GPURocketMQ for AI同步异步AI网关新建MCP Server工具调用MCP 代理函数计算FC存量业务 MCP化存量业务一键转化AI 全栈统一监控端到端链路追踪日志存储与评估分析基于 Prometheus 构建 AI 全栈监控大盘,包括模型性能分析、Token 成本分析、GPU 资源异动分析等基于 OpenTelemetry Trace 实现用户终端、网关、模型应用、模型服务、外部依赖工具等全链路追踪。构建统一日志分析平台,对模型调用日志进行二次评估分析,实现质量、安全、意图提取等语义检测。构建部署 AI Agent函数计算 FC(CPU GPU)MCP ServerAgentruntimeSandBox流程式编码式AgentScopeLangChainSDK运行时云工作流 AiStudioWorkflowFunctionSAE/ACK/托管Dify节点 A节点 C节点 BAI 网关模型管理消息Agent 运行时云沙箱凭证管理可观测记忆AgentRun:Agentic AI 应用基础设施智能体成为企业 IT 系统的新成员函数计算 FC:智能体最佳运行时提供开箱即用、轻量灵活、安全隔离、极致弹性、精益成本的 Serverless AI 运行时流量不可预测多用户数据隔离易受注入攻击毫秒级弹性Session亲和安全隔离依赖模型进行思考和规划行动使用工具拓展功能和执行任务Agent运行时工具运行时开箱即用内置 Python/Node.js/Shell/Java 等超低延 时 的 多 语 言 环 境,代 码 执 行 延 迟100ms内 置CodeSandbox、BrowserSandbox、Computer Sandbox、RLSandbox 等开箱即用的云沙箱工具Session 亲和/隔离架构Session 会话亲和管理安全容器技术,请求/Sesssion/函数级别的安全隔离多协议兼容的工具运行时同时兼容支持 MCP,Function Call两种工具运行和调用方式SandboxMCP/Function Call模型运行时低延时与降本Serverless GPU 通过快照技术实现忙闲时自动转化,实现毫秒级热启动,大幅降低 AI 落地成本请求感知调度更好解决后端 GPU 资源空置/争抢现象,保证业务请求 RT 稳定,GPU充分使用算力解耦&1/N 卡切分通过 GPU/内存/CPU 资源规格解耦以及1/N 卡等手段提高利用率实现降本领域模型小参数大语言模型我们的目标是让客户能像使用基础服务一样,开箱即用地获得先进的 Agent 运行时能力。函数计算 FC:智能体最佳运行时提供开箱即用、轻量灵活、安全隔离、极致弹性、精益成本的 Serverless AI 运行时流量不可预测多用户数据隔离易受注入攻击毫秒级弹性Session亲和安全隔离依赖模型进行思考和规划行动使用工具拓展功能和执行任务Agent运行时工具运行时开箱即用内置 Python/Node.js/Shell/Java 等超低延 时 的 多 语 言 环 境,代 码 执 行 延 迟100ms内 置CodeSandbox、BrowserSandbox、Computer Sandbox、RLSandbox 等开箱即用的云沙箱工具Session 亲和/隔离架构Session 会话亲和管理安全容器技术,请求/Sesssion/函数级别的安全隔离多协议兼容的工具运行时同时兼容支持 MCP,Function Call两种工具运行和调用方式SandboxMCP/Function Call模型运行时低延时与降本Serverless GPU 通过快照技术实现忙闲时自动转化,实现毫秒级热启动,大幅降低 AI 落地成本请求感知调度更好解决后端 GPU 资源空置/争抢现象,保证业务请求 RT 稳定,GPU充分使用算力解耦&1/N 卡切分通过 GPU/内存/CPU 资源规格解耦以及1/N 卡等手段提高利用率实现降本领域模型小参数大语言模型我们的目标是让客户能像使用基础服务一样,开箱即用地获得先进的 Agent 运行时能力。函数计算 FC:智能体最佳运行时提供开箱即用、轻量灵活、安全隔离、极致弹性、精益成本的 Serverless AI 运行时流量不可预测多用户数据隔离易受注入攻击毫秒级弹性Session亲和安全隔离依赖模型进行思考和规划行动使用工具拓展功能和执行任务Agent运行时工具运行时开箱即用内置 Python/Node.js/Shell/Java 等超低延 时 的 多 语 言 环 境,代 码 执 行 延 迟100ms内 置CodeSandbox、BrowserSandbox、Computer Sandbox、RLSandbox 等开箱即用的云沙箱工具Session 亲和/隔离架构Session 会话亲和管理安全容器技术,请求/Sesssion/函数级别的安全隔离多协议兼容的工具运行时同时兼容支持 MCP,Function Call两种工具运行和调用方式SandboxMCP/Function Call模型运行时低延时与降本Serverless GPU 通过快照技术实现忙闲时自动转化,实现毫秒级热启动,大幅降低 AI 落地成本请求感知调度更好解决后端 GPU 资源空置/争抢现象,保证业务请求 RT 稳定,GPU充分使用算力解耦&1/N 卡切分通过 GPU/内存/CPU 资源规格解耦以及1/N 卡等手段提高利用率实现降本领域模型小参数大语言模型我们的目标是让客户能像使用基础服务一样,开箱即用地获得先进的 Agent 运行时能力。函数计算 FC:智能体最佳运行时提供开箱即用、轻量灵活、安全隔离、极致弹性、精益成本的 Serverless AI 运行时流量不可预测多用户数据隔离易受注入攻击毫秒级弹性Session亲和安全隔离依赖模型进行思考和规划行动使用工具拓展功能和执行任务Agent运行时工具运行时开箱即用内置 Python/Node.js/Shell/Java 等超低延 时 的 多 语 言 环 境,代 码 执 行 延 迟 ON RECEIVING an Analytical Report from the Analyst Agent:#This is a special trigger that overrides the user input loop.This is TIER 3.-*Action*:1.*Parse Report*:Read the received Analytical Report JSON.Identify if its a diagnosis or exploration result by checking its structure(e.g.,presence of root_cause vs.key_findings).2.*Translate&Summarize*:Convert the technical report into a user-friendly summary.-*For a Diagnosis Report*:Clearly state the identified root cause and the supporting evidence.-*For an Exploration Report*:Highlight the Top 3 most interesting patterns or anomalies discovered in the data,using visualizations if possible.2.行动建议与闭环:3.*Construct Ask-Back*:Your entire response MUST end with a single,clear question to guide the users next step.-*For Diagnosis*:Based on this root cause,would you like to explore potential solutions?-*For Exploration*:Ive listed several key findings.Is there any particular one youd like me to launch a deeper diagnostic analysis on?(This creates a loop back to a new Diagnosis mission).经验萃取PM Agent模拟专家 分析 元能力Analyst Agentmission_typeLibrarian Agent假设生成验证设计优先级排序假设验证动态修正MemoryGraph/playbookSpecialist AgentsDataAnalysisGISWebSearchHumanInput核心分析与推理任务定向与规划洞察生成与交付EXPLORATION探索工作流数据画像多维透视模式发现异常侦测价值排序动态修正LLM 中预训练的通用知识基于元 prompts 引导激活思维模式、通用分析框架、领域化方法非冷启动阶段RAGRAG/Graph-RAG提示/补齐短期工作记忆 实时作战沙盘模拟专家 知识 三层记忆系统中期情节记忆 经验档案馆长期语义记忆 被验证且结构化的经验激活基于 prompts 引导激活思维模式冷启动阶段Working Memory#在单次分析任务中,作为所有 Agent 协同的、临时的共享信息中心。它是所有实时推理、数据处理和过程记录发生的地方。mission_id:mission-101,status:“.”,analysis_brief:mission_type:DIAGNOSIS,problem_statement:上海环贸店8月份日配乳制品损耗率为何从5%飙升至15%.,analytical_report:problem_tree:root:乳制品损耗率上升,children:name:采购环节,children:订货量过大?,供应商送货质量?,name:库存环节,children:后仓冷链温度异常?,库存周转管理?,name:销售环节,children:销售速度下降?,商品陈列位置不当?,hypotheses:id:H1,statement:门店后仓的乳制品冷藏柜在8月份出现过温度异常。,branch:库存环节,status:proven,validation_result:summary:IoT数据显示,后仓2号冷藏柜在8月份有多次夜间温度超过10摄氏度的记录,最长持续2小时。,evidence_id:iot-log-082023-sh-apm,.,root_cause_summary:primary_cause:后仓存储环节的冷链中断是导致损耗率飙升的直接原因。IoT数据显示,后仓2号冷藏柜在8月份存在多次夜间温度异常。,supporting_evidence:iot-log-082023-sh-apmJSONMission Achieve#作为“经验档案馆”,永久沉淀每一次成功分析的完整过程,形成可供未来语义检索的“情节与案例库”。同时,它也是通往长期记忆的“知识质检与提纯车间”。_id:mission-101,archived_at:2023-09-15T10:30:00Z,meta_tags:domain:Fresh Food Retail,problem_type:Spoilage Rate Increase,product_category:Dairy,store_id:SH-APM,root_cause_tag:Cold_Chain_Failure,agents_used:DataAnalysisAgent,IoT_Agent,/-核心 RAG 功能实现-summary_for_rag:成功诊断了上海环贸店乳制品损耗率上升的问题。根本原因被确定为后仓存储环节的冷链中断,具体表现为2号冷藏柜在夜间存在多次温度异常。此结论由IoT_Agent调取温度日志证实。,summary_vector:type:embedding,embedding:0.12,0.58,-0.23,.,0.34,model:text-embedding-ada-002,/-RAG 功能实现结束-full_report:/这里嵌入了上面完整的mission-101.json 的内容MangeDB AtlasGlobal Knowledge#将经过反复实战验证的“群体经验”,升华为具有普适性和高置信度的“组织智慧与第一性原理”,为所有未来的分析提供最高效、最可靠的“认知引擎”。#Playbook Schema v1.1-Final Specification#-元数据区-playbook_name:Existing Store Revamp:v6.0 Diagnostic Systemplaybook_version:6.0description:一个融合了诊断与探索,覆盖场、货、人、客四维的全景诊断与优化框架,用于系统性地为既存店进行深度体检和调优。author:Retail Strategy Expert Group#-核心流程区-stages:-stage_id:S1_BASELINE_RECONSTRUCTIONstage_name:基线重建:数字化还原“规划蓝图”stage_type:DIAGNOSISobjective:为指定既存店,构建一个全面的、四维一体的“规划基准数据库”,数字化还原其“开业之初”或“上次调优时”的蓝图与核心假设。key_artifacts:-artifact_name:Planning Baseline Databasedescription:一个包含门店设计、商品规划、人员配置、目标客群画像的结构化数据库。expert_hints:-hint_id:HINT-S1-01content:务必深挖最初的开店商业计划书、商品布局图(Planogram)、人员排班原则等历史文档。如果文档缺失,必须通过HumanInputAgent向资深区域经理进行访谈来重建。.#直接驱动因素(Direct Drivers)(门店促销)-:INCREASES confidence:high,effect_size:medium-(门店客流量)(线上引流活动)-:INCREASES confidence:medium,source:mission-045-(门店客流量)(商品新鲜度感知)-:INCREASES confidence:very_high-(门店客流量)#负向影响因素(Negative Factors)(竞品开业/促销)-:DECREASES confidence:high,lag_days:7-(门店客流量)(极端天气)-:DECREASES confidence:very_high,type:short_term-(门店客流量)#间接与反馈循环(Indirect&Feedback Loops)#正向循环(Reinforcing Loop):(员工服务热情)-:IMPROVES-(顾客忠诚度)(顾客忠诚度)-:INCREASES type:long_term-(门店客流量)(门店客流量)-:INCREASES-(销售额)(销售额)-:INCREASES-(员工业绩奖金)(员工业绩奖金)-:IMPROVES-(员工服务热情)#负向调节回路(Balancing Loop):(员工服务热情)-:DECREASES-(顾客投诉率)(员工服务热情)-:DECREASES-(员工离职率)(员工离职率)-:INCREASES-(新员工招聘与培训成本)YAMLNeo4jIII.核心空间陈列优化方向基于主次关联与画像洞察所有建议均基于单日订单数据,未考虑销售额贡献Specialist Agent 示例 用户需求场景及画像洞察I.主流消费需求场景洞察识别购物任务与主次品类结构基于当日品类订单量分布,SKU结构及推断的品类间订单量关联强度。缺乏日内时间戳,无法分析具体时段特证II.代表性消费者画像构建关联场景、偏好与动线所有画像和动线推断均基于单日订单量数据,缺乏人口统计学、消费金额及时间维度信息Specialist Agent 示例 户型可逛性流量分析感谢聆听!满帮AI建设现状分享杨兴华满帮集团产研中心研发总经理Full Truck Alliances AI Infrastructure:Current State and Architectural Considerations满帮集团满帮集团是一家“互联网 物流”的科技企业,中国领先的数字货运平台之一,由两家公路干线货运平台-运满满和货车帮于2017年合并而成。满帮连接货车司机及货主双端用户,将大数据、云计算、人工智能技术引入物流行业,不但解决了长久以来货运领域运力分散、供需不匹配、信息不透明等问题,而且通过重构货运物流链条,实现了线上信息广泛互联、线下资源优化配置、线上线下协同联动,全面提升社会物流效率,成为促进公路物流提质增效、助力实体经济发展的新动力。CONTENT目录背景01满帮AI基建架构选型思考02满帮AI落地实例03未来展望04拥抱AI是大势所趋保持技术追求,让业务先赢AI是灵魂,工程是血肉开创智能商业新纪元拥抱AI是大势所趋AI发展势不可挡拥抱AI是大势所趋AI Agent 技术趋势AI Agent 技术成熟度大鹏一日同风起,扶摇直上九万里Universal AgentsPlatform-Level AgentsSiloed,Single-Purpose AgentsUsefulnessLevel Of IntelligenceSmarter models using more tools toaccomplish higher-value tasksAI赋能满帮业务创新场景AI赋能描述车货匹配运营效率平台发布货源,客服核实货源车辆需求并联系司机促成交易。取消判责、通话质检等运营场景依赖人工处理,效率受人力规模制约。通过Agentic AI框架,实现系统自主感知、推理、规划与执行,独立完成司货匹配。引入大模型辅助专业人员,显著提升平台运营效率。研发过程人工编码与测试为主,流程周期长,需求响应较慢。借助自研前端代码生成工具辅助开发测试,缩短周期,提高开发效率。海不辞水,故能成其大满帮AI基建架构选型保持技术追求,让业务先赢满帮基建现状 架构维度屏蔽云厂商实现,抽象满帮自己的云基础设施架构满帮基建现状 DevOps维度构建符合满帮特色的稳定性治理和DevOps体系单体架构垂直架构SOA架构微服务架构云原生架构AI原生架构KubernetesRuntimeLLM实现快、维护成本高模块化负载均衡服务管理、RPC技术高密度部署原子、自治按量使用、极致弹性AI应用、Agent、轻量AI应用架构演进架构:架构是事物的基本组织形式,包括:构件、构件之间的关系、构件与环境的关系、架构治理和演进的原则等全球每天新增 AI 智能体数量:10000 2026年将有 80%企业部署 AI 智能体(Gartner 预测)需要新的架构范式重构当前的生产关系,解决新的问题满帮对AI基建的需求GPU算力要求成本便宜可控高稳持续保障弹性池化调度模型低延卡型算力成本分摊高可用要求端到端链路每个节点99.9%模型具备Fallback机制限流熔断模型缓存保障业务SLA(可用性与RT)安全管控要求模型、MCP、AGENT消费者鉴权AI模型全生命周期监控模型请求和响应安全合规、敏感数据过滤私有化部署安全方案AI开放平台上架Model API、MCP server、AGENT API支持API全生命周期管理开发者门户:模型市场/文档/调试/SDK/计费/配额/观测看板等功能。完善AI开发者工具和生态做适合满帮的、真正产生价值的AI基建AI应用大爆发背景下,传统基建架构在算力、架构、观测、安全等方面已无法满足AI时代需求,亟需全面升级改造以支撑大规模AI应用落地。架构选型思考让业务先赢,保持技术追求先基于云产品跑通,然后组合自建 云产品满足满帮个性化诉求构建抽象层,屏蔽云厂商差异关注数据安全,关注性价比对齐业界,找到最适合的AI基建整体架构算力/模型调度1.算力调度:事业部内聚 资源池化2.模型选择:充分测试 自由切流(AI网关)3.算力部署:私有化部署 模型单元 百炼/方舟平台可用性1.Fallback机制:基于AI网关实现2.限流熔断机制:基于云原生API网关实现3.SLA约定:成功率 RT约束 失败提示的确定性流程编排1.Dify:简单场景 算法开发,初期有显著效率提升2.容器化应用:复杂场景 开发人员,应对高性能需求可观测1.监控:ARMS Grafana2.告警:ARMS 部分自建业务层职能运营客服客服Copilot意向识别接入层应用层管控层模型层基建层销售质检通话质检VOC挖掘宣传海报生成图片素材生成视频素材生成证件审核员工咨询IM 渠道内部应用/服务Third party云原生API网关HTStream产研自建事业部自建研发管理SSEMCPRestAI网关基础服务工作流鲁班AI应用可观测LLM应用观测AI网关监控内容安全协议空间隔离推理场景重排序模型向量模型训练场景VPC隔离RAG微调钉钉企微邮件WEBAPPH5APIClinealiyunAl开放平台应用准入负载均衡熔断/流程安全防护用户鉴权智能创作平台智能分析平台工作流事业部平台工作流工作流文本生成语音识别语音生成图像识别数据分析模型准入模型路由token限流Fallback安全围栏MCP代理FC/PA平台百炼平台RankT5自建PRPBGE自建BAAIPAI平台Llama自建GPU服务器DeepseekDify on SAEMCP on FC向量数据库自研Devops平台Hubble应用监控端到端诊断成本分析语义分析&评估模型观测模型指标日志/链路架构落地与挑战 数据安全问题架构设计:环境隔离 私有化部署流程管控:守住底线 用户体验问题:业务数据泄露风险 行业经验泄露风险架构落地与挑战 AI基建的FinOps满帮工程体系的成本分摊逻辑独占:事业部独占的资源(比如应用的容器实例等),什么规格以及使用多少完全由事业部决策;可控分摊:按事业部对资源使用多少就分摊多少的方式(如按请求量分摊的接入服务),让事业部对成本有一定控制力,比如可主动降低使用量而减少成本分摊;公摊:并未严格按事业部对资源使用多少而是比如订单数进行分摊,事业部无法通过比如优化用量而降低成本,对此分摊方式的控制力较弱;货币化定价:技术中后台确保每单位成本不劣化收支账单:前台事业部专注用量优化2 23 35 54 41 1接入全链路调用监控将新的调用方接入全链路监控,实时统计和回溯调用成本阶梯扩容与分摊1.扩容大多数情况不需要扩容整个实例单位,而是以卡为单位,但采购必须以实例为单位2.采用先独占再分化的策略,将阶梯成本逐渐抹平模型准入与评估1.业务方发起调用模型申请2.技术团队评估模型是否需要扩容透明大盘查看实时调用占比生成分摊报表架构落地与挑战 AI基建的FinOps满帮AI落地实例AI是灵魂,工程是血肉满帮大模型应用平台价值导向,通用解决,技术平权,成就卓越应用形式分析&推理智能分析平台Copilot 聊天助手Agent 智能体Workflow工作流图片生成视频生成文案生成语音合成电销客服质检销售线索提取证件资料审核用户标签识别员工聊天助手 图片&文字&语音创作&生成大模型能力智能创作平台通用业务场景解决方案满帮 AI 门户智能创作平台智能分析平台AI 可用性平台智能IM探索(尝试中)我们提出“辅助驾驶”式的客服 Copilot 方案,AI 不再是替代者,而是客服身边最得力的助手,共同创造卓越的服务体验运营瓶颈服务质量不一致:客服表现各异,导致客户体验参差不齐。业务流程复杂:超过1000个业务标签难以掌握,导致延迟和错误。培训周期长:新客服面临陡峭的学习曲线,增加了成本和达到生产效率的时间。技术挑战安全性与隐私红线:数据安全是首要前提,必须严格合规,杜绝信息泄露风险。标准化与可控性:克服模型“幻觉”,确保输出内容始终专业、可控且符合规范。模型能力的局限性:AI无法完全理解动态变化的复杂业务,不能替代人的深度判断。我们提出“辅助驾驶”式的客服 Copilot 方案,AI 不再是替代者,而是客服身边最得力的助手,共同创造卓越的服务体验整体架构-多级漏斗模型顶层路由模型(快速分类)中层分类模型(明确场景)执行层SOP对接(执行方案)核心动力-领域专家模型通用大模型通过:业务数据微调将通用模型训练成客服领域的“专家”,并结合少量样本学习,能快速学习新知识。业务数据客服专家模型 微调=项目总结与感悟AI只是“催化剂”通过三步走的智能流程,Copilot 将复杂问题化繁为简。人机协作伙伴关系客户咨询客服&Copilot1智能理解2精准决策3高效执行Copilot 实时分析对话,精准识别客户意图。从上千业务标签中推荐最匹配项,并关联 SOP。提供标准话术、操作建议,甚至一键执行。高效解决设计“路由-分类-执行”三层架构,模拟人类解决问题的思路,确保响应的精准性。LLM仅解决了“信息处理”问题,无法替代业务梳理、产品设计和工程落地。大模型并非万能项目最有价值的部分,是将上千个繁杂的客服业务流程,抽象成一套结构化、可被机器理解的知识体系。这背后是大量的业务分析与产品设计工作。成功的关键在于“抽象”项目的真正价值我们交付的不仅是一个AI工具,更是一次对客服业务流程的深度梳理与优化。最终的成功,是业务、产品、工程三者紧密结合的成果。智能IM探索(尝试中)AIOPS落地实践Step1:常见的网络故障分类DNS劫持IP封堵SNI阻断单云厂商异常域名封堵业务知识:常见的网络故障分类HTTPDNS云服务DCDN域名切换GA域名切换跨云一键切换大招工具能力:常见网络故障运维工具Step1:常见的网络故障分类网络诊断AGENT:常见网络故障分析与处理用户问题分析监控数据分析结果输出工具调用DevOps产品设计会因AI带来颠覆式变化前端代码生成探索(尝试中)一次编写、多端输出架构现状:自研、自闭环的多端输出框架和一站式DevOps体系独立的组件库裁剪的样式集自闭环的DevOps产品规划:好的产品设计与模型能力同等重要阶段关键动作核心价值输入阶段识别转换手动调整需求拆解代码生成上传设计稿/截图PRD文档导入配置通用规则AI模型识别组件匹配组件布局可视化编辑布局微调组件修正模块化拆分组件模型定义数据源绑定代码规范多端适配实时预览系统核心优势技术特色 AI识别 人工调优混合模式 自定义跨端布局系统 自身丰富的业务组件库效率提升 设计到代码转换效率提升数倍 减少重复开发工作 快速响应业务需求变化质量保障 自动遵循公司代码规范 多级评审机制 组件复用保证一致性AI基建落地心得第一性原理:持续提升数据质量,比单纯更换模型或算法更具决定性多模型协同:走出“单一模型崇拜”,为不同场景匹配最优模型组合耐心等待模型平权系统为先:成功的智能体=好的产品抽象 体系化的工程 恰当的模型未来展望开创智能商业新纪元未来展望成功的智能体=好的产品抽象 体系化的工程 恰当的模型谢谢Operation Intelligence:可观测助力数字世界效率与智能阿里云智能集团资深技术专家孙廷韬Operation Intelligence:Observability Drives Efficiency and Smart Innovation in the Digital EraCONTENT目录Operation Intelligence 演进Evolution of Operational Intelligence01Operation Intelligence 数据特征和应用挑战Operational Intelligence:Data Characteristics and Application Challenges02Operation Intelligence 技术的探索Operational Intelligence:Exploring Technological Frontiers03Operation Intelligence DemoOperation Intelligence Demo04数据融合:运营数据的价值聚变技术运营(Tech Ops)系统的“心电图”商业运营(Biz Ops)业务的“增长引擎”安全运营(Sec Ops)企业的“免疫系统”A/B 测试的技术评估用户体验与业务转化关键用户体验保障业务驱动的弹性伸缩用户流失预警多样化营销与推荐客群分析销售漏斗分析与优化实时交易欺诈检测账户盗用(ATO)检测业务逻辑滥用检测(薅羊毛)用户的行为、交易、CRM 数据应用性能、故障诊断根因定位、资源预测容量规划、SLA 监控性能指标、异常日志、调用链路应用层攻击检测性能问题的安全定界调用链路中的安全审计安全日志、威胁情报、访问控制数据威胁检测与事件响应用户与实体行为分析威胁猎捕、合规性审计Tech OpsSec OpsBiz Ops被动救火、个人经验反应迟钝、无法预防主动监控、脚本自动化噪音大、无法发现未知流程联动、业务导向规则复杂、门槛高、需要专家操作AI 驱动、自适应、人机协同黑盒、信任、成本分析的进化:从孤立洞察到融合智能完全分离初步的数据交换集中存储、初步关联深度融合数据类型指标、日志、链路追踪、事件典型特点高度时序性、机器生成、细粒度、多维度、噪音大、数据量巨大技术运营 Tech Ops数据类型用户行为、客户属性、交易、营销、客户反馈典型特点以人为中心、结果导向、多源异构、事件驱动、实时性要求商业运营 Biz Ops数据类型安全日志、威胁情报、告警事件、用户行为、端点数据典型特点对抗性强、信噪比低、上下文缺失、合规性要求、数据量巨大安全运营 Sec Ops共同挑战数据量巨大、动态变化、缺乏上下文共同目标分散、低密度数据转化为有价值的“智能信号”智能的原料:探寻三类运营数据的核心特征数据的价值不在于它的体量,而在于它的信息密度海量混杂多源、异构、片段化丰富的自然语言描述低信噪比异常数据隐藏在大量波动中极其稀疏但逻辑关联的信号黑盒幻觉数据质量安全性能成本AI 应用挑战对数据期望Operation Data现实情况精准可溯信号高度相关直指问题根因可靠的信息来源实时可信信号能真实反映当前状况真实、无误、无矛盾经过验证、可以信赖纯净高效文本精练、直击主题信号清晰、简洁信息密度高、无噪声TBPB日志、指标结构化&半结构化智能鸿沟:从混乱到洞察的挑战Operation可观测:从自动化到AI智能传感器确定性触发器为预设规则提供精确触发条件扮演角色感官系统AI 模型的眼睛、耳朵和触觉记忆与知识库构成了 AI 模型的长期记忆扮演角色效率一致性精确地度量、记录系统的状概率洞察优化赋能学习、驱动推理、支撑进化用途验证条件、提供上下文、反馈用途精确的行动指令对世界的认知数据炼金术:将Operation Data转化为智能信号全量与实时、统一格式、元数据丰富动态适应、精准预警、可解释性领域知识驱动、自动特征提取、上下文补齐信息密度(大)基石构建统一的数据平台提炼从原始数据到高维特征升华生成智能信号打破孤岛:构建上帝视角的统一可观测平台云产品可观测ITOps(开发运维)SecOps(安全运维)FinOps(成本分析)开箱即用的应用CloudLensARMSPrometheusRUM全栈可观测日志审计SIEM对接成本分析智能化的Ops 平台工具可观测领域全域模型NEWCopilot辅助数据探索处理引擎升级索引查询分析模式扫描查询分析模式可观测数据存储平台热存/低频/归档标准型/查询型向量索引NEW数据采集与管道底层存储升级(默认升级3AZ)数据写入处理器采集升级(LoongCollector)NEW新版数据加工规则消费物化视图NEWSPL 多源联数据合分析NEW数据统一建模(UModel)NEW时序引擎2.0NEW多种数据检测和处理算法数据统一Log/Metric/Trace 数据统一接入,统一存储一站式功能一站式采集、加工、分析、可视化,投递功能智能分析基于 Copilot 辅助实现自然语言交互,数据探索千亿数据秒级查询和分析支持Soft Delete数据炼金之“炉”:为海量异构数据而生的存储引擎数据写入处理器统一存储查询、分析、消费、加工数据接入数据落盘结果输出数据落盘前SPL处理(过滤、转换、脱敏、)结果写回数据读取实时流式、后台异步处理列存、倒排索引一站式EmbeddingIVF-SQ高压缩向量向量可见延时小于10 秒支持混合检索向量索引SOTA性能(写入、查询)内存压缩(3 倍内存节省)支持动态多值列内置降采样MetricStore2.0实体、关系存储超低延时(P99 高风险账户盗用数据库性能瓶颈-暴力扫描正常业务行为-资产盗用实体建模上下文的粘合剂、AI 智能的基石、统一查询的前提乘客账号设备会话登录查询API订票API他是谁?遇到什么问题?为什么要高频调用?是否有安全隐患?统一模型架构可观测 App 融合Ops 管理平台自动化巡检故障自愈统一查询语言 SPLLogSearchSQLPromQLUSearchGraphQLUModelEntityLogMetricProfileTraceLog SetTrace SetMetric SetSetDataEntity LinkEntity SetCommon SchemaOpenTelemetryCommon Data ModelTrace全桟可观测RUM性能可观测移动端可观测关系建模可观测数据建模实体建模查询层存储层模型层数据炼金之“钥”:释放数据融合价值的统一密匙(SPL)SPL 特性典型场景网关LoongCollectorSPLlibIngestSPLlibPullSPLlibSearchSPLlibSQLSPLlibPromQLSPLlibETLSPLlibSPLlibLog、Metric、Trace、Entity、ExternalStore(MySQL、OSS)、LLMLoongCollector采集(客户端执行)Ingestion(服务端执行)流处理:数据加工(ETL)、流式消费(Flink 使用SPL下推)批处理:SPL/SQL 查询&分析高性能C 向量化引擎集成在所有计算模块中良好的扩展性和通用性统一入口、无缝关联、性能卓越-效率、价值的大幅提升SPL 核心功能覆盖SQL92大部分功能支持日志、时序、图、实体处理原始支持检测、预测算法,LLM调用数据炼金之“果”:一站式根因诊断与智能预警-获得用户历史device信息.let user_entity=.entity with(type=user_profile)|where user_id=$UserId|project device_id|extend is_device_normal=1;-对登录设备进行是否正常检测.let current_device_is_abnormal=$login_info|project device_id|join-kind=left$user_entity on device_id|extend is_device_normal=case when is_device_normal is null then 0 else 1 end|extend session_id=$SessionID|project session_id,is_device_normal;-原始session操作信息.let session_requests=.logstore with(logstore=api_access_log)|where user_id=$UserID and session_id=$SessionID|extend _time_=_time_-_time_|stats access_cnt=count(*)by session_id|make-series access_cnt_arr=accessCnt default=0 on time from sls_begin_time to sls_end_time step 1m by session_id;-业务操作信息.let bussiness_op=.logstore with(logstore=bussiness_log)|where session_id=$SessionID|stats opDetail=array_agg(payment_detail)by service,event_type,session_id;-模型调用,异常检查if$current_device_is_abnormal.is_device_normal or$session_requests_abnormal.is_session_op_normal|table-to-str$login_info as login_info_s,$session_requests as session_requests_s,$bussiness_op as bussiness_op_s|str-format$promt_template.format(login_info_s,session_requests_s,bussiness_op_s)as question|llm-call-model=qwen-prompt_template=default-user_question=question as llm_res-大模型返回结果|parse-json llm_res-解析大模型的结果,获得返回值|project is_safe,msg-原始登录信息.let login_info=.logstore with(logstore=login_log)|where user_id=$UserID and session_id=$SessionID;-对session操作进行异常检测.let session_requests_abnormal=$session_requests|extend test=series_decompose_anomalies(_value_,confidence:0.005)|extend anomalies_score_series=test.anomalies_score_series|extend is_session_op_normal=case when array_max(slice(anomalies_score_series,-5,5)=0then 1 else 0 end|project session_id,is_session_op_normal;调取“嫌疑人”档案(关联实体数据)重建案发时间线(关联日志与时序)现场勘查与行为分析(关联业务与安全)智能裁决(The Verdict)-AI 给出结论多团队、多工具联合排查 一次 SPL 查询事后排查 实时智能告警谢谢重构可观测大模型驱动的云监控2.0 与 AIOps 新范式阿里云智能集团资深技术专家司徒放Rebuilding ObservabilityAI 应用可观测AI 原生应用的开发运维过程,与传统存在显著差异,并将大规模爆发,成为主流大模型时代:带来全新的应用形态和运维模式应用复杂度单体应用分布式应用云原生应用AI 应用大量 AI 应用场景涌现,叠加可观测与 AI 的结合,新一轮可观测变革正在发生智能运维 AIOps大模型与可观测深度结合,将极大提升运维效率和系统智能化水平基础架构数据库SOAESB数据库缓存微服务容器云服务Serverless大模型自然语言交互训练 推理新一轮变革上一轮变革关 键 因 素数据多维、关联、语义统一的观测数据算力灵活、弹性、实时分析能力AIOps 即将突破的临界点模型快速迭代,理解通用运行规律智能化生产力快速增长的 AI 算力有限的人力单体应用分布式应用云原生应用AI 应用大模型时代的 AIOps 面临的两大难题数 据如何驾驭海量、异构、实时的可观测数据?认 知如何弥合通用大模型与运维领域知识的鸿沟?异构系统的孤岛困境数 据如何驾驭海量、异构、实时的可观测数据?数据洪流的承载瓶颈海量数据的算力黑洞可观测数据平台:统一接入、加工、存储Web/移动端服务端应用AI 应用基础设施云服务中间件组件数据接入日志:数百 PB/天指标:数十 PB/天链路:数万亿调用/天事件:数十亿条/天容器:数百万个/天终端:数亿个/天可观测数据全栈 实时 无侵入数据存储同城冗余高可靠免费启用多副本多 AZ 冗余数据加工数据脱敏数据规整数据流转数据富化数据过滤定时调度失败告警任务状态冷热多级存储热存/低频/归档 自动切换全球可用高弹性全地域覆盖,跨域跨库视图标准 SQL 查询分析多协议投递与消费丰富的可视化展现可观测数据算子通用算子 可观测数据算子:降低海量数据的分析难度针对不同的可观测数据,提供多种对应的高效算子,把算力消耗下推到底层异常检测时序预测时序聚类维度下探模版提取模版匹配模版聚类模版比对异常分析维度下钻拓扑构造拓扑分析瓶颈分析差异分析剖析解读计算下推海量数据查询分析计算下推通用算子机器学习统计分析向量表达认 知如何弥合通用大模型与运维领域知识的鸿沟?运维领域的语义鸿沟系统拓扑的认知迷宫根因分析的逻辑断链应用应用应用数据库连接ClusterDeploymentCronJobPodPodNodeNodeECS实例ECS 安全组VPC 网络负载均衡 SLBRDS实例移动端应用会话会话会话用户体验监控应用监控容器监控云产品监控应用引入统一模型(UModel)可观测数据建模观测数据观测实体实体关联可观测 UModel 模型定义应用数据库连接调用指标集指标集日志集日志集指标集链路集事件集构建更易于大模型理解的“数字孪生”世界视图视图资源资源基础设施可观测云产品监控容器监控应用监控用户体验监控黄金指标健康度容量水位业务标签系统资产运维手册日志集指标集链路集事件集剖析集字段属性回滚重启扩容限流配置预案UModel基于统一模型(UModel)重构可观测数据自动构建拓扑基于资源关系以及调用数据,接入时自动提取实体与关系统一可观测模型支持 6 个核心领域,1800 个模型标准开放可扩展数据知识行动Demo:UModel 探索与全局实体拓扑Demo:基于实体拓扑的问题排查智能运维助手升级:支持自然语言交互全场景嵌入,上下文感知分析定位更精准依赖内置强大算法能力支持亿级可观测数据查询分析自然语言交互,多轮对话随时唤出智能体驱动,泛化能力强可观测存储日志指标链路事件剖析实体拓扑通用算子自然语言处理智能预测根因分析异常检测可观测算法基于智能运维助手重构 AIOps 核心场景智能运维助手日志解读日志分析日志抽取NL2SQL趋势预测指标分析维度下钻NL2PromQL调用链解读应用分析性能剖析解读JVM 性能解读图表总结可视化增强图表生成动态实体识别告警规则治理告警风暴收敛智能告警规则智能告警影响面分析故障总结与建议根因分析根因洞察资源水位巡检安全风险巡检集群健康巡检智能巡检能力说明智能运维助手:能力分层场景标签健康巡检根因定位容量评估变更分析数据解读趋势预测模式分类异常检测噪声抑制资源盘点实体筛查依赖梳理关联分析智能取数数据审计溯源取证具备规划和推理能力,能排查复杂问题,给出决策建议支持对多种可观测数据的解读和分析,从海量数据中提炼关键信息基于拓扑感知实体关系,支持根据实体检索关联的可观测数据集支持使用自然语言对日志/时序库的SQL/PromQL 生成及原始数据查询智能运维助手:常见提问示例拓扑感知:资源盘点拓扑感知:依赖梳理拓扑感知:关联分析深度洞察:趋势预测/异常检测深度洞察:数据解读辅助决策:健康巡检/根因定位Demo:智能运维助手Agent 层基础查询层UModel 工具层智能运维能力开放:三层可观测 MCP 工具自然语言 SQL 查询自然语言 PromQL 查询实体检索/拓扑查询数据集检索日志/指标/链路/剖析/事件查询自然语言询问可观测问题具备规划和推理能力,能排查复杂问题,给出决策建议支持对多种可观测数据的解读和分析,从海量数据中提炼关键信息基于拓扑感知实体关系,支持根据实体检索关联的可观测数据集支持使用自然语言对日志/时序库的SQL/PromQL 生成及原始数据查询能力说明Agent 层面向更广泛的,或直接复用可观测智能运维的场景。可与更多客户内部 MCP 与管控工具进一步集成MCP 工具典型场景UModel工具层面向自动规划、调用工具能力强的大模型,或使用Workflow 进行编排的场景基于深度洞察的算子,可大幅降低解析数据的上下文消耗,提升分析准确性基础查询层面向专家的基础取数,或较单一的场景,支持查询或生成 SQL/PromQL,返回原始数据可观测 MCP 工具的典型场景Demo 介绍:可观测 MCP 的 DevOps 场景集成云监控 2.0代码仓库云效平台发布流水线镜像仓库容器镜像服务镜像应用Deployment容器服务K8s 集群可观测 MCP云效MCPQoder IDE知识库开发/运维/排查研发人员代码仓库代码发布云监控 2.0 内置 UModel研发域运维域镜像K8s集群应用Deployment自定义 DevOps UModelDemo:可观测 MCP 的 DevOps 场景集成问题排查紧急回滚代码修复Demo:可观测 MCP 的 DevOps 场景集成问题排查紧急回滚代码修复接入中心统一探针接入管理同一采集类型最多接一次算法引擎支持对可观测数据进行算法分析,洞察数据的关键信息智能告警统一告警配置,运维变更事件集成,通知生成与响应处理数据处理可观测数据清洗、加工、查询、分析、消费、投递仪表盘统一可观测大盘,支持导出到Grafana与 Kibana可观测平台能力可观测数据存储应用可观测Web 站点iOS APP安卓/鸿蒙 APP小程序用户体验监控API接口微服务中间件应用运行时应用监控模型服务与AI网关Token消耗与成本质量安全评估全栈智算资源AI 应用可观测可观测链路OpenTelemetry 版OpenTelemetry开源OTel/SkyWalking等链路数据接入实体拓扑日志指标链路事件统一模型 UModel自动构建的可观测实体、实体关系与拓扑云产品洞察ECS 洞察容器洞察PAI 洞察OSS 洞察SLB 洞察数据库可观测运维监控可观测监控 Prometheus版开源Prometheus生态商业托管计算/网络/存储/中间件/安全/数据库/大数据/人工智能/云产品监控可观测可视化 Grafana 版开源Grafana商业托管网站压力测试中间件性能测试性能测试 PTS站点监控浏览器测速云拨测操作审计与风险检测日志审计智能探索与分析日志探索数据探索事件中心UModel 探索云监控 2.0 产品全景智能运维助手实体探索谢谢降本提效,稳定先行企业级AI全栈可观测落地实践阿里云智能集团解决方案架构师李晨鱼泡直聘 CTO杨皓目录ContentAI应用运维过程中遇到的难题01阿里云AI应用可观测方案02AI应用观测最佳实践03Challenges in AI Application O&MDetails of AI Application Observability SolutionBest PracticesGPT系列Llama系列Qwen系列DS系列通用基础大模型Prompt Learning/SFT/RLHF应用编排集成框架LangChainLlamaIndexSemantic KernelSpring AI应用开发平台社区生态阿里云百炼大模型服务平台魔搭ChatBotCopilot行业大模型垂直大模型其他大模型服务组件MCP/Tools向量数据库缓存对象存储Agent时代在召唤:整个IT界都在进行AI变革01训练基础资源问题推理性能慢,服务器频繁超时,慢在哪里?工作流怎么没按预设逻辑运行?AI 应用黑盒运行,内部是如何调用的?02模型推理问题03效果和成本模型输出的内容是否准确,是否合规?为什么消耗了这么多 Token?都消耗在哪些应用,哪些用户,哪些部门?如何及时发现掉卡?GPU 利用是否有瓶颈?显存 OOM 如何排查?RDMA 网络延迟,CPFS 文件读取延迟?AI应用运维过程中会遇到的典型问题监控大盘DashboardsAI 应用和智能体框架AI application&agentframework质量安全评估成本优化Cost optimization端到端诊断提供常见智能体和智能应用框架的无侵入埋点追踪,为问题诊断排查提供全链路数据支持End to end tracingUpdateNewNew使用LLM as Judge 来对模型的输入输出提供自动化评估,涵盖语义分析、输出质量、安全风险分析全栈监控覆盖模型应用、模型服务、网关、RAG和AIInfra 各层的关键监控指标和日志Full stack monitoringUpdate提供Token 消耗和GPU 使用提供多维度多视角的分析数据,结合AI 网关,提供灵活的限额限流能力Modelas a Service模型观测Evaluation for quality&security端到端诊断成本分析语义分析/评估RAG 链路追踪模型调用监控安全诊断模型监控模型日志模型链路服务监控推理引擎监控向量DB 监控AI 网关监控灵骏节点监控RDMA 监控CPFS 存储监控GPU 主机监控容器调度观测Platformas a Service平台与组件观测Infrastructureasa Service基础架构监控LLM Application应用观测应用监控云监控2.0AI应用可观测AI训练洞察云监控2.0针对智能体应用和大模型提供统一可观测能力用户业务层客户端基于 Prometheus 构建 AI 全栈监控大盘,包括模型性能分析、Token 成本分析、GPU 资源异动分析等基于 ARMS 构建 Trace 系统,实现用户终端、网关、模型应用、模型服务、外部依赖工具等全链路追踪。基于 SLS 构建统一日志分析平台,对模型调用日志进行二次评估分析,实现质量、安全、意图提取等语义检测。AI全栈统一监控模型调用端到端链路追踪模型日志存储与评估分析RUM SDKAI网关(MSE/ALB等)Otel SDKSAE 实例模型应用层Python AgentLLM 应用LLM 应用LLM 应用LLM 应用开发平台/编排集成框架(Dify/Langchain/Llamalndex)KubernetesSAE实例AI网关(MSE/ALB等)Otel SDK向量数据库缓存对象存储Tools.SAE 实例模型服务层托管模型服务Python AgentGPU 集群通义千问DeepSeekOpenAI.自建模型服务Python Agent通义千问DeepSeekLlama3.推理加速框架(SGLang/VLLM 等)链路上下文链路上下文链路上下文链路上下文Web小程序AndroidiOSHTML 5API管理流量防护WAF防护服务发现AI ProxyToken 限流敏感信息过滤Cache/RAG一个典型的 AI 原生应用架构及可观测诉求LLM应用可观测需要关注哪些指标?AI全栈指标统一存储与可视化,构建LLM领域监控大盘,如模型性能分析、Token成本分析等。系统指标失败指标延迟指标模型指标评估指标成本指标空响应次数/率超时次数/率格式错误响应/率敏感信息泄漏次数/率吞吐量内存使用硬件利用率-CPU、GPU等服务可用时长Time To First Token-响应速度Time Between Tokens-生成流畅度Tokens per Seconds-生成速度Time Per Output Token-生成效率Accuracy 准确率-整体性能Toxicity 毒性-安全性Hallucination Rate 幻觉率-可靠性模型调用次数上下文长度/响应长度RAG 操作次数Tool 操作次数Input/output Tokens API 使用成本Query Count-总查询Requests Per Seconds-每秒处理请求数,确保不超出API跟制响应耗时推理逻辑异常处理组件可用性中间件可用性模型服务稳定性模型效果模型成本K8S/GPU资源异动PAI/ACK灵骏集群服务组件可用性模型应用监控模型服务监控基础设施监控网关监控RAG监控AI全栈统一监控以支持 OpenTelemetry 协议的 Python/Java/Go 等 Agent 为底座,增强大模型领域语义规范与数据采集,提供多种性能诊断数据,全方位自监控保障稳定高可用。采样策略指标预聚合发散收敛持续剖析动态配置自监控插件扩展指标OpenTelemetry Semantic ConventionCallback/Decorator/Monkey PatchingOpenTelemetry Python Instrumentation指标指标基于OpenTelemetry的高质量链路数据采集拥抱开源,面向大模型应用量身打造一键安装接入K8s 环境支持修改 YAML 实现简单自动接入,initContainer机制注入探针,支持批量规模化自动接入埋点更精细针对框架埋点丰富优化,提供丰富的指标,支持用户添加自定义属性信息并在整条 Trace 中透传性能稳定性埋点上报开销优化,降低应用性能影响,通过管控策略可以进一步降低开销在可控范围一个典型的 LLM ChatBot 应用架构LLM ChatBot 包含前端 UI、对话服务、模型应用、模型服务、AI 网关、向量数据库、外部 Tool 等众多组件LLM Trace 端到端全链路追踪基于 OpenTelemetry W3C 协议实现 LLM Trace 端到端全链路追踪。详细记录每一次模型调用过程,包括 Prompt、Input/Output、Token、TTFT(Time to first Token)等。模型调用全链路诊断Token 多维分析对于 Token 消耗提供各个维度的分析包含应用视角,用户视角,模型视角等Token 配额限流结合 AI 网关,提供各维度的 Token 限额成本分析LLMAgentAPI 网关LogStore数据加工LogStore(内置向量存储)向量索引HNSWIVF倒排索引列存向量查询关键字查询聚类查询准确性相关性幻觉检测合规检测仇恨检测道德评估LLM评估系统评估模板自定义评估通义千问DeepSeekLlama3OpenAI模型 评估Embedding 模型bgedashcope一站式 Embedding/向量搜索构建 IVF-SQ 高压缩率向量索引毫秒级向量索引向量和关键字混合检索语义搜索Prompt/Response上下文Schedule SQL评估结果评估指令基于LLM实现模型生成结果自动化评估系统评估(内置 10 模板)降低门槛、自定义评估深度提升生成效果。一站式 Embedding/向量索引、向量和关键字混合检索简化开发流程评估,为了更好的生成为了更好的提升大模型生成效果,可以通过新的模型对原有模型 Prompt/Response 进行二次评估(质量、安全等)自动化评估(定量/定性)基于 Trace 或模型日志中记录的上下文内容,可以实现自动化定量/定性评估,比如合规性检查、用户意图提取等自动化结果评估完整还原MCP调用过程MCP可观测最佳实践事件驱动MCP Register&Prompt 模版端&生态API网关AI AgentAI网关/MCP网关LLMOpenTelemetry 可观测标准协议AI 应用观测&评估体系RocketMQMSE Nacos移动端云原生API网关SpringAI Alibaba/DifyWeb 端API管理WorkFlow/Al Framework/Prompt/Evaluation 智能终端流量防护车机终端WAF防护工具箱其他生态终端服务发现MCP ServerLLM Observability 函数计算 FC Serverless应用引擎Agent on FC Spring Al Alibaba LangChainLlamaIndexDify on SAE 云原生API网关Al Proxy Token限流绿网/敏感信息过滤Cache/RAG Tools/MCPServer 通义千问OpenAIDeepSeekGemini提前发现Token黑洞现象快速找出Token黑洞根因结合AI网关对异常MCP调用进行限流问题现象问题现象某业务通过 AI 网关调用自建 DeepSeek模型服务发现请求耗时很高排查思路vLLM/SGLang推理性能可观测实战vLLM 作为高效的推理引擎,通过动态批处理、内存分块管理、KV 缓存复用等方式大幅度提升了推理效率。问题排查建议增大推理引擎中请求队列的大小配置通过 RequestId 查询到关联的 TraceId,再通过端到端调用链分析发现模型推理阶段耗时非常高。通过调用链和指标关联,排查同一时刻相关指标是否异常首先观察 TTFT 指标,确认正常,排除Prefill阶段问题检查 TPOT 指标,确认正常,排除decode阶段问题检查推理引擎中正在执行的请求和排队的请求数量,发现正在执行的请求数量激增,同时出现较多的排队请求最终确认是请求数量过多,超过当前处理能力后导致排队某业务通过 AI 网关调用自建 DeepSeek 模型服务发现请求耗时很高Centralized Controller(same process as LLMEngine,CPU only)Scheduler vllm/core/scheduler.pyBlockSpaceManagervllm/core/block_manager.pyBlockAllocator(GPU/CPU)vllm/core/block_manager.pyDistributed Workers(distributed processes with GPUs)Worker vllm/worker/worker.pyCacheEnginevllm/worker/cache_engine.pyWorker.modelvllm/model_executor/modelsPagedAttentionvllm/model_executor/layers/attention.pyLLMEnginevllm/engine/llm_engine.pystreaming results requests(prompts)deTokenize 1 new TokenID foreach request unfinishedrequestsN 鱼泡直聘可观测实践鱼泡直聘 CTO杨皓鱼泡直聘 超1.1亿APP注册用户Yupao:Over 110 Million App Registrations鱼泡直聘 星火燎原监控的“三驾马车”与孤岛MetricsCPU 使用率 90%!Traces这个请求耗时 5 秒!Logs数据库连接超时!数据孤岛统一平台云原生下的“混沌之网”:不止是服务API Gateway应用层中间件层IaaS层MySQLCacheRedis真实案例:一次“主站雪崩”的复盘告警风暴9 点 20 分毫无头绪9 点 30 分重启未恢复10 点 30 分扩容未恢复10 点 30分回滚评估:无定论10 点 45 分人工排查:RDS 异常11点级联故障12 点最后手段停止流量12 点 30 分同一场火灾,不同的结局平均修复时间:约 3小时扩容未恢复告警风暴重启未恢复毫无头绪回滚评估:无定论级联故障人工排查:RDS 异常最后手段:停止流量-无可观测性平均修复时间:约 1 小时-有可观测性告警风暴定位到目标从能力到场景:我们怎么用云观测的“工具箱”性能优化稳定性保障成本优化故障定位SQLJVM线程池异常定时任务连接池NoSQL自定义指标容器资源使用情况火焰图调用栈ArthasQPSTrace拓扑图从“用上”到“用好”:我们遇到的四大挑战与解法指标黑洞黄金链路仪表盘数据孤岛调用链日志关联告警疲劳告警降噪被动式救火主动式巡检案例:一次简历服务超时的快速定位服务异常简历服务不可用日志分析错误指向“简历服务”分布式追踪下游“简历投递服务”存在瓶颈SQL检测 SQL 调用SQL&DB数据库监控已确认 SQL 查询缓慢根因分析缺少数据库索引当业务遇见LLM:观测性的新挑战与机遇多模态工作流知识库A2A复杂 AgentLLM简单聊天机器人演进AI赋能业务:鱼泡的LLM应用尝试在鱼泡,AI 不仅是技术,更是驱动业务增长的核心引擎。我们的 AI 应用已渗透到业务的各个环节:赋能内部效率 AI 陪练 AI 客服优化求职者体验 AI 求职助手提升招聘者效率 AI 招聘助手 AI 面试LLM监控的必要性:构建LLM应用的可观测性性 能 与 成 本端 到 端 追 踪质 量 评 估安 全 与 合 规 延迟 Token 消耗量 相关性 用户反馈 提示词注入 有害性 工作流 agentic 动态路径 A2A可观测的“最后一公里”:用AI打破人的瓶颈演进智能运维平台人工分析成本报告人工被动式孤立集成主动式自动化优化计划代码文档风险告警风险历史根因诊断总结与展望:可观测性是一项系统工程卓越的可观测性工具标准流程业务上下文培训与文化AI 辅助阿里云 X 鱼泡直聘谢谢从高校到行业战场打造云原生软件重构迁移、韧性测试、智能运维一体化技术体系中国科学院软件研究所研究员,博士生导师软件工程学科方向带头人学术/学位委员会委员中国科学院大学岗位教授魏峻From Academia to the Industry Frontline阿里云智能集团资深技术专家周洋目录项目背景:智能化深度改变重构、测试、运维的全周期01学界进展:问题定义、研究思路介绍02企业实践:云原生SRE智能化落地实践03成果发布:成果发布和里程碑展望04AI-Driven Transformation of the End-to-End Lifecycle in Refactoring,Testing,and OperationsAcademic Progress:Problem Definition and Research FrameworkEnterprise Practices:Cloud Native SRE Integration with AIOpsAchievements and Roadmap:Deliverables and Future Milestones云原生生态系统开发方法发展趋势Dev/OpsDevOpsAIOps主机/个人计算时代互联网计算时代大数据计算时代迭代慢、周期长 工具异构,集成难 自动化程度低功能快速迭代 持续集成 持续测试 持续部署 持续交付数据驱动、非功能持续优化 基于大数据和 AI 技术的响应式优化 基于可观测数据推理内部行为智能计算时代AI驱动云原生生态系统持续演化生态持续演化规则外在驱动AI 内生驱动支撑云原生生态系统持续演化的智能开发、测试与运维一体化技术体系开发/测试/运维?问题与挑战遗留系统多、架构异构、结构复杂边界开放、技术栈多样、大规模故障空间规模大、可观测数据模态多、依赖关系复杂迁移重构难持续(服务重构难自动、服务编排难优化、架构评估难量化)系统韧性难检测(测试输入难覆盖、执行轨迹难追踪、故障空间难探索)服务可用性难维护(多模态数据难融合、运维工具难协同、运维方案难泛化)NetflixStanfordDeathStarBench重构迁移VS国内国外TrainTicketBenchNetflix韧性测试VS国内国外智能运维VS国内国外渐进式服务拆分,缺乏自动化重构机制,架构成熟度评估难量化主要关注故障模拟与注入,缺乏高效故障空间探测技术,难以发现系统潜在脆弱点缺乏多模态数据融合,运维工具难以协同,运维方法难以泛化国家重点研发计划项目:云原生软件生态系统智能化开发、测试与运维5.运维演化支撑环境构建与应用示范智能开发工具集韧性测试工具集智能运维工具集云原生基础设施平台 面向特定领域的工具适配与定制金融电力制造电商通信开源社区建设3.多模态数据增强的强泛化故障推理模型 多模态运维数据增强技术 多模态时空推理模型构建 强泛化性运维能力构建4.基于大模型的自主运维智能体 面向运维的大模型微调与演化 面向特性领域运维任务的检索增强 基于多智能体和人机协作的智能运维 基于大模型的运维工具学习2.大模型赋能的高效韧性测试大模型赋能的测试输入生成应用接口智能化测试业务测试用例智能生成面向控制器的端到端测试故障空间探测基于全链路追踪的故障空间探测反馈驱动的故障空间消减韧性脆弱点自动分析与定位1.场景驱动的重构迁移与架构成熟度评估场景驱动建模与实体依赖分析多维功能与非功能性保障的模块分解数据与知识融合驱动的成熟度与可演化性评估架构和配置变动感知多域融合的成熟度与可演化性模型多粒度演化模型构建 攻克服务重构难自动,架构评估难量化难题 突破测试输入空间难覆盖、故障注入空间难探索问题 解决故障推理模型泛化能力弱,多模态数据难融合问题 提升云原生软件系统自主运维能力 重构迁移:面向云原生架构软件的重构与演化 智能测试:云原生软件系统韧性测试 故障分析:基于智能分析的故障预测、定位和诊断 运维能力:智能运维能力构建与演化 应用验证:云原生软件系统运维演化支撑环境与应用示范具备开发、测试、运维和数据管控能力,支撑复杂云原生软件系统持续演化,推动建设云原生软件系统智能化运维与演化技术开源社区,面向金融、电力、制造、通信、电商等典型场景开展应用示范,支持企业应用重构和持续演化,增强系统稳健性和可维护性,打造自主可控云原生软件生态体系示范应用验证支撑环境构建开发测试运维关键技术突破研究思路与技术路线基于 LLM 智能体协同与知识数据融合推理的智能运维多尺度覆盖的持续重构迁移全生命周期数据融合、AI 赋能的云原生软件持续演化重构迁移组件级、短周期迁移重构内部构造动态行为调用路径依赖关系元数据API数据库表架构级、长周期持续评估可观测数据测试运维知识拓扑结构资源消耗负载变化测试缺陷韧性脆弱点历史故障架构退化重构迁移面向韧性脆弱点的测试用例生成领域知识运维数据历史故障数据应用反馈测试用例动态行为执行链路依赖关系故障注入主动测试应用反馈平台层基础设施层运行维护故障预测、定位和诊断观测数据运维数据历史故障拓扑结构原子能力动态行为执行轨迹依赖关系多智能体人机协作运维观测指标韧性脆弱点环境配置运维日志领域知识故障经验知识运维领域知识运维工具知识示范应用反馈人工智能赋能多模态数据融合重构迁移难持续系统韧性难检测服务可用难运维主动化、多粒度组合的韧性探测学术进展:AI 驱动的云原生系统重构迁移与架构评估提高单体应用服务拆分封装的准确度智能化拆分可观测性数据 知识重构迁移高内聚-低耦合内部函数调用密度内部调用占比功能内聚度业务上下文纯度服务间调用强度服务间依赖关系模块规模均衡度端到端性能与架构缺陷检测云原生架构成熟度评估组件编排部署提高架构退化和缺陷识别和定位准确率架构缺陷识别架构评估成熟度量化基于强化学习和 LLM 的微服务拆分与重构学术进展:面向云原生系统的韧性测试方法链路追踪设计基于 eBPF 的全栈链路追踪技术,捕获潜在的故障注入点故障库支持基础资源、平台层和服务层的典型故障模拟与注入故障空间探测策略风险分析 调用链分析驱动的故障空间探测策略基于故障发生频率、故障影响值等进行故障注入点优先级排序结合运行时反馈导向进行故障空间消减设计基于代理的韧性测试用例执行机制,提高测试效率学术进展:面向云原生系统的智能运维基于多智能体和人机交互的智能运维系统基于多智能体的故障诊断过程关键问题数据难融合,工具难协同,方法难泛化,决策难实施运维大模型运维大模型运维大模型可观测性工具故障注入工具运维分析工具进展成果 运维大模型微调及性能优化方法,构建了14B 运维大模型,特定领域运维任务推理性能翻倍 面向特定运维领域的运维知识检索及运维工具学习方法,在调用链上的故障检索准确度超过 80%基于多智能体和人机协作的智能运维方法,细粒度故障定因的准确度达到 70%,故障诊断时间缩小到分钟级别运维工具开发4.运维大模型构建5.知识图谱构建7.运维工具构建基础平台运维1.故障提前预警2.故障事件定位3.故障原因诊断8.端到端故障自愈领域业务运维6.运维问题QA开发 SRE业务 SRE平台 SRE学术进展:工具发布时间节点2026年第2季度2026年第3季度2026年第4季度 智能算法模型云原生服务化工具 云原生工作流编排执行引擎工具 云原生软件架构成熟度与可演化性评估模型库 云原生软件系统动态演化框架工具 云原生应用API接口自动化测试工具 云原生应用业务功能测试用例智能生成工具 云原生控制器端到端自动化测试工具 基于故障注入的云原生控制器韧性测试工具 基于知识图谱的领域知识检索增强工具 基于大模型的运维工具编排工具 基础运维大模型 多智能体和人机高效协作工具 云原生应用系统韧性测试与分析工具 基于故障注入的云原生控制器韧性测试工具 各类故障预警、定位、诊断模型及工具学术进展:项目成果完成云原生系统韧性测试、可观测数据相关 4 项中电标协团标的立项和申请 信息技术云计算云原生系统韧性测试第 1 部分总则,已立项 信息技术云计算 云原生系统韧性测试 第 2 部分 原子故障库,已立项 信息技术云计算 云原生系统韧性测试 第 3 部分 故障场景,已立项 云原生可观测性数据质量要求,已申请研制形成多项云原生系统智能化重构、测试、运维相关工具 基于链路分析的云原生系统故障空间高效探测工具,并集成到开源工具 ChaosBlade 面向云原生系统的运维大模型(14B)基于多智能体协作的云原生系统运维平台 学术论文和发明专利 已在 ICSE、ASE、IWQoS、JSS等顶级/主流国际会议和期刊发表学术论文十余篇 已申请/受理发明专利10 项企业实践:云原生 SRE 智能化转型的思路泰山 3.0(理想目标)AI-Enhanced Platform泰山 2.0(中短期现状)Digital-Forward Platform泰山 2.0(中短期现状)Digital-Forward Platform泰山 1.0(过去)Task-Execution Platform策略一:SRE 流程的 AI 化(从“干完”到“干得聪明”)策略二:SRE 技术的 AI 化(从“聪明地干”到“不用你干”)几乎没有完全一致的两支 SRE 团队智能化能力越来越强趋势可靠性和用户体验为中心故障为中心产品为中心SRE文化认同模式挑战如何兼顾智能和稳定转型策略和落地指标(建议)大类场景 90% 的适用小类场景 90% 的相关和召回严肃场景的 100%阻断现状、趋势和挑战企业实践:云原生 SRE 智能化平台的技术架构企业知识工程与知识驱动机制知识的抽取/图谱/RAG/推理/更新自主智能体架构与工程化平台架构模式 记忆/规划/反思能力 可观测性人机协同与交互界面可解释性界面、人工干预/接管能力、自然语言交互与低代码ResilienceAgentFAQAgentE2EAgentRecoveryAgentRCAAgentSRE智能平台核心能力层通用方向专业方向智能体与工具全生命周期治理智能体和工具可见性,安全、合规、成本、权限、审计多智能体协作系统与通信架构角色分工、协商机制、冲突解决、标准化接口智能体评估体系与持续优化机制多维评估 A/B测试 优化方法论等AI Agent开发技术,参考本次云栖大会发布的AI原生应用架构白皮书维护成本高企业实践:E2E Agent,一种面向通用场景的自主 QA 智能体实现数据库公共依赖组件(API/MCP)登录账号用例检索脚本生成智能反思会话管理知识库(可观测:RUM 数据)行为轨迹执行引擎playwrightRuntimeChrome规划 Agent文档内容提取知识图谱分析功能点分析用例生成关键词提取知识检索脚本推理脚本提取脚本执行错误解析纠正推理结果评估用例检索 Agent脚本生成 Agent智能反思 Agent流程调度知识库更新用户输入文档/文档链接传统E2E测试的“投入产出比之痛”:长期面临“高投入、低产出”的尴尬局面脚本开发效率低测试用例通过编写或录制的方式,形成自动化测试脚本,录制调试等需要投入大量的人力。在产品快速迭代过程中,前端的页面变化或功能变化需要脚本维护。操作事件DOM 结构1.人工需求分析2.人工录制操作3.人工测试调试4.人工修复异常人工录制回放1.文档理解分析2.自主学习行为轨迹3.用户故事分析4.自主理解 DOMAI自主生成专利:一种基于用户流量事件的生成自动化测试用例的方法企业实践:Resilience Agent,从“混沌工程”到“智能韧性工程”1.混沌工程的实施涉及多种工具组合(如:流量模拟、故障注入、E2E 测试、可观测等)。传统的实践方式存在,人的任务过重(了解各种框架、工具的使用配置),或系统集成过度丧失灵活性的情况。2.混沌工程的实施对于人的技术栈和业务理解要求高(可能涉及:研发、测试、运维等多个环节),对于实施人员的经验要求高(故障经验积累、故障举一反三)。实践痛点分析:故障分析Agent故障检索报告分析系统分析风险匹配Agent故障模式架构拓扑模式匹配故障注入Agent实施方案演练执行结果验证韧性评估Agent韧性指标评估报告改进建议流量模拟AgentE2EAgent可观测AgentPlan Agent:意图识别/参数提取/执行规划/Resilience AgentRAG输入:分析应用 A 的故障报告,评估可用区 H 的 B 应用是否存在类似问题。调用方向与目标:从“混沌工程(Chaos Engineering)”到“智能韧性工程”(Intelligent Resilience Engineering),一个以 AI 为核心,自动化、预测化、自愈化地构建和验证系统韧性的新一代 DevOps/AIOps 子领域。知识库故障报告架构文档接口文档高可用设计故障模式MCP Registry注册调用MCP ServerOpenAPI MCPChaosBlade MCPDeepWiki MCP可观测MCP性能测试MCPAgents流量模拟AgentE2E AgentRCA AgentRecovery AgentInfra AgentSaaS 平台(现有基建)性能测试平台可观测平台故障模拟工具测试平台预案平台专利:一种基于AI的智能化系统故障风险评测方案和装置建立一个围绕稳定状态行为的假说字混沌工程实验原则最小化爆炸半径多样化真实世界的事件持续自动化运行实验在生产环境中运行实验Netflix韧性测试国内国外企业实践:SRE Agent,如何在严肃场景实现“人机协同进化系统”核心目标:缩短单次故障解决时长(Time to Recovery,TTR)应急事件发现与预警(1分钟)应急事件响应与定位(5分钟)应急事件恢复(10分钟)风险告警事件预警故障应急转故障事件应急故障应急事件预警故障应急故障处理进展跟进事件处置事件消除故障应急故障应急故障签到故障分析故障定位故障通告业务方监控告警人工上报预案执行人工恢复应急解除根因复盘监控项检查改进措施故障处理与恢复故障分析与复盘核心目标:缩短故障平均解决时长(Mean Time To Recovery,MTTR)应急事件发现与预警(1分钟)应急事件响应与定位(5分钟)应急事件恢复(10分钟)监控告警人工上报低犯错高犯错Incident Agent自监控人工上报二次广播规模故障Alarm Agent误报降噪聚合Incident AgentRCA Agent管控面数据面基础设施影响面流程工作项知识库通用垂直故障Recovery Agent变更/可观测 MCP客户/云/依赖UModel决策门禁接管预案 MCP重启扩容回滚限流降级隔离切流“从赛车设计改装到赛场的更换轮胎,如果每个人每圈都能贡献 0.1 秒,过了十圈就能赢对方1 秒,那就是从最后一名变成冠军的距离。”电影F1:狂飙飞车“每1起严重事故背后,必然有29次轻微事故和30起未遂先兆以及1000起事故隐患。”海恩法则端到端成功率=P_detect P_diagnose P_recover假设:P_detect =95%(AI 告警准确率)P_diagnose =90%(AI 根因命中率)P_recover =90%(AI 修复方案有效率)整体成功率=0.95 0.90 0.90=76.95%即:每 100 次故障,有 25 次因 AI 幻觉导致处理失败或恶化。实践观点:1.顶层设计优先于算法调优,不纠结每个环节的“绝对正确”,而在整体系统的“持续进化”。2.重点建设“AI 执行 人工校验 效果反馈”的智能运维平台框架,明确“什么场景允许 AI 犯错”、“什么边界必须人工介入”。4872.6543.9734.17495.20384.4月5月6月7月8月CnOps 社区正式发布打造开发者社区开源生态,推动国内运维生态演进社区频道涵盖开源项目开发者工具常见问答教程视频行业实践更多期待经验分享项目孵化工具支持知识共享新版本产品特性展示ChaosBlade-Box 2.0:云原生系统韧性测试平台发布谢谢函数计算 FC:AI 时代的最佳运行时阿里云智能集团产品专家洪晓龙Function Compute(FC):The Optimal Runtime for the AI EraCONTENT目录从 Serverless 到 Serverless AIFrom Serverless to Serverless AI01Serverless AI 运行时关键技术Key Technologies of Serverless AI Runtime02总结和展望Summary and Outlook0301 从 Serverless 到 Serverless AIFrom Serverless to Serverless AIAI 原生范式对基础设施提出全新的要求构建支持 AI Agent 的高效基础设施Agent-Centric基础设施的核心服务对象从“人类用户”转变为“自主Agent”,以 Agent 而非服务或 API 为中心以 Agent 为中心State-First状态是 Agent 的“记忆”与“人格”载体,基础设施必须原生支持状态的持久化、低延迟访问与跨环境迁移基础设施主动协调 Agent完成目标,而非被动响应请求,Agent 和 Agent 或者Agent 和工具之间的协作依靠事件驱动和动态弹性Task-Driven OrchestrationEmbrace Uncertainty任务驱动协作状态优先承认 LLM 输出的非确定性,通过基础设施能力降低风险,而非追求绝对可控,从“防御性编程”转向“容错自愈”接受不确定性动态弹性按请求弹性,毫秒/秒级供给资源,支持低峰缩 0 弹性降本状态持久化内置状态持久化或集成工作流,支持快照或会话管理,自带 3AZ 容灾事件驱动通过云产品事件驱动自动执行,架构原子化解耦,协作更容易流量不可预测多租户数据敏感易受注入攻击弹性隔离安全智能体 Agent 从传统架构到 AI 原生架构 从 Serverless 架构到 AI 原生架构静态资源分配预留固定资源,利用率低,无弹性或分钟级弹性状态管理复杂依赖 Redis/DB 管理,故障恢复复杂,跨节点迁移几乎不可行API 驱动依赖网关/MQ实现同步和异步调用或,微服务架构协作复杂度高VM/容器运行时AI 时代需求Serverless运行时运维负担沉重依赖专业运维团队配置集群、环境,自建监控日志代价高免运维安全隔离的多语言运行环境,自带监控日志告警等配套设施AI 时代开发者关注业务创新而非基础设施Serverless 是 AI 原生架构的最短实现路径魔搭社区、Qwen、百炼,大规模使用函数计算 FC 提供的 Serverless 运行时构建模型、智能体和 AI 工具Serverless 运行时实践探索模型领域模型大语言模型开箱即用,DevPod二次开发,弹性交付GPU,低峰缩0内置vLLM/SGLang/Ollama/LMDeploy 推理框架最快30s 将开源模型转化为生产级OpenAI兼容API智能体高代码 AgentRL Sandbox50 内置多语言运行环境,代码执行延迟70%,智能经济核心产业快速增长 2030年:应用普及率90%,智能经济成为增长极,技术普惠 2035年:全面进入智能经济、智能社会阶段70 27年2030年2035年0Software 1.0Software 2.0Software 3.0computer codecomputerweightsneural netpromptsLLMLLM=programmable neural net!2019fixed function neural nete.g.AlexNet:for image recognition 2012became programmable in 1940sprogramsprograms技术持续迭代关于深入实施“人工智能 ”行动的意见programsAgent 开发范式:低代码、高代码、零代码低代码抽象层次过高,导致难以满足所有复杂业务场景的逻辑,灵活性受限。其底层引擎与管控通常部署在一起,这种架构限制了Agent的性能和可扩展性生产可用性受制于大模型自身的能力。当前模型的稳定水平,还不能满足复杂业务场景对推理深度、上下文管理和可控性的高要求,因此难以承担生产任务。提供底层编程接口,性能可控且灵活性强,能支撑复杂业务逻辑与系统集成,满足大规模生产要求在AI系统的智能自主性和工程所需的可控性间取得平衡,确保系统行为可靠、结果可预测,兼顾效率与准确性高代码零代码低代码零代码高代码高代码(框架)简单/灵活低代码(DSL)简单/不灵活零代码(Manus)简单/依赖模型能力AI Agent构建方法Chat Client,简单,场景单一Workflow,灵活,开发难度较高Agentic,简单,通用 Agent 模式Agent 开发框架的演进AgentScope Java 版重磅发布AgentScope Java Edition Grand ReleaseAgentic APIHuman In LoopStreamingFault ToleranceMessageMCPToolCallbackSandboxDeploymentA2AContext ManageAgentScope Core JavaAgentScope Runtime JavaAgentScope Java 版重磅发布Spring AI Alibaba 内核升级为 AgentScope,提供企业级开箱即用 Agent 开发框架AgentScope Studio调试&观测&评估平台AgentScope-PythonAgentScope-JavaRuntime-PythonRuntime-JavaAgentScope架构Agent 构建与应用编排核心框架Agent 构建与应用编排核心框架安全可靠的运行和部署环境安全可靠的运行和部署环境CheckpointAI 原生应用架构AI AgentAgent标准智能体定义范式AgentScope/Spring AI AlibabaWorkflow/Multiagent工作流与多智能体编排Context上下文与状态管理A2A分布式智能体协作AI GatewayAI ProxyHigressToken 流控安全护栏语义缓存智能路由OpenTelemetryOpenTelemetryAPI GatewayAPI 管理Higress流量防护WAF防护服务发现OpenTelemetryLLM通义DeepSeekOpenAI模型端&生态手机手表PCPAD生态NacosMCP Register&Prompt 模版Apache RocketMQ事件驱动LLM ObservabilityAI 观测&评估MCP Server工具集分布式 Multi Agent 落地实践Distributed Multi Agent Practice未来 Multi Agent 一定是分布式架构康威定律高可用与水平扩展系统架构是组织沟通结构的反映,团队划分方式决定了系统的模块边界。分布式架构消除单点故障,支持按需弹性伸缩,支撑服务高可用。动态注册与发现支持水平扩容、高可用消息异步通讯异步解耦和性能提升长连接解耦与状态卸载全流程可观测AI应用环节多定位周期长定位成本高服务发现负载均衡高可用可观测上下文传递安全分布式Multi AgentAgent FrameworkAI 中间件Context上下文数据非常大上下文需要做好隔离人机交互用户反馈批准工具调用编辑工具调用参数CheckpointGPU 成本昂贵重试成本非常高保存上下文支持失败重试分布式 Multi Agent 的核心难点Agent 执行流程比较长、输出结果不稳定、执行过程有状态、执行成本非常高的特点会被放大。分布式 AI Agent 架构Nacos 3.1.0 AI Registry AI 注册配置中心基于能力注册和发现,基于指标智能负载均衡Agent Template 动态上下文动态修改、实时生效MCP Registry&Tools ManagementServer Registry&DiscoverySchema/Prompt ConfigrationA2A Registry&ManagementAI AgentAI Tools安全(安全审核,零信任,访问控制,信息加密)AI 原生应用注册配置最佳实践Nacos 3.1.0 重磅发布-拥抱分布式 Multi Agent 架构mTLSAPI网关AI网关API KeyJWTOAuth2自定义认证AI 安全护栏三方认证服务AI 内容审核密钥加密实时感知定时轮转API KeymTLSWAFmTLSmTLS登录认证IP 黑白名单自定义鉴权认证AI 原生应用的全链路安全消费者认证AgentLLMMCPAuth Server阿里云 AI 安全护栏第三方 Saas 服务AI 原生应用的高可用治理AI网关API网关paidpaidfreeuserid:120userid:100freefreepaidToken 限流Token 配额指标统计失败重试Header 打标Parameter 打标Session 打标Token 统计客户端Agent优先级打标ModeliOSAndroidH5AgentAgentLLM1LLM2Agent 评估调优探索与实践Exploration and Practice in Agent Evaluation and Optimization以数据为中心,持续建设高质量数据集,训练竞争壁垒API网关BBgrayAAbaseAI网关模型名称路由权重比例路由Header 打标Parameter 打标按比例打标流量灰度ModelAgentAgentAgentLLM1LLM2TracingLogingPromptMetrics可观测ResponseContext提取去重关联评估分数语义检索结果解释后处理统计模型训练微调实时在线评估可观测数据上报可观测数据上报评估结果ABAI 原生应用架构白皮书开放下载Apache RocketMQ for AI:全面拥抱企业级 AI 应用,引领 AI MQ 新时代杨文婷Apache RocketMQ for AI:Fully Embracing Enterprise-Level AI Applications,Leading a New Era of AI MQ阿里云智能集团产品专家企业级 AI 应用开发的新挑战AI业务特点和典型业务场景01RocketMQ for AI 重磅发布全新 LiteTopic 模型,AI 应用异步链路的最佳解决方案02RocketMQ 在 AI 场景的应用三个典型场景的解决方案03全新模型技术解析怎么实现高并发性能的发送和消费流程04CONTENT目录任务处理耗时长(分钟级到小时级)AI 业务特点算力资源稀缺且成本高昂算力利用率与业务峰谷波动矛盾消息队列在 AI 应用中的作用异步通信:消除长耗时同步调用阻塞流量治理:平滑请求峰谷,缓解后端处理压力定速消费:保护后端关键算力资源智能调度:基于优先级的算力分配企业级 AI 应用开发的新挑战AI 业务特点和典型业务场景可创建百万级数量的资源2025.10 正式发布后续贡献到开源社区RocketMQ for AI 重磅发布全新 LiteTopic 模型,AI 应用异步链路的最佳解决方案模型能力特点全新 LiteTopic 模型轻量资源每个消费者可订阅万级数量 LiteTopic高性能订阅自动创建 自动删除自动化生命周期管理一个 LiteTopic 只允许一个消费者订阅排它消费每个 LiteTopic 下的消息默认是顺序的顺序性每个消费者可订阅不同 LiteTopic 集合选择订阅M7生产者1(Producer)订阅关系1(Subscription 1)List 1订阅关系2(Subscription 2)List 2订阅关系3(Subscription 3)List 3生产者2(Producer)生产者3(Producer)M6M5M4M3M2M1消费者1(Consumer)消费者2(Consumer)消费者3(Consumer)Lite-Topic 1M7M6M5M4M3M2M1Lite-Topic 2M7M6M5M4M3M2M1Lite-Topic 3M7M6M5M4M3M2M1Lite-Topic 4M7M6M5M4M3M2M1Lite-Topic nLite 类型的主题(Topic)RocketMQ 在 AI 场景中的应用三个典型场景的解决方案Application of RocketMQ in AI Scenarios1.可靠、持久通信,失败自动重试2.Multi-Agent 高并发异步通信3.流式任务顺序保证1.Agent 间的调用阻塞问题2.大规模协作扩展性问题1.每个子Agent 创建一个请求缓冲队列Topic2.Supervisor Agent 将拆分任务信息发送到对应的请求Topic 中使用 LiteTopic 构建 Agent2Agent 异步通信1.构建了健壮、高效、可扩展的异步通信基础2.系统请求吞吐量:10 倍1.Supervisor Agent 创建 Lite 类型Topic 作响应的通知队列2.子 Agent 处理将每个任务的响应结果发送到LiteTopictaskID中场景应用1:Multi-Agent的异步通信解决长耗时调用者线程阻塞痛点,提高系统并发度场景痛点方案优势业务价值RocketMQ 解决方案详解响应结果流程接收请求流程场景应用2:分布式会话状态管理难题用 LiteTopic 终结会话状态管理难题为每一个会话(Session)创建一个专属的 Lite-Topic1.“会话即主题”:会话独占 LiteTopic2.状态持久化机制:保障了会话的连续性和完整性3.排他消费:一个 LiteTopic只被一个消费者消费4.顺序消息:支持 Tokens 顺序流式输出1.应用代码无状态化2.提升了会话用户体验3.减少了会话需求重试成本1.如何保障长耗时会话的连续性2.如何避免会话请求重试,减少算力资源的浪费场景痛点方案优势RocketMQ 解决方案详解业务价值每个 LiteTopic 只被一个消费者订阅顺序推送结果会话状态对应队列的持久化消息和消费进度Web端1Web端2Web端3应用服务端节点1应用服务端节点2LiteTopic1LiteTopic2LiteTopic3大模型任务调度组件LLM2.节点2根据SessionlD,订阅LiteTopic21.会话重连后到另外一个服务节点Topic(Response)场景应用3:算力资源高效调度使用消息优先级和消费者限流实现高效调度1.定速消费,保护核心 AI 算力资源2.平滑请求流量,最大化 AI 算力利用率3.消息优先级,实现算力资源最大价值分配RocketMQ 独有的优先级修改能力,可根据业务变化实时变更Apache RocketMQ 充当了前端请求与后端算力服务之间的缓冲调度层,将不规则的流量“整形”为平稳、可控的请求流。消息优先级和消费者限流结合使用可控的算力调度中枢1.有限算力资源的负载平滑问题2.如何保障高级任务的资源分配RocketMQ 解决方案详解场景痛点方案优势M7(1)生产者(Producer)M6(3)M5(2)M4(1)M3(1)M2(1)M1(1)大模型消费者(Consumer)优先级的主题(Topic)M6(3)M5(2)M1(1)receive(max size 3)数据统一在 Commonlog,减少碎片化,保障写入性能元数据管理LiteTopic 模型技术解析在百万级 LiteTopic 的场景下,怎么实现高并发性能的发送和消费流程百万级 LiteTopic 的存储结构基于 KV Store 的快速存取事件驱动拉取机制发送流程消费流程索引机制支持快速更新能力独立 LiteTopic 索引:利用 KV Store 的高性能优势事件驱动新消息写入触发消息和SubscriptionSet 的匹配机制,从而获得消息的ReadySet。高效Poll Ready SetReady Set 允许将Consumer 关注的不同的LiteTopic的消息合并攒批返回给客户端,显著降低了网络开销。为企业级 AI 应用提供全方面的异步通信保障云消息队列 RocketMQ 版产品服务RocketMQ for AI 关键能力LiteTopic模型消息优先级削峰填谷,定速消费会话状态管理Multi-Agent知识库集成模型、算力调用首批通过信通院消息队列 Serverless 云服务能力标准Serverless 系列售卖更新:高弹性低成本稳定可靠全托管服务自助诊断工具快速定位业务问题云消息队列 RocketMQ 版正在从传统消息队列向专为 AI 时代设计的 AI MQ 战略升级。从核心技术和产品服务都进行了系统性升级,为企业级 AI 应用提供全链路的一站式解决方案。展望未来,我们将持续在 AI 领域进行技术迭代与创新,并积极与生态伙伴(如业务框架、AI 平台等)合作集成,共建高效、智能的 AI 应用基础设施。总结AgentScope-Java开发中Spring AIDify开发中开发中规划中生态合作AI 典型应用场景RocketMQ for AI 用户交流钉群谢谢事件驱动重塑 AI 应用数据全链路阿里云智能集团产品专家陈涛Event-Driven Reshaping of End-to-End AI Application DataEventBridge For AI ETL 全新发布CONTENT目录AI 时代的数据准备与处理01EventBridge For AI Data数据处理 ETL 如何使用 AI03AI For EventBridge DataAI 领域 ETL 的最佳实践050204AI 时代的数据准备与处理Data Preparation and Processing in the AI Era什么是 AI?人工智能(AI)诞生于 20 世纪 50 年代,自 90 年代以来随着数据量的爆发式增长以及算力的不断提升,AI 被广泛应用于各行业,为社会带来巨大机遇。AI 提升了企业的决策效率和精准度,驱动创新,优化运营,并助力组织变革和构建竞争优势。麦肯锡调研显示,2022 年全球有 50%的公司部署了 AI,投资超过总预算的 4%。生成式 AI(GenAI)的崛起进一步推动了企业转型,其在流程优化、个性化服务等方面的应用超越了传统 AI。人工智能的发展历程,即感知人工智能(Perception AI)-生成式人工智能(Generative AI)-智能体人工智能(Agentic AI)-具身人工智能(Physical AI),代表了人工智能从基本数据解读到复杂的现实世界交互的演进。Perception AI(判别式)阶段一Agentic AI(智能体)阶段三Generative AI(生成式)阶段二Physical AI(具身智能)阶段四AI 时代的数据挑战与机遇-GenAI 演进从现在的视角看,可能过于“简陋”,不过当时大语言模型刚出来的时候,一些基于 AI LLM 能力之上包装的一些现象级的应用产品,都是使用这么直白的架构,比如文本总结、AI 算命、AI 情感等,在这个架构下能起到比较大作用的是 Prompt 的调优。最初的起点最初的起点Model API GenerationQueryResponseAI 时代的数据挑战与机遇-GenAI 演进上下文增强主要是解决模型在处理特定问题时的信息补充,在上下文增强上,比较常用的技术是 RAG,RAG 提供了面向模型输入Prompt 做动态信息增强的能力。增强上下文1.问题域特有信息:比如分析用户在某个平台购买喜好时,需要给到一些用户在该平台购买的数据2.时效信息:比如股票信息,实事新闻等主要用途包括:Model API GenerationContext construction(e.g.,RAG,agent,query rewriting)Read-only actions(e.g.,vector search,run SQL queries,web search)Databases(e.g.,documents,tables,chat history,vectorDB)QueryResponseAI 时代的数据挑战与机遇-GenAI 演进Agent 是在特定环境下的 plan tools,特定环境限制的是 Agent 的创建是面向一定的场景和问题域的,Plan 说明 Agent 有思考和规划能力,且有根据反馈做循环迭代的能力,Tools 是指具备和外部交互的能力。tools 的范围是围绕在当前定义的场景和问题域下用于解决该类场景问题所需要的对外的行为的集合;Agent 模式Model API(Model catalog,access token management,)RoutingGenerationScoringContext construction(e.g.,RAG,agent,query rewriting)Read-only actions(e.g.,vector search,run SQL queries,web search)Databases(e.g.,documents,tables,chat history,vectorDB)CacheQueryCacheWrite actions(e.g.,update orders,send emails)Input guardrails(e.g.,Pll redaction)Output guardrailsSafety/verificationStructured outputsFinalresponseCachedresponseAI 时代的数据挑战与机遇 数据种类由统一的结构逻辑来表示和存储的数据无预定义数据模型,不可直接用数据库逻辑来表现的数据具有结构化形式,但并不符合数据模型结构AI 时代的数据挑战与机遇 主流数据采集网络数据采集 主要采集现实网页中的数据 常用 API 法和网络爬虫法端侧数据采集 主要采集已转换成电信号的各种物理量 常用摄像头、麦克风等端侧设备系统日志采集 主要采集用户行为日志、业务变更日志、系统运行日志 常用 WebAPl 方式、ServiceProxy 方式、LCClient 方式。数据库采集 主要采集数据库中的数据 Oracle、NoSQL 数据库AI 时代的数据挑战 GenAI 数据?扩展难运维难稳定性差一个简单的数据集成总是愉快而且轻松的,但是随着结构化数据和半结构化数据的加入,如何扩展便成了最大问题一个简单的数据任务运维总是愉快而且轻松的,但是当业务逐渐扩展,很快便会出现无休止的修复和更新。模型上下文是否准确一定程度上决定了 AI Agent 是否可上生产,数据链路的稳定性是最关键的一环。Upstream Connections(e.g.,update emails)emails)DocumentCleaningDownstream Connectionsopenpyxlpython-pptxmsg_parserMarkdownPDFMinerSOC2 ComplianceHIPAA ComplianceChunkingCustom CodeEnd UserSSOBedrockStorageXlrdCustomCleaningScriptsNew LLMpypandocNvidia NIMspython-docxVector StorageCustom CodeOpenAICustom CodeLangChainEmbeddingCustom CodecohereRegExLangChainCustom CodepyPDFLangChainCustom CodeCustom CodeAudit LogsStorageVector StorageEventBridgeEventBridge For AI DataEvent&Bridge Event 是什么?当客户购买汽车并且其状态从 For Sale 变为 Sold 是一个事件。成功交易后,从帐户中扣除金额是一个事件。单击预订试驾后,从将预约信息添加到指定用户就是一个事件。用户资料和预约单本身也可以成为一个事件。简单来说,事件就是状态的显著变化,针对当用户采取特定行动时触发或指一切能够输入计算机中,且能被处理的符号。以 4S 店销售汽车为例:Event&Bridge EventBridge 是什么?源(Source)结构化/半结构化数据消息队列(Kafka,RMQ)数据库(数据库,数仓)可观测(SLS,Prometheus)API结构化/半结构化数据对象存储(CSV,PDF,TXT)过滤(Filter)事件模式指定值匹配转换(Transform)自定义代码调用函数计算 FC,完成自定义转换代码目标(Sink)消息队列(Kafka,RMQ)数据库(数据库,数据仓)可观测(SLS,Prometheus)函数计算 FCAPI/云产品通知&其他(钉钉,邮箱.)前缀匹配包含匹配除外匹配多模式匹配更多自定义模型调用百炼模型服务,使用LLM 转换数据自定义 API调用外部 API 完成数据转换Event&Bridge EventBridge 是什么?事件总线模型经典 EDA(事件驱动)场景的 N:M 模型,提供多事件路由,事件匹配,事件转换等核心能力,帮助您快速搭建事件驱动架构。事件总线事件源事件规则事件总线对象存储容器服务EDAS 匹配/转换目标服务钉钉MNS 函数计算Event&Bridge EventBridge 是什么?事件流模型标准 Streaming(1:1)流式处理场景,无总线概念。适用于端到端的数据转储,数据同步及数据处理等,帮助您轻松构建云上数据管道服务。RocketMQKafka 事件源匹配/转换事件流目标服务FCRocketMQ EventBridge 多源 RAG 能力概述Structured(Kafka,RMQ.)Unstructured(OSS Bucket)SourceFilterSinkOtherVector DBMilvus DBDashVector DBMore.Chunking:Line break2 line breaksChinese periodChinese exclamation markEnglish periodEnglish exclamation markMoreEmbedding:BertDashScopeModelScopeJinaMore.Loader TXT(TextLoader)CSV(CSVLoader)JSON(JSONLoader)Markdown(UnstructuredMarkdownLoader)PDF(PyPDFLoader、MathpixPDFLoader、UnstructuredPDFLoader,PyMuPDF)TransformInsert Data多源 RAG-非结构化数据 Loader非结构化数据 支持读取多种非结构化数据结构读取,如TEXT,JSON、XML、YAML、CSV 等。兼容主流 Loader 数据处理方式,包括单文档加载,分块加载等。结构化数据 支持读取多种结构化数据源拉取,如Kafka,RocketMQ、SLS、MQTT、数据库等。为客户提供丰富的数据源支持。非结构化数据结构化数据半结构化数据EventBridge多源 RAG 向量数据库入库多种向量数据支持 支持专用向量数据库和传统数据库向量插件等,涵盖市面主流向量数据库能力,支持一键白屏化入库。数据处理 ETL 如何使用 AIHow to Use AI in Data Processing ETLuser input“杭州市西湖区灯彩街1008号 System ReceivesProvince:“浙江”City:“杭州,District:“西湖区,Street:灯彩街1008号,ZipCode:”310000此处省略 1000 行user input“杭州市西湖区三墩镇灯彩街1008号 System ReceivesProvince:“浙江”City:“杭州,District:“西湖区,Street:灯彩街1008号,ZipCode:”310000SYSTEM:你是一名电商平台的数据工程师,需要处理来自不同渠道的用户地址信息。希望能在数据入仓前,自动将它们标准化为统一的省-市-区-街道格式,并补全邮政编码。AI For EventBridge Data实时推理/异步推理能力概述SourceMessageRocketMQKafkaRabbitMQMNSMessageLogMetricEventAlertLogDataBaseMySQL/SQLMongodb/NoSQLElasticSearchPGSQLFilterTansformSinkMessageRocketMQKafkaRabbitMQMNSMessageLogMetricEventAlertLogDataBaseMySQL/SQLMongodb/NoSQLElasticSearchPGSQLLLM(Bailian),Qwen,DS.Agent(Bailian)Workflow,RAG.Structured Outputs实时推理/异步推理-结构化输出大型语言模型(LLM)的结构化输出是指让模型生成特定格式的数据,而不是自然语言文本。通常,LLMs 默认的输出是非结构化的,例如散文、段落或对话。然而,在很多数据处理场景中,我们需要模型能按照预定义的格式(如 JSON、XML、YAML、CSV 甚至是特定的代码结构)来输出信息。结构化输出LLM 原始输出这款产品真是太棒了,我非常喜欢它的设计和性能。LLM 结构化输出sentiment:积极,summary:产品设计和性能出色,客户非常满意。EventBridge 支持产品化结构输出,优先使用模型 JsonSchema 能力,当模型原生不支持JsonSchema 入参时,通过产品化提示词注入解决 LLM 链路结构化输出的问题。AI 领域 ETL 的最佳实践Best Practices for ETL in the AI Domain实时推理/异步推理训练数据预处理增强检索数据入库 RAG数据应用层使用,通过调用模型推理能力,增强数据Transform 能力,完成传统数据清洗无法实现的场景服务于模型训练场景,为模型训练提供预处理能力,满足数据集整理诉求通过将不同的数据入库向量数据库,并召回符合的上下文信息喂给模型事件源目标服务函数计算 FC工作流 CloudFlowTransform在数据集用于模型训练前,使用一定方法对数据进行处理,以便把数据变换成适用于机器学习模型训练的格式或形式。处理类型:数据错误,数据重复,数据缺失,数据集不均衡。场景描述实现效果Load场景:数据预处理(Data Preprocessing)场景描述需要处理来自不同渠道的结构化和非结构化数据,可通过配置事件源和目标服务来完成对RAG 链路的多源数据接入。事件源(OSS,Kafka.)目标服务(VectorDB)ChunkingEmbedding 场景:检索增强生成RAG(Retrieval-augmented Generation)数据入库需要处理来自不同渠道的用户地址信息,这些地址格式不一、存在错别字。希望能在数据入仓前,自动将它们标准化为统一的省-市-区-街道格式,并补全邮政编码。场景描述实现效果输入:杭州市西湖区灯彩街1008号 输出:Province:“浙江”,City:“杭州,District:“西湖区,Street:灯彩街1008号,ZipCode:”310000结构化输出事件源目标服务LLMAgentTransform(百炼)场景:数据清洗与标准化(Data Cleansing&Standardization)结构化输出事件源目标服务LLMAgentTransform(百炼)需要分析用户评论的情感倾向,以评估市场活动的效果。希望能在ETL 流程中,自动为每一条用户评论打上“正面”、“负面”或“中性”的情感标签。场景描述实现效果输入:这款新手机的拍照功能太惊艳了!输出:Sentiment:正面,Confidence:0.98场景:数据富集与打标(Data Enrichment&Tagging)结构化输出事件源目标服务LLMAgentTransform(百炼)确保所有进入分析系统的数据都符合 GDPR/CCPA 规范,不能包含用户的个人身份信息(PII)。希望在 ETL 过程中自动识别并脱敏处理文本中的姓名、电话和身份证号。场景描述实现效果输入:客户张三(13812345678)反馈了一个问题.输出:客户*(138*5678)反馈了一个问题.场景:合规与隐私保护(Compliance&Privacy Protection)阿里云智能集团飞天实验室资深产品专家徐志远阿里云百炼基于 EventBridge 的最佳实践Best Practices of Alibaba Cloud Model Studio based on EventBridge模型生态三方大模型通义千问系列通义万相系列通义开源系列通义领域大模型多模态大模型应用生态通义晓蜜听悟析言GBI妙笔三方应用自定义应用百炼MaaS阿里云 AI 计算服务PaaS/IaaS百模重器 千锤百炼百炼:打造一站式大模型服务应用构建平台痛点企业知识管理复杂搜索精度差系统集成难度模型生成幻觉端到端生成满意度差维护成本高领域企业数据应用效果企业管理百炼RAG目标可管理可调优可干预可观测可运营百炼:基于应用工具实现 RAG 效果打磨多源/异构数据可管理多种数据对接方式云上数据库、本地数据库、网页数据解析等多模态数据文档、图片、数据库表、视频、语音互联网搜索百炼:应用工具落地 RAG 的最佳范式多源/异构结构化/半结构化数据消息队列(Kafka,RMQ)数据库(数据库,数仓)结构化/半结构化数据对象存储(CSV,PDF,TXT)百炼知识库向量化Embedding文档切分Chunk知识库召回Rerank/top-k事件总线 EventBridge百炼 EventBridge:快速构筑多源 RAG 数据管理能力EventBridge 客户交流群 1EventBridge 客户交流群 2ThanksAI 网关全新升级张裕AI Gateway Fully Upgrades阿里云智能集团高级产品专家Higress AI 网关-助力 AI 应用的快速落地CONTENT目录AI 网关,顺势而生01新能力:AI 网关新能力解读02新开源:AI 开放平台03新版本:AI 网关 Serverless 版04从云原生架构到 AI 原生架构模型、MCP、Agent、安全,全方位的能力进化帮助企业构建 AI 应用协作机制,实现AI应用货币化按量付费,大幅降低开通成本AI 网关,顺势而生AI Gateway,Emerging in Response to the Trend从云原生架构到 AI 原生架构AI 网关:顺势而生单体架构垂直架构SOA 架构微服务架构云原生架构AI 原生架构流量网关(Nginx)微服务网关ESB云原生网关AI 网关KubernetesRuntimeLLM实现快、维护成本高模块化负载均衡服务管理、RPC技术高密度部署原子、自治按量使用、极致弹性AI应用、Agent、轻量伴随 AI 应用快速发展的必然产物实践探索Higress业务 Server业务 Server支持长连接SSE/WebSocket,热更新对长连接流量无损支持流式传输,满足AI大带宽/高延时特性诉求支持多种安全认证与限流防护Higress业务网关业务网关支持长连接SSE/WebSocket,热更新对长连接流量无损支持流式传输,满足AI大带宽/高延时特性诉求HigressModelModel支持1W 超大路由/域名规模场景,多租共享集群模式,切换到Higress后路由配置生效RT从原10分钟降到30秒内构建完善可观测体系通义App目前 Higress 已经成为阿里云 AI 流量的核心承载网关Higress作为流量网关,白屏操作Higress作为流量网关,白屏操作使用 Ingress 配置路由,通过Ingress集成PAI的管控AI 模型服务平台AI 模型AI 应用Higress 网关在阿里云内部落地的 AI 场景介绍AI 网关在 AI 原生架构中的位置通义千问DeepSeekAI网关A2APromptSingle AgentModel APIAgentHostingObservabilityAgentFrameworkREST To A2AAgentDiscoveryA2A垂类行业微调模型垂类行业微调模型REST To MCPTools 动态组装Tools 智能路由阿里云百炼/Dify 协议转换多模型流量分发智能路由智能负载均衡模型fallbackAI 观测微服务单体MCPToolsMemoryModelSandboxRemote AgentAgent(多副本)Agent RegistryAgentCardMCP Server动态发现MCPOpenAI Compatible APIA2ADiscovery企业MCP开放市场企业Agent开放市场三方 AgentAI安全护栏消费者认证/鉴权会话保持策略与插件Multi AgentWebsocket优雅上下线Websocket请求治理Websocket无损变更HiMarket AI 开放平台协议增强适配通用功能MCPAgentModel基础大语言模型LLM(通才)垂类小语言模型SLM(专才)传统服务&MCP 服务AI 网关是 AI 原生架构的关键基础设施新能力:AI 网关新能力解读New Capability:Interpretation of New AI Gateway Features模型、MCP、Agent、安全,全方位的能力进化模型:从文生文到多模态模型代理观测&评测限流AI 安全防护缓存Redis/VectorDBSLSAI 安全护栏消费者鉴权后端服务鉴权搜索增强夸克AI Agent意图识别提示词优化负载均衡协议接入模型灰度SSE HTTPWebsocketopenAI兼容ComfyUI/cosyvoice/AI 网关自建模型服务(PAI、ACS、FC等)MaaS(百炼、openAI等)满足多模型、多模态、多场景的诉求,做到高安全、高稳定从 MCP 代理到工具组装工具代理观测&评测限流Redis/VectorDBSLSNacos AI Registry消费者鉴权后端服务鉴权MCP ClientTools动态组装Tools智能路由HTTP to MCP协议接入灰度发布SSE HTTPStreamableHTTPAI 网关存量服务(ACK、FC、ECS)托管MCP Server(FC、百炼、计算巢)自动同步通过手动和智能组装 MCP Server,更好地使用工具AI 安全防护AI 安全护栏从 Agent 代理到 Agent 治理Agent代理观测&评测限流Redis/VectorDBSLSNacos AI Registry消费者鉴权后端服务鉴权AI 应用REST to A2A协议接入灰度发布AI 网关高代码(AgentScope、ADK)低代码(Dify等)Agent同步集成 REST to A2A 和 Agent 发现,实现 Agent 的流量治理构建 AI 应用的护城河AI AgentAI 网关网络安全数据安全内容安全IP 黑白名单SSL 证书WAF集成消费者鉴权后端服务鉴权API-KEY 管理KMS 集成AI 安全防护数据脱敏模型服务MCP 服务Agent 服务从网络安全、数据安全到内容安全,全面防护 AI 应用新开源:HiMarket AI 开放平台New Open Source:HiMarket AI Open Platform模型、MCP、Agent、安全,全方位的能力进化开源 HiMarket AI 开放平台管理 MCP、Agent开发者认证、鉴权开发者注册、访问管理者上架、审批、配额开发者门户开放平台后台SSOAI网关帮助企业构建 AI 开发者门户开源 HiMarket AI 开放平台整体架构Developer注册/SSO集成Consumer注册/凭证管理Product开放/展示/订阅/调试观测分析Developer维度调用Portal管理域名/样式/审批策略Product管理API/Document/PolicyDeveloper/Consumer 管理身份认证/RBAC/订阅管理观测分析多维度调用观测AI 网关Model/MCP/Agent开源Higress网关MCP ServerAPI 网关REST/HTTPAPINacosMCP/Agent构建SDK(POP/Higress/Nacos)门户后台:管理员配置基础设施:集成与统一管理开发者门户:深度集成与定制AI 开放平台门户AI 开放平台后台AI 网关/Nacoshttps:/ 网关 Serverless 版New Edition:AI Gateway Serverless Edition模型、MCP、Agent、安全,全方位的能力进化在核心产品能力上,完全对齐AI网关实例版,包括模型代理、MCP Server和Agent API产品能力按照调用量计费,相比实例版,最高可降低90%的成本产品定价自动升级,按水位自动弹性伸缩产品运维MCP模型模型/MCPMCPAgentAI 网关 Serverless 版发布AI 网关 Serverless 版百炼云市场FCCAP按量付费,大幅降低开通成本谢谢从 API 网关 到 AI 网关Higress 的演进之路张添翼From API Gateway to AI Gateway阿里云智能集团技术专家CONTENT目录Higress AI 网关的演进之路01强安全:毫不妥协的安全体系02高性能:极致的性能工程03高可用:关键任务的可靠性保障04开源开放:繁荣的生态系统052021年2025年2023年2024年2022年Higress AI 网关的演进之路Higress 项目从解决云原生时代核心痛点的 API 网关,凭借前瞻性架构设计和持续技术深耕,演进为业界领先的 AI 网关。在安全、性能、高可用及开源生态四大支柱上的深厚积累,为构建 AI 时代的中间件奠定了坚实基础。API网关安全基石AI 网关安全能力扩展1.边界防御:内置WAF、CC攻击防护1.内容合规审计:实时过滤不合规内容2.零信任架构:mTLS 双向认证3.强大 IAM:OAuth2/OIDC、JWT 等4.WASM 沙箱:内存安全的插件隔离2.PII 数据脱敏:敏感信息自动识别屏蔽3.精细化权限:模型粒度,MCP工具粒度4.安全围栏:LLM 特定安全策略强安全:毫不妥协的安全体系Higress 将为传统 API 构建的纵深防御安全模型,通过 WASM 插件机制无缝扩展至AI应用。WASM 沙箱架构是关键创新:允许用高级语言开发复杂 AI 安全逻辑,同时确保即使插件存在缺陷也不会危及网关核心稳定性。首 Token 延迟降低GPU 感知路由,无需增加硬件工具选择准确率提升工具精选优化API 网关性能优势AI 网关推理加速1.Envoy C 内核:无GC 开销1.AI LoadBalancer:GPU感知智能调度2.无重载架构:动态配置零抖动3.真正流式处理:降低内存和延迟4.卓越基准:比 Nginx Ingress 高 90%性能2.MCP 优化:工具调用精选多工具 Agent 提速处理 500 个工具的复杂工作流高性能:极致的性能工程Higress 从优化网络流量的组件演进为编排和优化计算工作负载的智能中枢。关键突破在于将“高性能”定义从网络延迟扩展到模型推理时间,通过智能请求管理有效降低GPU 计算负担。API 网关可靠性基础AI 网关服务 LLM 质量连续性1.高 SLA 承诺:99.99%高可用1.多 LLM 故障切换:服务商间互相兜底2.多可用区部署:跨AZ容灾3.Sentinel集成:自适应流控熔断4.自动故障管理:智能健康检查2.首 Token 超时防护:流式感知后端瓶颈高可用:关键任务的可靠性保障传统网关高可用关注“在线时间”,AI时代的高可用要求“服务质量连续性”。AI 网关可用性的关键在于:LLM 服务可能网络连通但功能不可用,需要基于响应质量和延迟的智能判断。开源 API 网关生态建设开源 AI 网关领导者1.20 流量网关插件1.20 AI 网关专用插件2.50 兼容 Nginx Ingress 注解3.GitHub Trending3次上榜4.每 1-2 月发布,累计Release 28次2.40 MCPServer 配置模板3.10 次进入 GitHub Trending 前三4.每 2-3 周发布,累计 Release 29次从 20 个传统插件扩展到 20 个AI 专用插件,持续创新能力从兼容 Nginx 注解到引领MCP 标准实现GitHub Trending 显示在 AI 开发者社区中加速增长的影响力开源开放:繁荣的生态系统Higress 将开源开放的社区生态与云厂商企业级的稳定性融为一体,从连接微服务的网络代理演进为调度 AI算力的智能数据平面。一周大模型调用请求量(测试数据)24 小时大模型调用 Token 量(测试数据)企业标杆案例:携程旅游 Higress 落地实践已接入商用、自研大模型共百余款具备稳定支撑日均数百万次大模型调用、百亿级 Token 吞吐量的能力各类 MCP Server 已经开始不断接入实践一:LLM 网关流量染色企业标杆案例:快手 Higress 落地实践基于请求的基础 Header查询其业务特征,并染色请求智能路由插件,基于染色信息完成调度决策实践二:LLM 计量系统用 Header 标记流量插件只推数据,旁路组件异步写使用 Clickhouse&Hive 存储日志请求1LLM Gateway流量染色插件Online 资源池(P2)请求1DeepSeek R1Qwen38bQwen2 VLOffline 资源池(P2)DeepSeek R2queryreturnPriority!=SheddablePriority=SheddableLLM-GatewayAI-Infra-BillingHTTP ServerBlobstoreKafkaHiveClickhouseConsumerConsumerClickhouseHiveKafkaJobJobKAS1.归一化token计算2.核心计费维度关联3.精细化折扣计算4.计费量推送用采集量推送企业标杆案例:蚂蚁 SOFA Higress 落地实践SOFA AI 平台基于 Higress的 MCP网关能力构建了一系列面向金融场景的 MCP服务,为智能体提供强大的“专业工具箱”。目前已经上架多个金融领域 MCP,如产品诊断、配置选品、行情解读、事件解读等。产品诊断行情解读事件解读Agent 场景(成品菜)MCP 服务(预制菜)Tools 工具数据源配置选品投教百科基金指数保险理财存款股票(A股)债券衍生品股票(港股)企业产品基本信息产品对比条件选产品产品一句话解读非条件选产品产品指标查询产品持仓信息产品赢率预测产品收益金融FAQ权威金融数据Kbase知识库客户内部数据媒体授权数据其他数据数据清洗AIDB 数据加工实体提槽ReRank 重排取数工具业务工具谢谢AI 时代的数据通道阿里云智能集团产品专家刘尧云消息队列 Kafka 的演进与实践The Data Channel of the AI EraCONTENT目录云消息队列 Kafka 版的演进路线阿里云云消息队列 Kafka 版近年的演进01云消息队列 Kafka 版 2025 年主要演进内容技术降本是 AI 时代大数据通道的基础02云消息队列Kafka 在AI 场景作为数据通道的思考03客户案例04加强 Kafka 端上数据上云的生态建设云消息队列 Kafka 版下阶段目标0520232025 H12025 H22024阿里云云消息队列 Kafka 版近年的演进技术降本是 AI 时代大数据通道的基础1200MB/s 的集群吞吐量,读写比 1:1,SSD 云盘三副本建设开源集群成本估算:60%的成本降低NEWKafka Serverless 基础版服务可用性 99.9%的 SLA,依靠使用者自助升配提升集群能力,一般建议用于测试或流量稳定业务场景。Kafka Serverless 标准版服务可用性 99.95%的高 SLA,最高两倍弹性,支持定时弹性,推荐用于生产环境的规格。NEWKafka Serverless 专业版服务可用性 99.99%的高 SLA,3AZ 环境容灾,RTO=数秒,RPO=0;10 倍无损秒级弹性,支持定时弹性,是推荐的企业级版本。Apache Kafka 数据流阿里云商业化 Kafka 数据流BrokerBroker存储计算层存储层热冷存储备份 2备份 3存储备份 2备份 3Broker状态/数据分离Broker备份 2Broker备份 3Broker存储Broker备份 2Broker备份 3加强 Kafka 端上数据上云的生态建设终端数据、MQTT 事件,基于 SQL 的数据处理能力,无需编写代码即可实现数据提取、过滤、转换、存储到Kafka,以加速应用集成和业务创新。云端一体的数据采集、分析MQTT、Kafka 数据流转示意图云消息队列 MQTT业务数据事件数据SQL 规则Kafka特性丰富的 MQTT 事件:订阅/取消订阅,连接/断联,消息确认,MQTT 协议层事件,更加透明,方便业务提取、应用在线调测:上线前在线调测,避免生产不可用数据格式化:Avro/Protobuf/Json Schema/Dynamic Json/None Schema 多种转换类型,数据处理更方便简单易用:SQL 语句提取、转化、过滤事件数据,简单易用端到端顺序:保障有状态数据上报的严格有序客户痛点场景1:车联网场景,指令下发确认指令下发后,服务端无法感知车端应用状态,需要额外开发上行数据,造成额外开发工作量以及网络流量。核心价值根据 MQTT 协议的确认事件,即可感知APP 端是否已接收消息,降低额外开发和流量客户痛点场景2:语音智能识别危险自研协议延迟高,完整链路开发工作量大,高并发场景后端资源容易面临打爆风险。核心价值MQTT Kafka 提供了轻量的端到云数据传输以及削峰填谷能力,减轻业务开发工作量,专注于业务本身逻辑,加速业务的快速上线。人工智能大致分类无论您的 AI 用例是什么,数据的时效性、质量、可信度和即时适用性与模型本身一样重要应用统计模型根据历史数据模式预测结果采用深度学习模型根据静态数据和实时用户提示快速创建定制的新内容%请添加标题文字内容%这里是普通内容文字%AI场景下数据特征非结构化或半结构化数据占比高AI 模型常需处理图像、音频、视频、文本、JSON、日志等非结构化或半结构化数据高吞吐、低延迟AI 系统(如实时推荐、异常检测、自动驾驶)通常要求实时或近实时响应数据语义复杂,上下文依赖强AI 训练和推理依赖大规模数据,数据流具有持续性(如24/7 运行),导致消息队列中数据累积速度快多源异构数据融合AI 系统常需融合来自多个系统的数据(如用户画像、行为日志、外部 API),数据格式不一致传统数据管道是数据问题的根源:不适合实时 AI 场景运营系统数据湖数据仓库ML/AIReports&DashboardsETL/ELT 管道分析系统反向 ETL安装了更多批处理工具逆转数据流从数据仓库和数据湖回到操作系统和应用程序用于“实时”业务场景数据库应用程序SaaS 应用分析系统Kafka Flink 为分析和人工智能解锁更快的数据价值从源头上管理数据,一次构建值得信赖的数据,并使数据可复用可复用数据仓库/数据湖标准数据产品运营数据库、SaaS 应用、定制应用、人工智能系统连接连接连接数据库应用程序SaaS 应用运营数据库应用程序实时ROI 可复用可信赖加工治理流干净数据可信数据已就绪数据ML/AIReports&Dashboards客户基于阿里云消息队列 Kafka 构建统一数据处理架构高吞吐与低延时:数据平台数据采集来源于车机端数据,由于终端数量规模大,需要消息队列Kafka支持大规格高吞吐,与此同时大数据平台需要处理和分析海量数据,因此实时性也有较高要求。数据持久化和可靠性:对于大数据业务而言,数据的持久化和可靠性至关重要。需要确保数据不会因为系统故障而丢失,从而保证业务连续性和数据完整性。高效管理成本和资源:大数据平台业务由于用车行为存在显著的潮汐波动,波峰波谷相差较大,导致资源利用率不均衡,低谷期容易造成资源浪费。需要在保持系统高性能和稳定性的同时,提升资源分配和使用效率,实现有效的成本控制。大规模集群增加运维复杂度:随着业务的增长Kafka 集群的规模也日益扩大(如多区域部署、多租户共享集群),运维复杂度显著增加,客户挑战大规格与高吞吐:实时性高,下游消费能力保证的情况下可以保证99.9%以上消息在毫秒级别;规格到10GB/s 以上的业务流量规格。稳定可靠:云消息队列Kafka 支持多可用区容灾体系,并达到了秒级RTO(恢复时间目标)和零RPO(恢复点目标)的高标准。即使发生整个可用区不可用级别的灾难性故障,系统也能在不丢失数据的情况下秒级恢复,确保数据的持续可用性和业务的连续性。灵活弹性:阿里云的KafkaServerless服务以其卓越的弹性能力为企业提供了更高效的资源管理和业务连续性保障。提供自适应弹性和定时弹性,为企业提供了一种灵活而高效的数据流处理解决方案。不论是在应对突发流量还是规划长期资源需求,该服务都能帮助企业更好地调整资源配置,优化成本支出,同时保障业务的高可用性和连续性。方案亮点阿里云消息队列Kafka服务在支持数据处理实现高效稳定运维方面展现了卓越的领先性无需系统级运维,提供全托管服务。存算分离架构升级、服务高可用、数据高可靠。兼容开源大数据生态、兼容阿里云特色生态。秒级弹性,灵活扩缩容,成本节省20%以上。客户收益相关产品:云Kafka服务 云Flink服务 云MaxCompute服务 云OSS服务标杆客户云OSS服务MaxCompute云Flink服务云Kafka服务函数计算日志、存储车载数据应用数据阿里云消息队列 Kafka 的下阶段目标打造面向AI场景的数据流平台数据处理转换、过滤、聚合数据集,数据复用数据关系可视化复杂数据关系,数据可信赖数据入表简化数据检索,节省成本数据流ConnectorSchema数据处理数据入表数据关系阿里云消息队列Kafka数据流平台数据流实时数据管道Connector丰富上下游生态,简化数据开发Schema数据一致性谢谢
2025-10-07
470页




5星级
重塑人工智能时代的绩效管理 2目录*除非另有说明,本报告中引用的数据来自美世 2024年人才管理调研。01演变中的绩效公式02未来的方向03颠覆常规04人工智能在管理绩效方面的作用05引人入胜的体验,.
2025-10-06
24页




5星级
中国信息通信研究院技术与标准研究所 2025年9月 AIAI 时代高品质全光算力专线时代高品质全光算力专线 研究报告研究报告 (2022025 5 年年)版权声明版权声明 本报告版权属于中国信息通信研.
2025-09-29
46页




5星级
打造越南人工智能初打造越南人工智能初创创企企业业Antler 观点:创业者如何在越南借势高杠杆机遇走向全球抓住东南亚下一波创新浪潮2越南正成越南正成为东为东南南亚亚初初创创圈最圈最值值得挖掘的得挖掘的.
2025-09-29
17页




5星级
MGlobal Insight全球主题与可持续发展 人工智能日益增长的“用水渴求”Morgan Stanley Asia Limited+符韡寧股票策师 Ehsernta.F +852 3963-37.
2025-09-28
14页




5星级
1目录 CONTENTS 01定义与背景 AI大模型的定义与分类AI Agent的定义与分类AI Agent的发展历程Agent=大模型+规划能力+记忆能力+行动能力AI Agent三级跃迁,产品形态.
2025-09-28
46页




5星级
十五五规划建议全文(25页).pdf
三个皮匠报告:2025银发经济生态:中国与全球实践白皮书(150页).pdf
三个皮匠报告:2025中国情绪消费市场洞察报告(24页).pdf
深圳人工智能协会:2025人工智能发展白皮书(144页).pdf
2025刘润年度演讲PPT:进化的力量.pdf
三个皮匠报告:2025中国AI芯片市场洞察报告(24页).pdf
清华大学:2025年AIGC发展研究报告4.0版(152页).pdf
三个皮匠报告:2025银发经济生态:中国与全球实践白皮书(PPT版)(55页).pdf
三个皮匠报告:2025年 i 人经济洞察报告:社恐如何重塑新消费市场(23页).pdf
三个皮匠报告:2025中国稀土产业市场洞察报告-从资源到战略武器,中美博弈的稀土战场(25页).pdf