《腾讯云:2025年Data+AI下一代数智平台建设指南(33页).pdf》由会员分享,可在线阅读,更多相关《腾讯云:2025年Data+AI下一代数智平台建设指南(33页).pdf(33页珍藏版)》请在三个皮匠报告上搜索。
1、Data+AI下一代数智平台建设指南本报告版权属于腾讯云计算(北京)有限责任公司,并受法律保护。转载、摘抄或利用其他方式使用本报告文字或观点的,应注明“来源:腾讯云计算(北京)有限责任公司”。违反上述声明者,公司保留追究其法律责任的权利。版权说明企业构建Data+AI平台需要具备哪些关键能力0306Data+AI未来发展0658目录Data与AI技术的可组装性/07端到端的Data+AI全生命周期开发与业务集成/07多模态数据(结构化非结构化数据)的处理与增强/07统一元数据驱动的治理与合规/07自主代理分析(Agentic Analytics)/07云原生弹性架构与多云部署/08驱动企业构建
2、Data+AI平台的核心要素0204主动选择:主要是针对头部企业在构建面对AI赋能的大数据平台时,需要突破现有的能力范畴,构建新的AI应用场景/05被动应对:主要是针对现有的数据资产通过AI赋能进行优化,以解决现有的问题,通过AI提升团队对数据资产的管理能力,降低整体成本/05Data+AI典型行业应用场景0556腾讯云数据分析智能体(TCDataAgent)(即将上线)/14腾讯云BI智能助手ChatBI/17WeData Notebook/19WeData DataOps/20WeData MLOps/22WeData Unity Semantics/24Oceanus流批增量一体化/27
3、数据湖计算DLC/28AI数据湖服务TCLake(即将上线)/29ES向量搜索/31TBDS多模态数据湖仓/32腾讯云数据库AI服务/36腾讯云向量数据库/38TDSQL-C/39腾讯云智能体开发平台TCADP/42腾讯云TI平台/43Data Platform数据平台解决方案/44Data Engine数据枢纽解决方案/46数据万象MetaInsight/48日志服务CLS/50腾讯云数据和智能安全/52腾讯云Data+AI产品方案及优势0409WeData Agent/11大数据智能管家TCInsight/34传统数据平台在应对生成式AI带来的新型数据需求时,正面临严峻挑战/02生成式AI
4、时代的数据挑战:企业转型的核心瓶颈0 101生成式AI时代的数据挑战:企业转型的核心瓶颈01数据是数字化时代企业的核心战略资产。生成式AI(GenAI)与大语言模型(LLM)的崛起,正深刻重构企业的生产力范式、协作模式、业务流程与组织架构。它推动企业从“部门割裂”走向“跨职能协同”,从“层级管控”迈向“网状协作”。在LLM日益商品化与生态多极化的背景下,提升数据管理能力以赋能业务价值,已成为企业唯一可持续的竞争差异点。DeepSeek R1等模型的开放与低推理成本加速了这一趋势,竞争焦点正从“模型竞争”转向“高价值数据资产竞争”AI发展的核心瓶颈日益凸显于数据质量而非算法本身,企业亟需构建系统
5、性数据工程能力,通过持续迭代优化数据(而非频繁调整模型)来释放AI潜能。Gartner表示,企业组织数据的关键差异不在于拥有多少数据,而在于拥有多少高价值数据,而这些数据是其他公司难以复制的。一家拥有宝贵数据却未能将其应用于人工智能和分析计划的公司,本质上是在迎接颠覆。然而,传统数据平台在应对生成式AI带来的新型数据需求时,正面临严峻挑战:Gartner研究表明,非结构化数据占当今组织数据的70%至90%。受生成式人工智能(Generic AI)计划、多模态数据处理需求的爆炸式增长以及合规性压力的推动,企业对非结构化数据管理的需求急剧增长。因此,非结构化数据处理支出在数据管理总支出中所占的份额
6、将越来越大。Gartner预测到2027年,专注于多结构化数据管理的IT支出将占数据管理技术和服务总IT支出的40%。传统数据处理工具在元数据提取、智能分块、摘要生成和高效向量化存储等方面能力不足,难以满足GenAI应用的复杂要求。升级工具链与方法论,是释放海量非结构化数据价值的先决条件。腾讯基于以上挑战,推出了开放、统一数据湖服务TCLake,混合搜索的ES;而应对私有化场景的海量非结构化、多模态数据挑战,腾讯也推出了TBDS多模态数据湖仓服务。如何激活沉睡的数据资产,释放非结构化数据价值AI的真正价值在于将企业蕴藏的庞大数据资产转化为可行动的智能。然而,调研显示企业AI项目平均落地周期长达
7、数周甚至数月,远落后于业务需求的快速迭代节奏。其核心瓶颈在于传统模式下,数据管理与AI开发严重割裂数据团队的工作台与AI工程师的训练/部署平台互不相通,形成巨大的协作断层。导致:如何打破壁垒,实现数据到智能的高效转化随着生成式AI在企业业务中加速渗透,海量、实时、动态的数据处理需求不断涌现:无论是客户服务中的对话生成、金融风控场景(譬如信用卡盗刷、秒级放贷),还是供应链中的动态预警,都对系统的吞吐能力、实时性和横向扩展性提出了挑战。如何驾驭数据洪流,应对海量数据高并发协作、实时数据处理的新挑战腾讯基于以上挑战,推出了Data+AI一体化解决方案:DLC+WeData DataOps+WeDat
8、a MLOps,将大数据与AI、机器学习等功能集成于一体,实现更好体验和更低成本。01-02时效性差:从数据到分析预测涉及多系统、多团队、多流程,响应迟钝(如零售销售预测因周期长导致库存问题)。效果不稳定:实验室里表现优异的模型,到了真实业务场景中常常“水土不服”(因为数据环境变了却难以及时更新),影响决策质量;重复投入成本高:数据工程师大量精力耗费在跨平台数据搬运、格式转换与系统对接上,而非创造差异化AI应用。02驱动企业构建Data+AI平台的核心要素然而传统数据架构为批处理而生,难以支持流式数据的秒级响应与动态查询;数据与AI的交互过程更进一步拉高了对数据读写和加工时效性的要求。腾讯基于
9、以上挑战,推出了Oceanus 深度融合流处理和AI,保障业务实时性。在生成式AI应用场景中,数据质量、合规性和安全保障 成为企业面临的核心难题。一方面,企业面临数据源激增、数据孤岛严重的挑战(据统计企业平均管理400+异构数据源);另一方面,企业需打造动态、可追溯的数据治理体系,避免“幻觉输出”与隐私风险。根据2023年Gartner分析和人工智能采用调查,解决风险和治理问题以及对发现的分析/指标缺乏信任是自助服务分析开发人员面临的最大挑战。根据2024年Gartner数据和分析治理调查,近一半的受访者认为“难以在不同部门/业务单位之间标准化数据”是其组织面临的最大D&A治理相关挑战之一。同
10、时,在上述2024年网络研讨会上,当受访者被问及不在ABI平台内利用GenAI的原因时,28%的受访者强调GenAI功能未得到内部安全/法律/合规团队(内部政策)的批准,另有20%的受访者提到对数据质量缺乏信心。然而,传统数据平台在数据治理上还有很多不足:缺乏统一的数据标准和业务口径;依赖静态规则,难以灵活应对生成式AI场景下动态多变的数据访问需求(如基于上下文的敏感信息实时脱敏);治理流程自动化程度低、效率差。企业需要更智能、更动态的数据治理和隐私保护机制。腾讯基于以上挑战,推出了WeData Unity Semantics和WeData DataOps,破解数据孤岛、业务技术鸿沟和治理难题
11、。如何构建可信的数据治理与安全体系生成式AI时代要求企业从数据中提升效率、获取洞察的速度大幅提升例如产品销售型企业需要更实时地解读客户反馈,供应链型企业要能更及时地预测物流风险。这要求三类人群快速提升数据能力:如何让数据智能赋能全员,加速组织效率然而,当前传统平台依然使得开发者陷入低效重复工程,业务人员的数据需求响应周期长达数周。导致组织难以挖掘数据价值、对于市场响应迟滞于竞争对手。为了让数据智能赋能全员,腾讯云推出了一系列智能产品,其中WeDataAgent服务数据工程&数据科学人员;TCInsight服务运维人员;针对业务人员、管理者如何能更高效获得洞察,腾讯推出了专注于解析数据的Chat
12、BI,和强调探索分析的TCDataAgent,真正促进组织转型。由此可见,生成式AI时代的数据挑战核心在于:挖掘非结构化数据的价值、打通数据到智能的转化壁垒、驾驭海量实时数据洪流的处理需求、构建可信的数据治理与防护体系,以及实现数据能力的全员普惠。数据工程人员需要提升效率:传统的编码方法需要手动拼接SQL和Python工具链,单个数据分析管道的部署通常需要数天时间。未来,AI增强的数据集成工具将使管道设计、错误修复和数据映射方面的人工工作量大幅减少。运维人员需提效:过往大企业需要多个5年以上经验的运维团队。但如果通过工具提效,运维团队需要的人数、所需经验都可大幅下降。业务人员需零门槛获得洞察:
13、一线人员因无法用自然语言直接提取数据(如“请列出上月退货率5%的产品”),被迫依赖IT团队中转,延误业务决策时机。自然语言将成为数据生态系统交互的标准接口,利用语义抽象来掩盖底层技术复杂性,从而显著提升业务用户的数据消费效率。03-0403企业构建Data+AI平台需要具备哪些关键能力数据资产是AI时代的“新石油”,而Data+AI平台则是驱动数据价值转化的“精炼引擎”。高质量训练数据决定LLM模型性能的上限,企业要在这场AI浪潮中胜出,必须构建Data+AI双轮驱动的一体化平台这是企业智能决策与业务创新的核心基石。通常来说,驱动企业构建Data+AI平台主要分为主动选择以及被动应对两个方面的
14、因素:主动选择:主要是针对头部企业在构建面对AI赋能的大数据平台时,需要突破现有的能力范畴,构建新的AI应用场景,包括以下两个部分:被动应对:主要是针对现有的数据资产通过AI赋能进行优化,以解决现有的问题,通过AI提升团队对数据资产的管理能力,降低整体成本,包括下面三个部分:大模型微调、多模态数据处理、提示工程等能力需要高度专业化人才;AI价值需通过人才实现从“技术可用性”到“业务适配性”的转化(例如将通用大模型改造为行业专属模型)。而统一Data+AI平台能够减少重复性投入:通过企业级Data+AI平台统一技术栈,避免各部门重复搭建数据管道、训练基础模型;破除单一数据源的协作壁垒,减少因数据
15、孤岛产生的内耗,降低跨部门数据对齐的沟通成本;可视化低代码工具让业务人员自主完成80%的常规分析,释放技术人才聚焦高价值任务。针对统一平台与数据基座降低“非必要成本”Data+AI能够提供更高效治理的数据(包括非结构化数据),让企业在AI实际落地的场景中去规避数据安全隐私的问题,减少AI的幻觉,增强用户使用AI所带来的用户体验和正反馈。需要提升数据治理的质量,以便保护已有的数据资产Data+AI能够让数据和AI团队在一个平台上进行协作,端到端的完成AI开发,数据管理为AI应用提供高效数据支撑,而AI又能反向增强数据管理的智能化水平(例如基于LLM构建Copilot等),进而形成Data和AI相
16、互促进相互提升的良性循环。构建数据和AI在统一平台高效联动提高快速应对业务复杂性的能力高层对于Gen AI等新技术对业务落地有紧迫性。而另一方面,市场上GPU资源非常难采购且非常昂贵。导致数据团队负责人需要在Data+AI部署时既要兼顾业务价值敏捷迭代又要兼顾投资费用。需要提升业务敏捷与控制创新浪费生成式AI(GenAI)与主动元数据管理结合,可自动化数据摄取、清洗及转换等繁琐流程,减少人工干预。通过统一数据生态系统整合分散的数据管理组件,减少多平台维护复杂度。自动化数据流程提升效率05-0607-08在技术高速迭代的时代,Data与AI技术的可组装性(Composability)已成为企业构
17、建数智平台的核心挑战。当前技术迭代速度飞快,技术生命周期缩短,关键组件的有效性窗口期急剧压缩。例如,AI领域的大语言模型平均每3-5个月即出现代际升级(如从GPT-3到GPT-4),数据管理领域的向量检索、湖仓一体架构等技术也在快速演进,半年前的技术方案可能在短期内被颠覆。单一技术很难长期占据核心地位。以数据平台为例,当前向量数据库因支持AI语义理解而成为关键能力,但随着图计算、神经符号系统等技术的发展,其地位可能被新型存储计算范式取代。在这种背景下,企业需要构建“可插拔式Data+AI平台”,通过模块化架构实现三大能力:将数据存储、计算引擎、模型服务等组件解耦为标准化模块,支持随技术迭代快速
18、更换。灵活替换通过API网关和微服务架构,无缝集成新兴技术(如量子计算加速器、新型多模态模型)。动态扩展避免因技术过时导致的“架构推倒重来”,仅需局部升级即可适应变化。成本可控Data与AI技术的可组装性Data+AI开发包括数据处理、模型构建及大模型训练等环节。平台需提供全面的开发工具,并实现从数据到AI模型的全流程管理,以确保数据与AI的深度融合。同时不同团队能在统一平台上高效协作,有效降低管理成本,提升开发效率。通过构建Data+AI一体化平台,显著缩短数据到AI的交付周期(从数月缩短至数周甚至更短),提升数据工程效率50%+。如:在金融行业,在新的监管政策下,需要快速实现合规报送,否则
19、面临处罚,客户通过平台实时数据管道整合交易、征信等多源数据,实现风险模型的快速迭代和动态调优,快速满足合规要求。端到端的Data+AI全生命周期开发与业务集成为确保AI应用的高效产出,平台必须兼顾数据的准确性、可用性和安全性,同时注重模型的质量和应用的实际效果。因此,平台需要涵盖Data+AI的元数据管理、数据质量、安全性等治理能力。通过构建一个治理框架统一数据语义,让企业区分数据责任人,数据使用者之间的关系,让数据使用的责任权利对等,对Data+AI落地过程中业务对数据使用的顾虑进行前期的管理。该平台应通过统一的治理方案,实现数据和AI的全面管理,以提升AI应用的整体性能和可靠性。统一元数据
20、驱动的治理与合规在Data+AI平台中,Agentic Analytics(自主分析)通过智能化的数据管理、自动化决策和主动式分析能力,显著提升了数据驱动业务的价值。例如自动化数据清洗:通过AI代理识别脏数据(如缺失值、异常值),并主动执行修复(如填充、插值);动态数据血缘追踪:自主记录数据来源、转换路径和使用记录,确保合规性与可追溯性。自主代理分析(Agentic Analytics)企业采用解耦的云服务架构(如逻辑数据仓库、数据湖),结合FinOps工具优化资源使用,实现跨云数据合规与成本可控。而收敛的数据管理平台进一步减少独立系统采购,企业通过多家战略供应商的集成套件构建统一的AI就绪架
21、构,使采购复杂度和运营开销得以降低。企业构建新一代Data+AI一体化平台需通过技术融合(如数据编织、RAG)、架构优化(多云解耦)及组织变革(技能升级),助力企业实现数据资产最大化利用、敏捷响应市场变化,并构建基于AI的持续创新能力。这不仅是技术升级,更是提升核心竞争力和业务价值的关键战略。云原生弹性架构与多云部署AI应用通常会涉及到结构化及非结构化的数据使用,因此Data+AI平台需要具备多模数据管理能力,方便企业在Data+AI开发过程中高效利用各种类型的数据,将多模态数据转化为机器可理解、业务可操作的“智能燃料”(Intelligent Fuel),驱动企业从“数据存储”迈向“数据驱动
22、”。多模态数据(结构化非结构化数据)的处理与增强腾讯云Data+AI产品方案及优势04面对生成式AI时代的机遇与挑战,腾讯云致力于通过Data+AI技术的深度融合与创新,为企业构建高效、智能的企业级Data+AI基础设施,加速企业的数智化转型与效率变革。腾讯云Data+AI平台以数据管理为核心,整合AI算力、数据存储分析、数据治理、安全管理以及AI模型训练与实时决策等产品服务,提供从数据接入到智能应用的端到端解决方案。09-10数据探索/数据工程/开发/科学Data AgentDataOpsMLOpsUnity Semantics数据工程/开发/科学数据探索平台层引擎服务层存储服务层腾讯云Da
23、ta+AI产品全景图统一元数据TCCatalog数仓TCHouse流计算Oceanus搜索服务ES云原生数据库向量数据库VectorDB智能管家TCInsight多模态数据湖仓TBDS腾讯云智能体开发平台数据湖EMR DLCAI数据湖服务TCDataAgentWeDataAgentWeData数据集成/开发/编排/治理WeData 腾讯云TI平台 TCADP模型训练/精调/推理/MCP/Agent工具WeDataTCADP统一语义层/数据模型/数据治理BI腾讯云BIChatBITelemetry Data Insight日志服务CLSNotebookWeData NotebookTDSQL-C
24、TCLakeLLM-WAFAI-SPM天御大模型安全网关数据安全网关KMSCloudHSM腾讯云数据和智能安全数据存储对象存储COS数据检索MetaInsight数据处理数据万象CI数据加速GooseFS高性能存储CFS Turbo智算存储NitroFS云硬盘CBS数据理解成本高数据业务含义不清,大量的复杂数据难以被业务人员直观理解,更难被AI理解。数据分析效率低数据的查询、报表的制作高度依赖IT支持或专业数据分析师团队,这不仅拉长了响应周期,难以适应瞬息万变的业务需求,也使得数据洞察的提取效率低下。数据理解与洞察能力搭建语言用户界面(LUI),通过自然语言交互支持代码生成、数据问答和指标分析
25、,让业务人员无需SQL知识即可对话获取数据洞察,真正实现数据民主化。智能规划与执行能力具备环境感知、意图识别和自动纠错功能,能理解复杂数据需求并规划最优执行路径,通过多工具调用能力将抽象需求转化为具体行动。系统集成与扩展能力支持MCP以及A2A协议,通过插件、API/SDK等形态,使得Agent更便捷被集成到客户业务系统、客户自建Agent系统中,极大的为业务系统中。缺乏统一治理与高效协作机制数据质量是数据分析与决策的生命线,企业普遍缺少灵活友好的治理协作工具,在数据应用中不断牵引数据治理的长效落地。在AI层面,通过如下核心功能提升数据分析效率并牵引治理落地逐步提升数据质量:WeData Ag
26、ent通过“Data+AI”双引擎构建了全链路数据智能解决方案。在Data层面,以指标平台和治理中心为落脚点打造统一语义层,实现维度建模、指标口径定义和元数据管理标准化,解决企业因数据标准不一、口径混乱导致的数据解读偏差和沟通障碍,显著提升数据资产的可管理性和业务含义的清晰度,极大降低数据理解成本。依托腾讯云大数据和大模型的基础建设和技术积累与开放的架构,WeData Agent可帮助用户快速构建基于自然语言交互的数据智能系统,IT部门 直接被赋能AI,从而专注打造服务企业业务的专属智能应用,业务人员无需专业SQL知识即可洞察数据,快速产出结果报表。数据团队从“数据提取服务商”升级为 企业数据
27、智能引擎的设计师和建造者 ,显著提升团队影响力和价值 ,加速数据驱动和AI应用的规模化落地 。应对方案WeData Agent基于多智能体协作的超级智能体,具备数据开发、数据治理、数据分析等专家能力数据工程专家数据治理专家数据科学专家数字营销专家数据分析专家自定义专家智能建表智能盘点代码生成智能notebook数据分析智能问数自定义知识 任务配置参数调优智能建模智能分类分级元数据增强质量洞察智能模型开发训练调优数据集智能洞察智能模型开发元数据增强自定义插件 自定义prompt广告投放策略生成敏感识别智能编排图表绘制结论总结联网数据分析报告撰写文档生成智能运维全域数据资产分散在不同系统的技术性数
28、据结构,难以直接应用于业务决策数据工程专家数据语义层连接底层数据与业务用户的桥梁,将技术数据转化为易于理解的业务概念WeData Agent基于多智能体协作的超级智能体,具备数据开发、数据治理、数据分析等专家能力WeData GUI辅助作为WeData助手,帮助用户在数据集成、开发、运维、治理等环节进行智能辅助以自然语言的交互形式,帮助用户完成任务以SDK、插件方式,可被集成在office、浏览器,客户系统中以API形式,可被客户集成到自己的智能应用中LUI独立入口SDK生态嵌入A2A协议WeData Agent基于多智能体协作的超级智能体,具备数据开发、数据治理、数据分析等专家能力协同价值数
29、据语义层为Data Agent提供可靠的知识基础和操作接口Data Agent赋予数据语义层更强的交互能力和智能分析能力通过丰富的生态对接能力,和客户共同构建智能、高效的企业数据分析生态系统全域数据资产打破数据孤岛,实现数据的互联互通和高效共享WeData Agent在席卷全球的数字化浪潮之下,数据已不再仅仅是信息技术的副产品,而是驱动业务创新、优化决策流程、构筑核心竞争壁垒的关键战略资产。然而,绝大多数企业在尝试从海量数据中汲取洞察、实现价值变现的征途上,普遍遭遇如下挑战:企业痛点11-12用数与治数双重驱动可迭代进化的数据智能体,支持用户问答的反馈、标注与协同治理,制推动数据质量的持续提升
30、,有效反哺Agent分析的准确度,形成数据优化与分析能力提升的良性循环。数据语义层连接底层数据与业务用户的桥梁,将技术数据转化为易于理解的业务概念可靠的数据和知识持续的反馈进化用户数据工程师WeData Agent基于多智能体协作的超级智能体,具备数据开发、数据治理、数据分析等专家能力使用场景及案例场景一:营销作战室的“智能参谋”营销策划人员可以通过Agent的自然语言界面直接提问:“请分析上个月参与A产品推广活动的核心用户群体画像,包括年龄分布、地域特征和主要兴趣点”,WeData Agent依托统一语义层定义的营销相关指标,自动整合来自CRM、用户行为日志、交易系统等多源数据,快速生成多维
31、度、可视化的用户画像报告。场景二:业务人员的“敏捷分析小助手”产品运营人员在发现某项用户指标异常波动后,可以向Agent提问:“帮我分析近期App日活跃用户数下降可能的主要原因,并对比不同用户分群(如新老用户、不同设备类型用户)在流失率上的差异”,Agent通过任务规划,可能调用预设的指标模型或进行多维度的数据钻取,给出初步的归因分析线索和数据洞察。场景三:数据治理的“智能管家”业务用户或数据分析师在对某个数据指标产生疑问时,可以通过Agent进行查询:“指标月度复购率”的具体计算公式是什么?它依赖哪些原始数据表和中间处理过程?”,Agent能够基于其掌握的元数据信息和数据血缘关系进行追溯,并
32、以清晰易懂的方式向用户解释该指标的来龙去脉。独特优势全链路解决方案不只是简单的AI问答工具,而是基于统一语义层的完整数据智能平台,实现从数据治理到智能分析的全流程覆盖,双向驱动。大模型与大数据专业技术双重加持腾讯在大模型与企业级大数据处理领域的技术积累共同支撑,确保理解准确性和专业水准。开放协同的生态构建潜力采用模块化组件设计,通过提供开放API、SDK等方式,有望与企业现有的各类信息系统(如BI系统、CRM、ERP、OA及各类行业特定应用)实现更深层次的融合与联动,让数据价值渗透到业务的方方面面。准确性在企业应用中,对AI Agent输出的质量要求很高;在财务等关键业务功能中,错误的容错率很
33、低;受控的数据访问AI Agent需要能够访问各种各样的数据源,以便其能够在业务背景下可靠地运行,这些数据源包括非结构化(例如文本、音频)和结构化(例如表、视图)数据源,它们通常分布在多个系统中。TCDataAgent可以正确理解用户意图,主动规划任务、使用工具来执行任务,并通过反思结果来改进响应。在执行任务时,TCDataAgent 会使用NL2SQL、NL2Py、AI Search、XPark等原子能力,同时结合大语言模型(LLMs),进行分析并生成答案。同时,TCDataAgent兼容标准MCP、A2A等协议,可以方便的被集成到第三方AI应用。为了解决这一问题,我们在今年推出腾讯云数据分
34、析智能体服务(TCDataAgent),旨在为企业提供一个全托管的智能体服务,用于整合、检索和分析结构化&非结构化数据,帮助用户更直观的理解数据,并提取有价值的洞察,同时企业用户也可以方便的基于腾讯云数据分析智能体(TCDataAgent)构建高质量的AI Agent。应对方案腾讯云数据分析智能体(TCDataAgent)(即将上线)随着GenAI技术的不断发展,我们相信AI Agents很快将成为企业劳动力的重要组成部分,释放员工的宝贵时间,使其专注于业务面临的更高价值的挑战。Data Agent是一种专门的AI Agent类别,专注于数据分析领域。Data Agent就像企业里的资深数据专
35、家,了解企业内各种复杂的数据结构、行业背景知识;熟练掌握数据预处理技巧,面对杂乱的原始数据,能快速有效的完成数据整合的工作;同时,能够深入洞察数据,预测未来发展趋势,并依据分析结果,为企业量身定制个性化的数据分析报告和决策建议。尽管模型的质量在不断提高,推理成本不断降低,我们发现企业在部署可信赖的AI Agent系统方面面临着以下共同挑战:展望未来,越来越多的企业将在关键决策工作流中部署代理分析,从而推动从人工驱动的洞察生成到自主的“数据到行动”循环的根本转变。与传统的商业智能(BI)系统相比,决策延迟将大幅降低,这意味着企业决策流程将发生根本性变革。过去,企业在Data-to-insight
36、的过程中采用分析工具,辅助决策;未来将无需人工持续输入,Data Agent即可主动进行数据分析,并给出洞察结果和优化建议。以零售行业为例,未来只需要把库存预测的需求委托给Data Agent,“分析最近三个月的销售趋势并预测下季度的库存需求”,Agent会自动连接到销售数据库,调用AI模型生成预测,并以可视化图表的形式呈现结果。并且,Agent还能主动提出建议,例如“根据趋势,建议增加A产品的库存,同时减少B产品的采购量。”企业痛点13-14腾讯云 TCDataAgent 技术架构灵活根据用户话题发起即时问询,直接获取数据结果或深度分析自动构建数据工程Pipeline,完成项目开发、调试、调
37、优等工作一站式构建基于企业知识库并与大模型无缝集成的智能搜索应用根据需求自动调用一体化平台,自动生成机器学习Pipeline智能分析(TCAnalyst)数据工程(Data Engineering)智能搜索(AI Search)机器学习(AutoML)应用场景数据配置语义理解模型配置意图/规划记忆管理会话管理Data Agent原子能力NL2SQL Code GenRAGDocumentAI数据科学XparkData AgentAgent 服务层TCCatalog语义层基础能力数据工程LLM 自动标注手动标注文档理解标签抽取数据集管理(训练/评测)Al Guardrails混元大模型 Deep
38、SeekRay on TKETCLake模型部署模型微调模型服务Workflow 服务提示词管理工具管理记忆管理意识识别多轮改写自主规划信息收集条件判断处理回复Semantic ModelGraphHybrid SearchTCDataAgent 应用场景使用场景及案例典型用例一:供应链预测某东南亚公司使用AI模型进行需求预测与销量预测,优化库存与供应链管理。但AI算法编写、调优复杂,模型周期长,预测效果不佳,且销售预测与需求预测数据协同性差,导致库存积压或短缺频发。TCDataAgent协助用户实现AutoML流程,缩短预测周期,并根据业务数据和场景持续迭代优化预测效果。针对预测结果,有效协
39、同销售数据与需求数据,输出建议支持决策,促进企业降本增效。典型用例二:视频智能搜索在电视台等传媒行业中,积累了大量的节目视频,在移动互联网下,很多人希望可以智能化地检索往期内容,查看相关节目视频。TCDataAgent支持用户构建视频RAG,将视频转换的文本存入TCDataAgent知识库,使用TCDataAgent智能搜索能力,检索出相关节目片段,关联视频智能反馈给客户,支持交互式对话和相关推荐。典型用例三:微信读书“AI 问书”微信读书是一个流行的在线阅读平台,为数亿用户提供海量的书籍、漫画、公众号内容,及在线听书等服务。ES支持书籍内容的智能检索,平台可以形成对搜索词的完整理解和认知,来
40、支持开放式问题回答、并支持书籍引源、猜你想问等丰富的互动能力。腾讯云大数据在数据分析领域经过多年沉淀,积累了一系列可供TCDataAgent调用的高质量数据分析工具,例如:结构化数据处理(TCAnalyst,支持自然语言交互),非结构化数据处理(AI Search、Document AI),高性能计算引擎(Meson),统一分布式计算框架(XPark)等。在这样的基础上,搭配统一的元数据服务TCCatalog和统一湖存储系统TCLake,腾讯云TCDataAgent可以为用户提供高质量、高性能的数据分析智能体服务。独特优势零售供应链优化零售数据整合预测模型训练预测分析&建议销售数据需求数据用户
41、数据智能数据选取特征预处理数据可视化探索多模型训练模型评估最优模型选择商品数据零售业务知识特征预处理模型训练数据预测销售数据预测需求数据预测TCDataAgent 智能搜索数据格式转换转换用户问题多路召回混合检索答案总结与关联推荐结果重排反问澄清多轮改写意图识别知识库模型服务读前了解书中解惑进一步提问生成式回答问题推荐15-16结构化数据处理与仅依赖模式匹配的典型text-to-SQL系统不同,TCAnalyst使用语义模型将业务术语映射到底层数据。这种方式在涉及多表关联的复杂业务场景中,有效提高了NL2SQL的准确率。非结构化数据处理ES是原生的混合检索服务,通过关键词搜索和向量搜索,能够为
42、非结构化数据(例如:文本、音频、图片等)提供大规模、高质量,低延迟的数据检索服务。结合“智能搜索开发”提供的 embedding,rerank等原子服务,能够轻松搭建RAG框架,支持创建智能问答应用,同时我们也提供智能文档处理(Document AI)的功能,帮助用户快速提取文档中结构化数据及文本内容。高性能计算Meson是腾讯云自研的融合、开放、智能的新一代高性能计算引擎,覆盖批处理、交互式分析、机器学习等多种场景,为TCDataAgent提供底层高性能计算保障。统一分布式计算框架Xpark是腾讯云自研的高性能分布式计算框架,兼容Python生态中常用DataFrame+ML接口,提供一体化
43、的数据分析、数据预处理、模型训练和模型推理能力。与TCDataAgent集成,通过自然语言进行数据分析、预测和辅助决策。对话式分析客户直接用自然语言提问,腾讯云ChatBI产品基于大语言模型能力/RAG/NL2DSL等技术,能准确理解客户的语义,执行数据分析并返回数据结论。这种产品能大幅降低数据分析的门槛,并且分析的耗时缩短到了秒级别。另外,客户可以通过配置知识库,把特定行业术语输入大模型,让大模型更理解行业场景,成为特定领域的分析专家。数据洞察报告基于大模型能力,ChatBI能对客户数据进行解读,梳理整体趋势、发现数据变化和原因,并且提供总结和建议;对于数据异常波动,还能进一步拆解影响因素,
44、给客户提供针对性的业务优化建议。客户还能输入解读模板,让ChatBI数据解读更契合客户的业务场景,甚至直接输出一份完整的图文并茂的数据解读报告。BI报表制作与分析在制作BI报表的场景,AI能力支持客户自动生成整份报表,支持对已有报表进行分析解读并生成完整分析报告。应对方案腾讯云BI智能助手ChatBI企业在进行BI数据分析时,往往需要设立专门的数据IT团队,通过定制化开发或者敏捷BI工具来制作报表,耗费人力、耗时较长;而且这种模式无法支持一线业务人员的数据分析诉求,因为难以有足够数据IT人力支持,而一线人员掌握自助式BI工具有一定的使用门槛。另外,一线人员缺乏专业分析师的方法论,难以快速得到分
45、析结论。在AI大浪潮下,企业期望通过AI技术降低门槛、提升分析效率。企业痛点基于腾讯业务的最佳实践腾讯云ChatBI脱胎于腾讯内部真实业务应用,覆盖腾讯云全业务经营分析场景,从高管到一线经营分析员工均使用腾讯云ChatBI进行数据分析,在效果调优和产品打磨都积累了丰富的实践经验。使用场景及案例独特优势场景案例一:零售行业经营分析某知名零售客户部署了基于大模型的ChatBI产品,除了应用在管理人员的财务数据分析场景外,重点是铺开支持全国门店的一线业务人员的数据分析场景,客户借助ChatBI大幅降低数据分析门槛,让广大一线人员也做到“人人都是分析师”,并且用AI技术发现业务问题,获取经营建议。场景
46、案例二:文旅行业经营分析某文旅央企,管理层除了查看固定报表的核心数据外,还需要每天灵活提问各种经营数据,之前需要大量数据IT人力支持。部署ChatBI产品后,覆盖了客户几十个业务场景,并且通过差异化的知识库配置,满足了不同管理人员各个角度的数据分析诉求。基于AI的洞察建议,帮助客户提升了经营效率。数据分析垂直场景深度优化行业化NL2DSLNL2SQL引擎,内置专属语义解析器,支持自定义行业计算模板,能直接生成复杂逻辑SQL;统一查询层抽象,无缝适配MySQL、Hive等多源异构数据库,自动处理字段类型差异。企业级精细颗粒度的权限体系采用RBAC+ABAC混合模式,实现多层级权限隔离,支持行列级
47、精细控制;自动记录查询全链路日志,满足合规审计需求。BI原生可视化能力基于腾讯云BI能力,支持丰富精美的可视化图表、流畅的交互式分析体验。17-18因此,企业需探索更高效的工作流程和工具,优化环境配置、提升数据获取速度,并实现有效的资源隔离和共享,以更好地利用Jupyter Notebook,推动数据驱动决策的进程。为了解决上述痛点问题,WeData推出了Notebook探索功能,旨在为用户提供一个开箱即用的交互式分析IDE。这一创新功能不仅简化了数据分析的流程,还通过与WeData上下游链路的无缝对接,实现了数据处理、模型训练和分析流程的一体化,极大地提升了用户的工作效率。应对方案1.用户常
48、需进行繁琐的环境准备和服务配置,这包括安装所需的库、配置数据连接和设置计算资源等。这一过程不仅耗时,而且容易出错,尤其对于初学者来说,存在较高的操作门槛。2.企业通常构建了数据湖和数据仓库等大数据存算引擎,通过自建Jupyter Notebook的方式进行数据分析时,数据获取效率较为低下,尤其在处理海量数据时,提取所需数据变得困难。3.在企业多用户环境中,文件和资源的共享与管理变得异常复杂,需要解决团队协作过程中的数据冲突、版本控制、资源竞争等问题,确保团队工作的效率和效能。使用场景及案例快速完成环境搭建用户在使用WeData时,无需手动安装Python环境和配置环境依赖,可以一键创建Note
49、book工作空间,真正做到开箱即用。工作空间内置Scikit-learn、Tensorflow、Pytorch等镜像,方便用户进行数据预处理、机器学习模型训练和数据预测性分析。无缝对接大数据引擎Noteobok工作空间支持与腾讯云EMR和DLC大数据引擎进行绑定,自动获取集群配置信息。用户可以直接向大数据引擎提交Notebook任务,复用引擎的计算资源,同时快速读取引擎中的数据进行交互式分析。完善的资源隔离和共享机制在团队协作场景下,WeData提供了独享的Notebook运行环境,确保用户之间的资源和配置互相隔离。同时支持文件级别的权限控制,用户可以根据需要设置不同的访问权限,从而确保敏感数
50、据的安全性和隐私性。WeData NotebookJupyter Notebook作为一种交互式分析集成开发环境(IDE),在数据分析、数据科学和人工智能(AI)领域中已成为不可或缺的工具。它以灵活性和可视化能力帮助用户快速探索数据和构建模型。然而,在使用Jupyter Notebook进行数据分析时,用户往往面临以下痛点问题:企业痛点金融行业:风险分析与预测某金融行业客户,风险管理是核心任务之一。在信贷审批过程中,利用Notebook构建信用评分模型,以评估借款人的违约可能性,从而优化贷款决策,降低不良贷款率。医疗行业:疾病预测与分析某医疗行业客户,通过Notebook训练机器学习模型,识别
51、糖尿病患者的早期迹象并预测患者的疾病发展,根据预测结果制定个性化的治疗方案,提高患者的治疗效果和生活质量。零售行业:客户行为分析某零售行业客户,分析客户行为和购买模式是提升销售的重要手段。客户利用Notebook构建推荐系统,向客户推送个性化的商品推荐,从而提高转化率和客户满意度。此外,通过分析客户流失率,可以制定针对性的营销活动,增强客户忠诚度。独特优势智能的IDE开发体验WeData将Notebook任务与数据集成、开发任务整合到一个平台中,提供统一的集成开发环境,屏蔽底层技术架构对用户体验的差异。深度集成Git版本管理系统,支持基于Git的协同开发和版本管理流程。支持多人在线协作,团队成
52、员可以实时共享进展和反馈,提升数据科学和开发工作的效率和质量。Data+AI一体化处理链路WeData Notebook探索深度对接腾讯云大数据引擎,通过结合DataOps的工作流编排、调度、运维一体化流程,实现数据从开发到生产的自动化部署。无缝对接MLflow进行实验和模型管理,可快速实现从数据预处理到模型训练和评估的完整流程,打通了从数据开发治理到AI开发应用的全链路。丰富的AI生态对接WeData Notebook探索提供基于DeepSeek的工作空间模板,支持用户快速启动DeepSeek AI应用开发。对接腾讯云AI引擎TI平台,可以将Notebook文件提交至高性能平台进行训练。内置
53、基于腾讯云混元和DeepSeek的AI代码助手,可以协助完成代码编写、代码注释、代码纠错等工作,数据开发更加高效和智能。19-20WeData DataOps在Data+AI的迅速发展的时代,企业面临数据源激增、数据孤岛严重、开发运维割裂等挑战。据统计,企业平均管理400+异构数据源。传统数据管理模式存在开发周期长(平均2-3个月)、故障定位难、数据质量无保障等问题。特别是AI时代,80%的时间耗费在数据准备上,严重制约了企业数字化转型和智能化升级的进程。DataOps通过将DevOps理念引入数据领域,构建了完整的数据全生命周期自动化管理体系。企业痛点DataOps应对方案敏捷数据开发提供可
54、视化数据流编排、智能代码生成、自动化测试框架,显著提升开发效率。通过丰富的数据源连接器,支持可视化开始开发、代码开发和可视化编排,降低技术门槛。智能质量管控基于机器学习的异常检测引擎,实现数据质量问题的主动发现和自动修复。构建完整的数据质量指标体系和规则引擎,从源头保障数据可信度。使用场景及案例通过上述能力的有机整合,DataOps实现了数据开发运维的自动化、标准化和智能化,从根本上解决了企业数据管理的效率、质量和成本问题。全链路可观测提供端到端的数据血缘追踪、实时性能监控、智能故障诊断。基于AIOps技术实现预测性维护和智能调优,大幅缩短故障恢复时间。AI-Native集成原生支持特征工程自
55、动化、模型版本管理等AI开发运维能力。通过AutoML技术简化模型开发流程,加速AI应用的迭代创新。持续集成部署建立数据管道的CI/CD流水线,实现从开发到生产的自动化部署。支持代码审批、打包发布等高级发布策略,确保变更安全性和业务连续性零售电商场景在全渠道营销中,DataOps实现了客户数据的实时整合与智能分析。打通线上线下数据孤岛,构建360度客户画像,支撑精准营销和个性化推荐。从数据接入、数据开发、任务测试、任务提交、任务发布到业务标签计算到营销触达的端到端流程实现自动化,提升了营销效率和客户体验。金融行业实践在风险管理场景中,DataOps平台支撑了从数据采集、特征工程到模型部署的全流
56、程自动化。通过实时数据管道整合交易、征信、行为等多源数据,实现风险模型的快速迭代和动态调优,显著提升了风险识别的时效性和准确性。21-22独特优势企业级安全合规保障针对不同行业的数据安全和合规诉求,WeData构建了完善的安全管控体系。从租户隔离、权限管理,每个环节都严格遵循数据安全最佳实践。无论是金融行业的强监管要求,还是制造业的知识产权保护,WeData都能提供相应的安全策略和合规方案。多场景适配的灵活架构WeData针对企业复杂多样的数据管理需求,提供了全方位的DataOps解决方案。支持不同租户账号的跨环境发布,满足大型企业集团的多级管控需求;实现同租户环境的跨项目发布,便于部门间的协
57、同开发;提供单个项目内的多引擎实例发布功能,确保开发测试生产环境的平滑迁移。这种多层次、多维度的发布能力,充分适配了不同企业的组织架构和管控要求。原生开发体验的无缝集成WeData深度集成Git版本管理系统,支持基于Git的协同开发和发布流程。开发人员可以沿用熟悉的开发工具和工作流,通过Git进行代码管理、分支合并、版本回滚等操作。这种原生集成方式不仅降低了学习成本,更重要的是保留了开发团队的既有工作模式,实现了DataOps理念的平滑落地。通过上述差异化能力,WeData不仅提供了技术先进的DataOps平台,更重要的是真正理解并满足了企业在数字化转型过程中的实际需求,帮助企业构建适合自身特
58、点的数据开发运维体系。依托腾讯云底座能力以及在Data和AI领域深厚的积累,WeData今年将在原有的数据平台基础上进一步打造如下图所示的AIOps功能架构,实现数据管理-数据开发-模型训练-模型加工-服务交付的全流程贯通,达成高效和完善的AI开发全生命周期管理,并实现如下几大特性,从而精准解决企业业务/IT中的痛点问题。MLOps应对方案过程可管理,实验可复现数据/特征/环境/代码均可进行存档管理,并且数据/代码/配置/模型/超参数/流水线均严格按照版本进行管理,并记录关联关系,模型出现问题可快速进行“归零”,一步步从服务向前回溯到数据,发现根因并解决。模型可评估,效果可管控实现端到端集成测
59、试,并支持非功能需求测试(安全性/公平性/可解释性/负责任的AI等),必须满足相应标准才可进行上线/更新。模型可部署,服务可监控支持云端部署,并支持服务性能指标、模型效果指标、数据漂移等多种监控方式,保障服务线上效果。全流程开发自动化支持云端部署,并支持服务性能指标、模型效果指标、数据漂移等多种监控方式,保障服务线上效果。模型投产消耗远超预期Algorithmia2020:64%的企业部署一个新模型花费超过一个月的时间,55%的ML项目停留在实验阶段。模型服务不可持续模型迭代并部署上线的速度无法及时响应业务需求的快速变更。从上线的那一刻开始模型存在降级退化风险(数据漂移)。模型全生命周期难管理
60、代码、数据、算法、模型等资产缺乏统一的版本管理及可追溯能力。企业在ML/AI生产至应用过程中缺乏相应的规范。跨团队协作困难不同团队的工具和工作流程差异大。业务团队、运维团队和AI团队间的孤岛效应、沟通鸿沟无法逾越。WeData MLOpsMLOps的核心是通过解决以下四个企业业务/IT中的痛点问题,从而实现企业大规模AI开发的降本增效目标:企业痛点23-24工作流worflow资源管理、账号管理、权限管理、监控报警、储存管理腾讯云统一Catalog服务/一体化Lakehouse储存底座(支持创建自动化流水线)数据阶段开发阶段模型阶段服务阶段数据回流数据清洗/增强/质量评估数据探索LM训练(精调
61、、蒸馏)模型评估与选择模型压缩服务镜像管理批量预测在线预测服务监控(指标、漂移)server(插件)市场/知识库管理 数据标注(人工/自动)实验管理(超参、模型、代码、数据.储存)模型管理(注册/导入导出/可视化)自动启停/自动扩缩容/灰度发布Notebook开发工作区(AutoML/AutoDL)数据源对接、导入导出(Embedding)服务/agent编排(特征库、特征选择和处理、特征血缘、导入导出)特征管理(MLflow、ML模型、AI模型库、LM模型库、可视化)开发镜像/组件库管理使用场景及案例腾讯云WeData的MLOps能力有如下独特优势:独特优势场景一:持续训练与模型更新问题:数
62、据分布随时间变化(如用户行为、市场趋势),模型需动态更新。案例:电商推荐系统中,根据用户实时点击和购买数据,自动触发模型重新训练,保持推荐准确性。场景二:监控与漂移检测问题:检测模型性能下降或数据分布变化(如数据漂移、概念漂移)。案例:信用评分模型,监控输入特征分布变化(如收入区间偏移),触发告警或重新训练。场景三:资源优化与成本控制问题:管理训练/推理资源,平衡性能与成本。案例:云服务自动扩缩容,根据推理请求量动态调整GPU实例数量。场景四:端到端AI产品生命周期管理问题:从数据准备到模型退役的全流程管理。案例:智能客服系统,自动收集用户反馈数据清洗重新训练灰度发布全量替换旧模型。WeDat
63、a已经建设了强大而完善的数据存储、治理、开发等产品能力,进一步提供MLOps能力,实现Data和AI的一体化,可以更好的帮助客户贯通数据-模型-服务的全流程,更好的管理模型和数据之间的关联关系,实现更强大的MLOps能力。依托腾讯云的强大底座,有充足的资源支持、稳定的服务提供、多地域的能力支持、强大的产研开发团队、可靠的交付维保能力,支持客户放心的进行相关业务上云,实现数据价值的二次发现和利用。通过构建统一语义层,打破巴别塔困境,让财务、运营、技术等部门用同一种“语言”理解数据、分析数据。统一语义层并非单一的技术点,而是一套系统性的解决方案,它从技术架构创新、业务价值重塑和生态系统构建三个维度
64、出发,为企业数据能力建设注入了新的动能,有效地破解了数据孤岛、业务技术鸿沟、治理难题和效率瓶颈。应对方案多源异构数据可信语义层WeData智能加速多级缓存智能路由DAG优化器联邦查询数据概念逻辑模型全城数据资统一元数据元数据向量化混合检索SemQLRest APISDK嵌入式组件语义建模数据知识APIUnity Semantics智能应用新生态数据标准指标语义一致性维度MySQLAgent&ChatBIBI工具智能检索文档、office嵌入式分析DorisHiveStarrocksLakehouseClichousePostgresTr-houseWeData Unity Semantics企
65、业痛点数据孤岛与集成复杂性:协同分析的壁垒在多数企业中,数据往往分散在各个独立、互不联通的业务系统中。这种“烟囱式”的信息化建设模式,导致不同系统间的数据在格式、存储方式、接口标准等方面存在巨大差异,形成了所谓的“异构系统”壁垒。这使得企业难以获得全局、统一的数据视图,数据如同散落的珍珠,难以串联成展现业务全貌的项链。数据孤岛直接导致企业无法进行有效的跨域数据分析和深度价值洞察。任何需要整合多个数据源的分析项目,都面临着漫长的数据集成周期、高昂的开发成本和不可预知的风险。业务理解与技术鸿沟:价值转化的“最后一公里”难题数据分析的最终目的是服务于业务决策,但业务人员与数据技术团队之间往往存在显著
66、的“语言”障碍。业务人员可能难以用准确的技术术语描述其复杂多变的数据需求和背后的业务逻辑,而数据分析师和工程师则可能因为缺乏对具体业务场景的深入理解,导致产出的数据分析结果与业务实际需求脱节,出现“供需错配”的现象。业务理解与技术鸿沟直接导致数据分析需求响应迟缓,分析成果难以转化为可指导行动的业务洞察。IT部门常常疲于应付不断涌现的、解释不清的临时数据需求,而业务部门则因数据支持不到位而满意度低下。最终,企业期望通过数据驱动决策的战略目标也因此变得遥不可及。数据治理与一致性挑战:可信数据的基石不稳,Data Agent可靠性不足许多企业虽然积累了海量数据,但数据的质量却不容乐观。缺乏统一的数据
67、标准和业务口径,导致各类数据质量问题频发,如数据不准确、不完整、不及时、不一致等。数据治理体系的设计往往复杂,强调数据的全生命周期管理、标准化、一致性和可追溯性,但在传统架构下难以有效落地。不可信的数据,导致Data Agent落地困难。开发效率低下与维护成本高昂:敏捷响应的沉重枷锁传统的数据开发模式,特别是依赖大量手工编写ETL脚本的方式,往往流程冗长,难以快速响应业务需求的变化。数据管道复杂且脆弱,一旦某个环节出现故障,排查和修复过程往往耗时费力。IT资源被大量消耗在低价值的重复劳动和繁琐的系统维护上,难以集中精力支持业务创新和快速响应市场变化。25-26NoETL引领数据工程新范式NoE
68、TL(或称Zero-ETL,ETL-less)的核心思想是通过数据虚拟化、自动化元数据管理、智能查询优化和联邦查询等技术,最大限度地减少甚至消除传统数据仓库中大规模、周期性的物理ETL过程。统一语义层在NoETL架构中扮演着至关重要的角色。它定义了业务用户视角的数据模型、业务对象及其之间的逻辑关系。NoETL技术则依据这些语义定义,动态地连接、查询并整合位于不同物理位置的底层异构数据源。这意味着数据可以在其原始位置被访问和使用,实现了“数据不搬迁,语义在线化”。这种组合拳有效地解决了数据孤岛问题,使得企业能够快速响应业务变化,按需获取和分析数据,而无需等待漫长的ETL开发周期。Headless
69、 BI实现语义与展现分离,驱动分析应用创新Headless BI的核心思想是将数据分析的“大脑”(即语义层,包含数据模型、业务逻辑、指标定义、计算口径等)与“面孔”(即数据可视化、报表工具等展现层)进行解耦。在这种架构下,语义层成为一个独立、可重用的组件,能够为多种不同的前端分析工具和应用提供一致的、标准化的数据服务和指标定义。其核心价值在于实现“指标一次定义,全场景复用”,避免了在不同BI工具或应用中重复定义指标、维护多套逻辑的混乱局面。统一语义层正是Headless BI架构中的那个“大脑”。它承载了企业范围内标准化的业务术语、关键绩效指标(KPIs)的计算口径、维度层次结构以及数据模型。
70、通过API等方式,这个集中的语义层可以向各种上层应用无论是传统的BI报表工具、敏捷BI平台、数据科学家的Jupyter Notebook,还是新兴的自然语言查询(NLQ)应用乃至大语言模型提供一致、可信的数据语义接口。这不仅极大地提升了数据分析的效率和结果的一致性,还使得企业在选择或更换前端分析工具时具有更大的灵活性。融入现代数据架构(如Data Fabric/Data Mesh)Data Fabric(数据编织)和Data Mesh(数据网格)架构理念中,统一语义层扮演着更为关键的角色。在Data Fabric中,语义层是实现数据“可发现、可理解、可信任、可互操作”的关键,有助于自动化元数据
71、管理和数据集成。在Data Mesh中,各个业务领域(Domain)在自治管理其数据产品(Data Product)的同时,需要通过共享的、标准化的语义层来实现跨领域的数据理解和互操作性,确保领域自治与全局一致的平衡。统一语义层为这些先进数据架构的落地提供了核心技术支撑。某零售企业全链路用户增长分析零售电商企业通常拥有线上(APP、网站、小程序、第三方电商平台)和线下(实体门店)等多个用户触点。统一语义层能够整合这些多渠道的用户数据,包括浏览、点击、搜索、加购、下单、支付、评价、退换货等全链路行为,构建统一的用户行为指标体系(如访客数、转化率、客单价、复购率、流失率等)。通过这些语义化的指标,
72、企业可以清晰洞察用户在整个消费旅程中的行为模式、偏好、痛点和关键转化节点,进而优化营销策略、改进产品设计、提升用户体验,驱动业务增长。例如,自然堂集团与观远数据合作的问数GPT项目,通过大模型结合BI,利用统一的数据口径,加速了数据分析需求的响应。通过统一语义层构建可靠指标体系,释放业务自助分析潜力,支撑企业商务智能(BI)分析。某互联网科技企业敏捷A/B测试,快速基于数据驱动验证迭代效果互联网产品(如社交应用、搜索引擎、内容平台、在线游戏等)的优化和功能迭代高度依赖A/B测试。统一语义层通过对核心业务指标(如日活跃用户DAU、次日留存率、用户平均使用时长、点击率CTR、转化率CVR、付费用户
73、比例等)进行标准化定义和统一计算,能够支持大规模A/B测试的高效部署、数据自动采集与科学评估。产品和运营团队可以基于一致的、可信的指标数据快速判断不同策略的优劣,从而做出更明智的产品决策,驱动产品的敏捷优化和快速迭代。使用场景及案例独特优势生态链接层:提供Restful、JDBC、gragphOL、JS SDK、Python SDK、office文档插件等丰富的下游生态对接能力。语义建模层:元数据管理、业务术语定义、维度建模、指标建模、构建统一的业务语义模型。自适应加速层:基于HBO、CBO的自动物化加速配置,根据用户query的智能数据源路由,多级缓存加速。数据源层:结构化数据、半结构化数据
74、、非结构化数据,企业各类数据源。数据编织层:基于统一数据目录,进行数据跨源异构数据源的组织逻辑编织,形成企业统一数据逻辑图,打破数据孤岛。元数据管理的业务化升华:传统元数据管理更多关注数据的技术属性(如表结构、字段类型、存储位置等),对业务用户而言如同天书。统一语义层通过将这些技术元数据与业务概念(如业务术语、业务对象、指标定义、数据域划分)进行映射和关联,将纯粹的技术描述“翻译”成业务人员能够理解和使用的“数据语言”。这是构建真正面向业务、服务于业务的数据资产目录的核心所在。数据资产目录的目标是让数据管理方掌握自己有哪些数据,数据的共享级别和安全等级等。提供统一的数据发现与理解门户:基于统一
75、语义层构建的数据资产目录,如同企业的“数据地图”和“数据活字典”。用户可以通过熟悉的业务视角(如按业务主题、业务流程、指标名称等)进行搜索、浏览和理解数据资产。目录不仅展示数据的基本信息,还应清晰揭示数据的业务含义、计算逻辑、数据来源、更新频率、质量状况、负责人、使用权限等关键信息,帮助用户快速找到所需数据并准确理解其内涵。构建全域数据资产目录:实现数据的可知、可懂、可用、可运营语义建模赋能大模型时代智能分析:破解语义匮乏与“幻觉”难题为大模型提供精准、一致的“企业知识上下文”:统一语义层将企业的业务规则、指标体系、维度层次、数据之间的逻辑关系等,以结构化、标准化的方式定义和组织起来。这相当于
76、为大模型提供了一个关于该企业业务领域的“真理知识库”(ground truth)和精准的“上下文环境”。当大模型接收到用户提问时,可以参照语义层中的定义来消解歧义、理解真实意图,并生成更贴合业务实际的回答。连接自然语言与结构化查询(Text-to-SQL的“翻译官”):对于涉及结构化数据的分析需求,统一语义层扮演了关键的“翻译官”角色。它能够帮助大模型将用户的口语化、自然语言提问,准确地映射到语义层中定义的指标、维度和业务对象,进而将其转化为可执行的后端数据查询指令(如SQL)。这大幅提升了Text-to-SQL的准确率和鲁棒性,使得非技术用户也能通过对话方式与数据进行交互。基于NoETL理念
77、的物化表、自适应加速:提升开发效率基于指标、维度生成物化表,无需创建ETL调度作业,提升数仓汇总表开发、维护效率,同时统一口径提升数据可信度。SemQL(Semantic Query Language),统一语义层查询语言SemQL以类SQL语法支持指标、维度、模型的查询能力,并提供JDBC接口,方便下游系统和用户使用,智能分析从原来的Text to SQL转向Text to SemSQL可以降低幻觉提升准确度。27-28企业在流式数据开发与运维中面临三重挑战:开发效率低下、运维成本高企、实时AI能力缺失。复杂的Flink/SQL代码编写依赖人工经验,调试与优化耗时耗力;随着数据任务规模扩大,
78、传统运维手段难以精准识别异常,误报率高且日志分析效率低下;同时,传统AI分析需将数据离线导出处理,导致风控、推荐等场景响应延迟高,无法在数据产生时直接调用模型,实时业务价值难以释放。企业痛点Oceanus通过AI驱动的代码开发与智能运维管理,结合流处理与实时AI深度融合,系统性解决企业痛点。在代码开发侧,AI基于Flink语法和上下文语义,智能补全流式数据处理代码(如自动生成窗口函数逻辑),并针对SQL执行计划与资源消耗提供优化建议(如索引优化、并行度动态调整),开发效率提升。同时,AI实时检测语法错误(如算子配置错误)和性能瓶颈(如内存溢出风险),减少调试时间。在运维管理侧,AI通过分析历史
79、数据与实时指标(吞吐量、背压等),预测异常趋势(如数据积压)并提前预警,结合任务健康评分机制优化资源分配。AI还可精准过滤无效日志,定位根因(如服务调用超时链路),并自动生成运维报告,将故障定位缩短。同时,Flink CDC 3.3原生支持在数据流处理中动态调用AI模型(如OpenAI),实时对数据库变更数据执行智能排序、语义分析或欺诈检测。结合检索增强生成(RAG)技术,实现端到端的低延迟处理,例如在用户行为数据产生瞬间生成个性化推荐内容,彻底打破离线分析的效率瓶颈。应对方案某银行在实时风控场景中,通过Flink CDC捕获交易流水,动态调用AI模型分析交易金额、IP地址等特征,实时拦截高风
80、险交易,将风险响应速度从分钟级压缩至秒级,日均拦截量增加,误判率降低。在电商领域,某平台基于用户实时浏览行为,利用RAG技术生成动态推荐列表并推送至前端,推荐转化率提升,用户停留时长增加。此外,某互联网公司借助AI日志分析自动识别Flink任务内存配置问题,优化后任务中断率下降,运维人力成本减少。使用场景及案例独特优势Oceanus流批增量一体化数据湖计算DLC 过去,大数据及AI计算资源不统一,客户需要分别为大数据及AI购买不同的资源,两种资源隔离,无法互相复用。此外数据需在Data和AI体系中流动,降低时效性并进一步增加成本。企业痛点腾讯云数据湖计算DLC结合腾讯云一站式数智平台WeDat
81、a,提供DataOps+MLOps一体化平台解决方案。具体在传统成熟的数据工程链路上,面向企业级机器学习场景进一步提供一体化的DataOps+MLOps能力,从而实现一份数据&计算资源for数据工程和ML训推,提供一体化、更简便易用、性价比更优的新一代数据平台解决方案,实现数据工程、SQL、ML等功能集成于统一平台,价值包括:应对方案统一notebook开发界面统一元数据DLC一体化Lakehouse存储底座统一任务编排统一数据资产治理统一项目空间WeData统一开发编排及治理界面融合DataOps+MLOps的一体化CI/CD PipelineDataOps数据采集数据开发数据编排数据监控数
82、据治理大数据编排工作流MLOps大数据编排工作流模型应用在线推理离线推理MLFlow结构化数据 Table Catalog非结构化数据 Volume CatalogTablesViewsFunctionsModelsAI FunctionsModel Catalog模型训练数据验证模型上线模型调优模型下线样本清洗数据分析模型注册模型调用PDFJPGWAV全栈式流处理+AI能力实现Flink CDC与AI模型原生深度集成的平台,支持流式数据无需落盘即可调用AI服务,保障端到端极低延迟。腾讯行业级场景验证腾讯海量高并发场景,可支撑每秒百万级数据处理。腾讯云丰富AI生态腾讯云内部生态丰富,如腾讯云T
83、I平台、OpenAI等主流模型库,支持快速接入自定义模型,覆盖风控、NLP、CV等多领域。智能化全生命周期管理从代码开发(AI补全)、任务运维(健康评分)到实时决策(RAG增强),提供闭环AI辅助工具,降低技术门槛50%以上。更好体验一体化平台可同时完成Data和AI应用的开发更低成本一份计算资源在Data+AI中复用,减少成本多负载性能优化提供算子下推、热数据加速等多负载性能优化,满足Data+AI各场景业务响应需求。开放引擎生态支持腾讯云大数据产品及开源Spark、Flink等多种大数据计算引擎及Ray、Pandas等主流AI 训练框架(引擎逐步支持中),可平权访问Catalog中的结构化
84、+非结构化数据资源。智能数据优化提供全托管智能数据管理服务,包括数据生命周期管理、数据优化(compaction)、数据重排(clusting、zorder)等,用户无需关注底层数据维护及优化。29-30使用场景及案例某东南亚大型零售客户在营销自动化等场景中,通常既需要基于传统数据分析产出订单、用户行为等宽表数据、还需进一步将数据结合机器学习训练形成销售额预测、实时推荐等ML应用。该企业基于DLC实现DataOps+MLOps一体化平台,腾讯云提供Data+Al一体化计算&训练服务,帮助用户高效、低成本完成传统数据工程下,基于同一份数据和计算资源训练各类ML模型。相比客户迁移前的某海外公有云数
85、据平台服务,实现70%+性价比优势。提供一体化、更简便易用、高性价比的DataOps+MLOps解决方案,相比海外友商同类传统数据湖产品具备70%+性价比优势。独特优势自研高性能计算引擎Meson,实现比开源Spark 2倍以上性能提升。高度灵活的资源组管理,统一计算配额可动态分配给数据工程、交互式分析及机器学习任务。一体化标准引擎支持数据工程与ML训练,支持SK-Learn、PyTorch、TensorFlow等常用ML框架。AI数据湖服务TCLake(即将上线)传统数据湖承载Data+AI所需结构化、非结构化海量原始数据存储,但离线、实时、AI应用等各场景数据架构存在割裂,缺乏统一框架供上
86、层大数据或AI引擎调用,带来以下挑战:企业痛点AI数据湖服务(TCLake)是腾讯云面向Data+AI推出的开放、智能、融合的数据湖基础设施,提供覆盖结构化数据、非结构化数据、AI模型的多模态数据存储及管理,内置统一元数据、批流一体开放表格式,智能数据管理及负载优化,上层无缝对接腾讯云及主流开源Data+AI生态引擎,助力企业高效构建AI时代统一、低成本的数据湖基础架构。应对方案元数据分散数据湖、数仓、AI数据集/模型等元数据分散在不同平台,带来高昂的数据版本、血缘、授权管理成本。数据管理复杂离线、实时、分析、AI各场景数据多系统存储及流转,存储格式多样,小文件、过期数据、无效数据等问题繁多,
87、大幅提高治理及维护复杂度。架构优化困难需要持续管理及优化多套技术架构,每套架构均需对存储系统、文件、表、数据全链路管理及调优,难以高效响应AI时代灵活的业务需求。批流一体湖仓构建Lakehouse架构有效整合数据湖和数据仓库的优点,提供了廉价、灵活、多样化的数据存储底座,用户在 Lakehouse之上可基于同一份湖存储数据构建多计算引擎应用,如基于Spark的批处理、基于TCHouse的高性能实时数仓、基于SparkML的机器学习应用等。TCLake提供统一元数据整合LakeHouse数据资产;提供批流一体开放表格式满足各场景数据响应需求,无缝对接上层多引擎生态;同时提供智能数据优化、加速等服
88、务,可大幅提升客户数据维护及使用效率。使用场景及案例大数据与机器学习一体化通过TCLake的多模态数据管理能力,可助力客户快速搭建大数据+机器学习一体化应用,上游大数据引擎如 Spark预处理好的训练数据可直接注册回统一元数据,由下游PyTorch、TensorFlow等AI训练框架直接读取,完成训练后模型可注册回TCLake进行统一生命周期管理。同时针对Data+AI链路中不同负载需求提供加速服务,大幅提升AI应用构建及管理效率。独特优势多模态统一元数据为大数据领域结构化数据、AI领域的非结构化数据源与模型资产提供多模态元数据管理,提供统一的元数据模型和API接口,支持多种结构化数据源及非结
89、构并提供ML模型文件的生命周期管理。批流一体开放表格式内置基于Apache Iceberg无侵入拓展的批流一体TCIceberg表格式,可满足小时级至秒级数据响应需求,同时支持多种开放格式拓展。统一CPU+GPU资源调度应用某中国新能源汽车厂商因车辆销售量激增以及智能驾驶算法训练与应用的需要,希望通过一体化平台实现传统数据工程以及智能驾驶算法训练的统一,同时希望实现新数据平台CPU+GPU资源可在数据工程和ML训练工作负载中统一调度,整体提升资源利用率。该企业基于腾讯云数据湖提供的Data+Al一体化资源调度方案,快速实现CPU+GPU的一体化调度,解决数据量激增下资源利用率底下的困境。相比数
90、据平台和机器学习平台两套调度体系,实现30%的资源利用率提升。31-32多模态数据爆发2024年中国企业数据增速已达25%,其中70%多以上是非结构数据,包括IoT设备(工业传感器)、音视频流(直播电商)、生物识别(医疗影像)、空间数据(自动驾驶高精地图)等 10+种模态。深度分析诉求通过对已交付企业的调研,目前随着大模型的兴起,超60%的企业已经将跨模态分析列为数字化转型重点,企业开始思考多模态数据如何更高效的接入、存储和统一管理和应用,深入探索如何让非结构能发挥更大的价值;部分走在技术前沿的企业,也在探索多模态数据对齐、跨域特征提取等技术。企业私有知识库构建随着生成式AI幻觉、合规等痛点问
91、题的产生,企业在使用AI技术上需要更严谨的解决上述问题,同时企业各种模态的数据需要统一转成知识库数据并且要保障数据的私有安全、使用上可控合规。企业痛点TBDS多模态数据湖仓应对方案模型训练数据抽取数据源处理后原始数据开始前处理规则翻译OCR并行分支embeding初步清洗归一化标准化文本特征工程模型选择模型训练模型优化AI函数-SQL一站分析智能搜索向量、文本、混合检索TBDS-CataLog统一结构、非结构hdfscosesmpp向量、模型数据图片/影像遥感音视频非结构:HDFS、对象存储向量:多模态湖仓CSVPDF结构:ICEBERGESTCHouse对象存储后处理规则后处理规则后处理规则
92、传统搜索基于关键字匹配,只能用于文本搜索,不能用于图片和视频,而且无法理解语义,比如计算机和电脑对它来说就是不同的。单纯仅靠LLM会产生误导性的“幻觉”,训练数据会过时,处理特定知识时效率不高,缺乏专业领域的深度洞察,同时在推理能力上也有所欠缺。正是在这样的背景下,检索增强生成技术(Retrieval-Aug-mented Generation,RAG)应运而生,成为大模型时代的一大趋势。企业痛点RAG通过在语言模型生成答案之前,先从广泛的专业文档数据库中检索相关信息,然后利用这些专业信息来引导大模型生成的结果,极大地提升了内容的准确性和相关性。企业通过RAG即服务(RAGaaS)增强数据AI
93、就绪度,无缝集成向量搜索、图数据库等技术,缩短开发周期并提升应用质量。还可以基于活跃元数据的自适应治理模型,平衡集中与分布式管理,确保AI输出的准确性和合规性,例如通过实时元数据监控防止恶意使用和隐私泄露。ES是DB-Engine全球排名第一的向量检索引擎。向量化检索技术通过将一段文本或图片视频的特征提取描述为一个多维向量,在向量空间中计算向量间的距离,比如余弦相似性、点积、欧氏距离等,从而判断内容间的相似性,极大的扩展了我们搜索发现的范围,并将搜索标的拓展到了多模态领域。同时通过和LLM大模型结合来增强生成,可以支持基于知识库的RAG 应用。应对方案ES向量搜索使用场景及案例向量搜索优势在于
94、处理模糊表达、捕捉语义、支持跨文本&跨语言&跨模态,文本搜索优势在于短文本精准匹配强、计算成本低、可解释性及调优性强。混合搜索则结合了全文搜索和向量搜索技术的优势:独特优势向量检索:和平精英地图搜索、某电商平台的商品推荐、某社交媒体平台的图片鉴黄,通过向量化技术支持多模态和语义检索。RAG应用:微信读书AI问书、ima(智能工作台)、腾讯会议智能助手,帮助到这些产品的文本和向量混合检索能力,助力RAG应用搭建,支持了数十亿向量规模的同时达到毫秒级响应性能。更精准:同时利用关键词检索和向量搜索对数据进行查询,提高检索的准确性和可信度。更多样:利用向量检索的多样性,返回多种不同的检索结果,提供更多
95、的选择和信息,满足不同的用户查询需求和偏好。更强大:利用关键词检索的逻辑运算、排序、过滤等功能,实现更复杂的查询需求。如包含多个条件、多个字段、多个排序规则等的查询,这可以提高检索的功能和灵活性。内核层面:针对典型向量场景特点做了深度优化,例如分片架构优化,查询并行化,lucene查询缓存锁改造等,10亿级向量检索平均响应延迟控制在毫秒级,整体查询性能提升3-10倍,极大程度的提升了混合搜索的效率。腾讯云ES自研了v-pack插件,支持动态裁剪行存中的冗余向量,可无损压缩70%+存储。同时首创int8_only_hnsw索引,把高精度向量“脱水”成int8格式存储,存储进一步节省90%。在重排
96、序策略上,支持权重可调RRF、归一化Score以及调用GPU Rerank模型服务。更可解释:利用关键词检索的文本匹配和高亮显示,实现更可解释的检索结果。如显示查询语句和文档的匹配程度、匹配位置、匹配内容等,这可以提高用户对检索结果的理解和满意度。33-34各个行业在数字化转型过程中,多模态数据都已经成为驱动行业创新的核心资产,无论是金融业的政策财报、音视频交互,医疗领域的影像与基因数据,还是教育场景中的课堂视频,零售行业的直播内容与消费者行为轨迹数据,都作为企业重中之重的数据资产,企业也在不断在深挖其中的价值。比如在银行场景中,多模态数据的管理和融合分析已经较好的应用在了风控合规、知识问答、
97、产品管理三大场景中,因为这三大场景都会涉及到较多的文本文档,比如各企业的财务报表(pdf)、各个行业的发展报告(pdf)、行业风险报告(pdf)、银行业监管政策、用户数据隐私保护政策、历史违约企业案例(word),对这些文档的处理效率机器模型是远高于人工处理的,以银行贷款审批为例做个说明:使用场景及案例搜答案ES匹配结果企业财务报表(PDF/Excel)行业风险报告(如“光伏行业产能过剩预警”)历史贷款违约案例(客户A因现金流断裂违约).1.行业风险条款:“光伏行业授信额度需按标准80%审批”。2.同类企业案例:“客户B营收1.2亿,获批贷款8000万(原额度1亿”。3.计算公式:“额度=营收
98、x0.8-短期负债”。客户提问:“我的光伏企业年营收1亿,能贷多少?”问题向量化:包含“光伏”“营收”“贷款额度”语义的向量 0.7,0.1,0.6,.原始数据企业财报中的“资产负债率”“营收增长率等关键指标将行业风险关键词(如“产能过剩”“政策补贴退坡”)【0.8,0.3,.】【0.3,0.1,.】处理过程“text”:“光伏行业2023年产能利用率降至60%,建议授信额度下调20%”,“vector”:0.2,0.65,0.4,.,/行业风险向量“doc_type”:“行业风险”存入RAG输出:“根据最新行业政策,光伏企业贷款额度为营收的80%再扣除短期负债。您的企业年营收1亿元,若无短期
99、负债,预估可贷8000万元。请补充提交近3个月银行流水。”审批效率提升 90%传统方式:人工分析财报,耗时3天+RAG方案:自动匹配行业风险,1小时出结果ES问问题数据转储生成答案多模态存储引擎TBDS通过HDFS分布式文件存储、对象存储等存储介质目前支持20+模态数据(包括各类文本、图片影像、音视频流、空间数据)的统一接入与原始数据存储,在数据清洗、加工的过程中,也可以对处理后的结构化数据通过Iceberg、Hive等服务进行统一存储,其中处理后也有部分向量数据,这部分数据可以通过ES、TCHouse等产品进行存储和高效检索。TBDS-Catalog通过统一元数据索引技术,实现跨存储介质(对
100、象存储、数据库、数据湖等)的元数据统一注册与管理,支持文本、图像、视频、时序数据等20+模态的统一描述,包括传统数据湖、数据仓库、消息队列中的结构和半结构数据,GenAI时代的向量数据、model数据等,实现多云、跨区域、跨组织的数据统一元数据管理。跨模态分析应用在上层应用中,主要包含模型、AI函数、智能搜索三大核心能力,在模型训练场景中,可以通过 TBDS-Catalog实现对分散在不同存储介质中的数据统一读取以及训练版本管理,大幅提升训练效率;AI函数场景中通过对训练好的模型进行封装成sql函数,然后在sql分析过程中可以直接调用,解决模型和调用需要写代码的方式,让数据分析师、BI工程师可
101、以直接使用;智能搜索场景可实现对结构数据、本文数据、向量数据的混合搜索能力,支持语义形似搜索、文本搜图、以图搜索等能力。第一步,企业通过对企业财务报表、行业分析报告、历史违约案例进行统一收集和清洗,清洗后的数据通过 NLPOCR等技术进行结构化提取,提取后调用大模型能力进行向量化转换,然后存储在ElasticSearch中;第二步,对客户的具体问题转成向量化,然后通过向量相似检索找到所有有关的材料;第三步,找到后的材料统一喂给大模型,然后结合大模型的生产能力的到最终结果;上述RAG自动审批流程相对传统人工分析的方式上,综合审批效率有提升90%以上。独特优势混合向量化湖仓存储引擎基于Iceber
102、g构建多模态数据统一底座,通过ACID事务保障与全链路版本控制实现结构化/半结构化数据的强一致性管理,通过自研基于Iceberg向量化存储引擎突破非结构化数据高维特征实时检索瓶颈,创新实现结构化日志、半结构化元数据与非结构化向量数据的联邦SQL查询,打通传统架构中数据湖、对象存储与向量数据库间的治理壁垒。统一语义多模态元数据打通表(Table)、文件(File)、模型(Model)、函数(Func)的关联关系,实现多模态数据资产与计算资源的统一语义关联,消除传统架构中结构化数据、非结构化文件、机器学习模型及函数等元数据孤岛,为上层应用提供跨模态的联邦元数据服务与统一数据资产目录。湖仓平台运维智
103、能体基于“感知-决策-执行-进化”智能闭环理念构建,通过自研大数据领域专用运维大模型与运维知识库双核驱动,实现故障全生命周期管理,系统采用 多智能体协同架构,支持从预测预警到自愈处置的闭环操作,同时通过知识沉淀实现能力迭代。随着数字化转型的加速,企业IT基础设施复杂度呈指数级增长,传统运维模式已难以应对平台越发复杂的复杂度,同时运维成本不断激增。基于AIOps的大数据平台智能自治,正成为提升运维效率、降低成本、保障业务连续性的关键手段。数据平台智能自治系统通过整合运维数据(日志、指标等),运用传统机器学习+AI Agent实现故障预测、根因分析、自动化修复等功能,最终目标是将运维响应速度从小时
104、级提升至毫秒级,同时降低人工干预比例至10%以下,整体实现大数据运维的“自动驾驶时刻”。传统运维面临故障定位依赖专家经验、异常诊断效率低下、资源调度缺乏动态感知等挑战,导致系统恢复时间长、资源浪费严重等问题。系统故障原因分析及排查完全依赖运维工程师经验储备,查询异常或运行调优依赖经验丰富的数据开发工程师,专家经验。此外在传统运维中,70%的系统故障需跨3层以上架构排查,平均恢复时间(MTTR)4.5小时以上,依赖人工的异常诊断效率低下。另外基于告警的传统运维体系误报率一直居高不下,报率普遍在30%-50%,如某物流企业每分钟接收500+条告警,其中99%为无效告警,AIOps通过智能收敛将有效
105、告警占比提升至90%。最后,传统大数据运维体系缺乏资源调度动态感知,40%的企业存在服务器资源浪费或过载问题,运维成本与业务敏捷性难以平衡。数据平台智能自治系统可为数字化程度高、IT系统复杂度高、对业务连续性要求严苛的行业头部企业带来巨大的运维效率提升。例如中国若干头部短视频平台日活用户超1亿,大数据平台日均产生日志数据量超100TB,年运维成本占技术投入的30%以上,如使用智能自治系统预计可降低90%的运维成本,此外通过任务智能调优,计算资源利用率可提高20%以上。企业痛点大数据智能管家TCInsight35-36腾讯云TCInsight大数据智能自治系统是面向大数据公有云全系列产品的的智能
106、自治产品,旨在基于传统ML模型与AI Agent,提供系统自动检测、分析和调优等任务,过程无需人为干预,从而实现大数据运维的“自动驾驶”时刻。TCInsight核心价值在于用智能化手段简化复杂的大数据管理任务。传统的人工运维模式效率低、成本高,而智能管家通过AI技术实现系统自动优化、成本分析与洞察调优、7*24自动运维治理及健康诊断报告,通过AI智能体替代人工排查操作,全面解决企业运维痛点让问题的发现和解决更加迅速精准。应对方案EMRDLCTCHouse大数据智能管家基础LLM服务运维数据查询时序预测.异常检测场景知识库洞察诊断根因分析原子工具能力大数据全系列产品调优策略系统数据上报治理方案自
107、治智能体Autonomy Agent基础明细数据采集层策略实时洞察层预处理特征识别基础洞察数据ToolsCallActionES第三方平台MCPServer云API腾讯云TCInsight大数据智能自治系统的典型应用场景包括:计算SQL调参每月帮助某客户识别出超过10W分区的大表扫描、全量扫描分区表及异常资源使用的bad查询50+,按照计算洞察的有效处理建议通过API与用户的开发平台对接实现操作调整闭环极大提升了客户任务的稳定性,以及客户对任务资源优化的诉求。HDFS存储治理面向用户的HDFS本地存储通过存储洞察,平均每天识别HDFS存储存在3.32PB,同时下线17个资源节点实现成本优化。使
108、用场景及案例自动调优计算任务/数据存储生命周期/数据分布调优,以及资源调度的调优;自动化FinOps根据实际场景对资源的购买方式进行组合优化,实现更优的资源成本;自动化系统运维系统故障分析及排查完全依赖运维工程师经验储备,耗时往往需要4.5小时以上,客户普遍希望AIOps实现对人力的替代;运维问题前置感知与处置通过预测智能前置发现系统运维和任务潜在问题,并通过自动化处置提升整体系统效率,如感知周期性ETL作业的参数配置问题,在下一轮执行前自动调优。腾讯云TCInsight大数据智能自治系统基于AI Agent提供更智能的自动调优与成本优化功能,相比国内云服务商类似产品具备多产品统一支持的优势,
109、相比第三方SaaS服务厂商,具备一体化集成部署的优势,产品核心优势如下:独特优势第三方数据平台智能自治通过TCInsight提供的MCP Server实现第三方数据平台的自治快速接管,TCInsight各类智能自治功能可对接到第三方数据平台,实现传统不具备大数据自治能力的平台快速升级到AIOps。更精确结合AI Agent,实现调优准确率和覆盖率的显著提升,如Spark、HiveSQL优化及查询调参可以覆盖80%的Bad case。更全面面向多种计算引擎(Hive、Spark查询、Impala)、存储引擎(Impala表、SR表)及产品(TCHouse、ES)等提供管家的覆盖能力。更开放智能管
110、家可作为独立智能自治能力,还可进一步集成到客户自有数据平台&运维体系中。智能搜索向量、文本、混合检索随着人工智能在IT运维领域的应用日益深入,当前企业在数据库管理中面临多重挑战:专业DBA人才短缺导致运维压力剧增,人工操作易引发误判和低效;SQL开发、变更到线上值守环节缺乏端到端防控能力,尤其在代码级风险预判、精准故障溯源等高阶场景存在困难等。因此,亟需一种用于处理数据库运维并面向企业级的数据库AI服务平台。企业痛点腾讯云数据库AI服务平台专注企业级智能运维,以“运行好SQL、编写好SQL”为核心场景,深度融合腾讯云数据库PaaS/SaaS能力,提供场景化端到端交付结果的智能体服务,致力于通过
111、智能自治释放数据价值。产品以运维自治和辅助开发为基础,以智能体形式逐步构建超级DBA智能体系,构建全链路SQL风险防控体系:覆盖SQL开发DDL变更线上值守的完整闭环。通过上述智能体系能有效缓解DBA人力短缺压力,大幅提高解决问题的效率和准确率。混合智能部署结构,弹性满足不同场景需求,既满足公有云用户按需计费的弹性需求,也支持金融等敏感客户的数据本地闭环。应对方案腾讯云数据库AI服务SQL事前风险预测可关联实际的生产代码,在SQL上线前做风险预测。DDL变更评估结合审计日志,基于实际流量回放实现DDL变更风险评估。高负载值守由慢SQL引起的数据库高负载,可以直接定位到代码行。37-38背景某大
112、型客户在业务快速发展的过程中,曾遭遇线上代码发布时的重大挑战。代码中新增的SQL语句存在潜在风险,直接致使整个数据库性能急剧下滑,业务运行受到严重影响。鉴于此,客户迫切期望在新SQL上线前就能精准预知风险。难点研发人员难以全面掌握数据库知识(如索引设计、联合索引失效场景)。且常依赖ORM框架组装SQL,对最终执行SQL语句缺乏感知。故障发生后,传统排查模式也难以追溯代码根源问题。效果客户在试点业务中部署SQL事前风险预测Agent,通过动态SQL解析引擎与风险分析引擎结合,实现三大突破:全量覆盖:首次扫描22万行代码,精准提取1500+条SQL(覆盖率80%),突破ORM框架黑盒限制;精准识别
113、:针对200+高风险SQL(含索引缺失、查询条件顺序错配等典型问题)发出预警,经客户验证优化建议准确率达92%;持续防御:在后续4次版本迭代中,对变更代码块定向扫描保持80%提取率与92%准确率,累计拦截12个潜在风险,实现数据库性能事故零发生。使用场景及案例通过将AI能力注入数据库管理全流程,实现“运行即服务”模式,重构企业数据库管理运维范式,助力企业实现数据库管理从“人工值守”向“智能自治”的转型升级。该方案不仅解决研发侧数据库知识盲区,更将风险管控前移至开发环节,形成“编码-扫描-修复”闭环,为业务连续性提供可量化的稳定性保障。独特优势全链路SQL风险防控体系覆盖SQL开发DDL变更线上
114、值守的完整闭环。安全可控架构模块化设计支持私有化部署,实现数据、模型、代码的客户侧闭环,产品安全可控。面向结果交付的智能体SQL事前预测风险关联定位到代码行端到端输出结果智能体常态无人值守场景化能力整合深度打通腾讯云数据库PaaS/SaaS产品矩阵(CDB/TDSQL/DBBrain等),提供场景化端到端服务。混合部署支持公有云与私有化场景的灵活交付。数据可视化多维度的智能体使用分析(成本/调用量/租户分布/趋势预测)。Deepseek正引领新一轮AI技术革命浪潮,众多企业都在积极拥抱这一变革机遇,企业内部的数据形态和搜索需求正在经历革命性变化。随着大模型和生成式AI的爆发式发展,传统基于关键
115、词的检索方式已难以满足语义理解、多模态搜索等新型需求。同时,企业数据呈现爆炸式增长,结构化与非结构化数据并存,亟需一种能够统一处理多源异构数据的智能检索方案。企业痛点要实现Data+AI真正在企业落地,关键在于实现企业数据与大模型的深度结合向量数据库正是大模型访问企业数据的必备方案,大模型+向量数据库也成为了企业落地AI应用的最佳搭档。通过将企业内部的结构化和非结构化数据转为向量并存储于向量数据库中,即可构建企业内部的数据枢纽,不仅突破了传统检索的鸿沟,更构建起连接多源异构数据与AI应用的智能桥梁,成为推动下一代搜索技术演进的最佳实践,实现到对企业搜索、智能推荐等应用系统进行全面升级,并结合大
116、模型LLM的能力,实现效率、用户体验等方面质的飞跃。应对方案企业知识库AI数据打标搜索/推荐代码助手向量数据库DeepSeekSearchUpsert企业数据部门数据架构数据应用数据多云数据腾讯云向量数据库 背景某教育头部客户大力发展智能学习机业务,期望使用RAG开发框架将内部沉淀的教材数据和教辅数据与AI结合,打造学习机AI助手,发挥海量课程、试题资源的数据价值,快速、准确地回答学生提问,提高在线教学效果,减少人力成本。难点在实际落地过程中,因大模型存在的幻觉问题,客户期望使用传统关键字检索方案解决,但学生提问较泛且不标准,导致效果测试效果只有60%准确率。客户在初步调研测试后使用腾讯云向量
117、数据库作为大模型的外挂知识库,以向量数据支持的语义级别检索的方式作为检索核心。效果1.上线后,经客户测试认证效果,纯靠向量检索可以覆盖95%场景,且效果好于关键字检索方案。2.因向量数据生成需要选择Embedding模型并搭建集群,资源开销较大且需要人力维护,最终选用腾讯云向量数据库自带的Embedding功能,业务接入效率提升80%,客户成本降低10倍,至上线以来未出现过稳定性问题。3.基于腾讯云向量数据库的AI套件功能,可一站式文档检索解决方案,用户可直接上传原始文档,从原本月级别才能搭建起私有知识库缩减到数小时内即可快速落地,大幅提高知识接入效率。腾讯云向量数据库是国内“首家”获得权威机
118、构(中国信通院)认证的企业级自研分布式数据库,源自腾讯集团多年技术沉淀,稳定运行于腾讯内部60+核心业务线(例如腾讯视频、腾讯会议、QQ音乐等国民应用),每日支撑超过8500亿次向量检索请求,可支持千亿级向量规模存储、五百万QPS及毫秒级查询延迟;向量数据库作为AGI时代的“数据枢纽”,专门用于在搜索/推荐和AIGC场景中提供文档、图片、音视频等非结构化数据的存储检索服务,是大模型落地AI应用的“最佳拍档”。使用场景及案例39-40独特优势内部多年技术沉淀源自内部OLAMA向量检索引擎,稳定运行于腾讯内部60+核心业务线,每日支撑超过8500亿次向量检索请求。“首家”权威认证国内“首家”获中国
119、信通院认证的企业级自研分布式数据库。大规模、高性能单索引可支持高达千亿级数据规模、五百万QPS及毫秒级查询延迟高可用、高可靠分布式集群、多可用部署、多副本等特性提供企业级可用性和可靠性保证。Embedding+AI套件功能支持不同原始文本/文档文件快速向量化并自动入库混合检索大幅提升召回率支持语义+关键字两路检索,在某些场景下混合检索召回率可达到95%,比原本的关键字检索效果提升30%。TDSQL-C海量洪峰数据流量下,业务经常会遇到无法及时扩缩容导致数据资源不够、效率处理低下的问题,而频繁扩缩也容易引起波动,极大程度增加了企业的运维成本。同时未经优化的SQL语句(如全表扫描、冗余子查询)导致
120、查询性能差,高并发场景下易出现响应延迟。缺乏自动优化工具或经验,难以有效利用覆盖索引和查询重写技术,加重数据库负载。企业痛点应对方案预测式弹性能力提前感知业务负载变化,自定义提前弹性时间。打破事后弹性带来的扩容时延风险。通过机器学习技术,数据库可根据历史负载数据预测未来资源需求,动态调整资源分配。TDSQL-C采用了基于时间序列分析构建负载预测模型,实时监测CPU、内存、磁盘I/O等指标,结合强化学习的试错机制优化弹性扩缩容策略。在AI工作负载场景中,系统可自动平衡GPU训练与数据库内存占用,确保资源高效利用。推理过程-1推理过程-3.预测结果-1预测结果-3.预测性能数据-1性能数据-3.时
121、序特征-1时序特征-3.实例信息-1实例信息-3.性能数据-1性能数据-2.2.时序分析1.判别分析过滤数据特征提取关联3.混元大模型专家建议可信信息.M1M2时序预测模型集4.时序预测谓词分析候选索引生成单表代价评估候选索引修正连接代价评估合并择优SQL推荐结果代价评估加权合并择优SQLWorkload推荐结果虚拟索引What-If plug-inMM-TreeHandler:interfaces代价评估Index RangeRef Index跨机直方图直方图、平均时长多列相关性statisticsIndex Correlation智能索引推荐建立基于统计信息的单条SQL索引推荐能力,通过对
122、谓词重排、代价评估修正建立全链路代价评估的索引推荐能力。动态生成虚拟索引,实时生成代价对比来为用户提供最佳索引。同时基于深度学习模型可动态调整索引结构,根据数据访问模式自适应选择B树、位图或列式索引,并利用索引压缩技术平衡存储与性能。41-421.审计日志负载下的性能基线2.模型实时训练3.重放审计日志对比性能Outline监控AWR负载监控AWR监控负载监控(优化)SQLSQLResultsResults审计日志审计日志执行器执行器执行器计划干预模型预训练训练数据模型Q1P1P2PnQ2Qn.智能优化器根据执行反馈信息自动对计划调优,智能枚举更多计划空间,绑定到最优执行计划,降低平均负载、提
123、高计划稳定性、支持降本。针对不同SQL,支持优化器参数的自动调优,覆盖控制semi join的执行策略、谓词下推、排序优化等。从单表最优场景逐渐覆盖到多表最优;从局部最优推广到全局最优。执行结果能作为反馈进行学习,在庞大的计划空间中通过尽量少的探索次数找到最优计划;基于机器学习的方法更擅长学习复杂的特征,能够根据参数和统计信息选择最优计划。使用场景及案例预测式弹性能力适用于电商大促、金融交易峰值等突发高负载场景。例如,电商平台通过AI预测攻击流量峰值(如双11期间达300Gbps),结合实时业务指标动态调度高防IP资源,实现秒级扩容与负载均衡,保障促销期服务稳定性。智能索引推荐面向复杂查询优化
124、与工作负载调优场景。在不实际创建索引的情况下评估优化效果,帮助零售企业优化库存查询效率。通过基于统计信息的索引推荐能力,单条SQL查询效率最高可提高到400%。智能优化器针对多表关联、聚合查询等复杂OLAP操作,AI优化器通过强化学习生成最优执行路径,结合自适应基数估计,显著提升数据分析的效率。例如在电商秒杀、金融交易等场景,AI智能优化器实时构建最佳查询计划,让业务性能效率全面提升。全球首发预测式弹性能力,最先应用到serverless技术领域,结合其亚秒级弹性能力,做到业务高峰期来临前提前扩容无感知,全面解放了运维的双手。在数据库自治领域,利用AI优化器+智能索引结构的搭建,全面提升SQL
125、的执行效率,单条SQL最高可达400%,平均时延提升42.2%。独特优势使用场景及案例案例1:智能客服升级(一汽丰田)企业在部署大模型智能客服时面临企业专属知识脱离、响应慢、回答宽泛及知识库数据整理成本高等痛点,一汽丰田通过引入腾讯云智能体开发平台的RAG技术,结合OCR、多模态和长文本处理能力,精准匹配企业专属知识库并自动提炼历史客服数据,使客服独立解决率从37%提升至84%,升级后的智能客服覆盖一汽丰田官网、APP、小程序、公众号等渠道,月均处理1.7万次咨询,显著优化服务效率与用户体验。案例2:金融业务提效(重庆农商行)金融产品知识繁杂、传统金融服务效率不足、风控精准度有限以及数据价值挖
126、掘不充分。借助腾讯云智能体开发平台的联网搜索、RAG与知识库能力,重庆农商行基于腾讯云智能体开发平台内置的DeepSeek模型推出智能助手“AI小渝”,形成三大解决方案:1)智能风控动态识别欺诈行为,提升风险预警能力;2)场景金融搭建分钟级响应智能客服,结合知识库数据提供个性化财富管理建议;3)数据决策通过大模型挖掘行内金融数据价值,优化信贷评估与市场策略。效果上,“AI小渝”显著提升了员工协同办公效率,推动金融服务智能化升级,并强化了其“数字农商行”的品牌价值。当前,企业在知识管理和智能应用中面临多重数据挑战:腾讯云智能体开发平台TCADP企业痛点提供多种LLM+RAG、Multi-agen
127、t、Workflow等应用开发框架,预置精选官方插件及MCP插件,支持应用配置-应用调试-应用评测-应用发布一站式工具链,助力企业降低大模型应用构建门槛。应对方案知识碎片化与低效管理企业文档形式复杂(如跨页表格、图文混排、多模态内容),传统解析技术难以准确提取非结构化数据,导致知识库更新滞后且检索效率低。业务场景复杂化客服、金融、教育等领域需处理多样化咨询问题,但传统AI系统依赖人工配置流程,灵活性和扩展性不足,配置成本高。智能化应用门槛高大模型落地需专业团队处理结构化、非结构化数据清洗、模型调优和流程编排,中小企业难以承担技术及成本压力。数据孤岛与安全风险多源数据分散在独立系统中,缺乏统一治
128、理,且敏感信息(如金融数据)易因技术漏洞泄露。平台内置最佳实践流程,只需导入文档/问答对,即可让大模型对接企业知识,达到更稳定和精确的知识问答效果。适用于企业知识服务、产品咨询等严肃问答场景。使用指定的工作流来响应用户所有对话。如果对应用的执行流程,有更加个性化的需求,可以通过工作流,来拖拉拽大模型节点、知识问答节点、参数提取节点、工具节点等各种原子能力,自定义编排复杂业务流程。支持切换到agent模式,由大模型根据提示词自主拆解复杂任务和规划路径,模型主动选择和调用工具,并能够主动纠错和反思,回复效果更灵活。且可在单Agent的基础上添加更多Agent,从而让应用实现多个 Agent协同调用
129、来响应复杂任务。43-441.面向企业服务严谨场景,提供自研RAG算法和最佳实践,同时提供问答对生成/校验、保守回复等多种运营工具,适用于严肃严谨场景,如政务服务、政策咨询、智能客服等。2.面向企业多模态知识,提供领先的文档解析效果和图文混排处理能力:强化了对图文表混排文档的处理能力,通过OCR解析大模型提升识别精度,有效处理标题、公式、页眉页脚等文档元素。广泛适用于各类行业文档知识处理,如图文混排零售/出行等说明书、研究报告等。4.面向需要更丰富的工具调用,提供更加灵活的对话能力的场景,提供Multi-agent框架。支持通过配置转交关系实现多agent协同;支持按照Agent方式执行工作流
130、,保证符合对话流程的同时,对话灵活自然,同时可以支持丰富的工具调用。3.面向需要定制业务流程的复杂场景,提供工作流全新解决方案,即可通过可视化拖拉拽的方式编排不同的原子能力(如大模型、知识库、插件等),节点全面清晰,支持零代码构建复杂业务流,且针对业务中灵活的多轮对话难题,提供多参数提取、参数回退等优势能力。适用于有复杂业务流程的企业服务场景,如寄快递、挂号等。案例3:医药零售服务(大参林)大参林作为医药零售行业龙头企业,面临内部办公协同效率不足、垂域业务场景知识响应慢、经销商培训赋能低效等痛点。依托腾讯云智能体开发平台能力构建了行业首个医药专属AI知识库系统“AI小参”。有效解决了传统大模型
131、与企业知识脱节、垂域效果差等难题,实现毫秒级精准响应:在销售场景,药品查询效率提升80%;在办公场景优化跨部门协同;通过分析60万条用户反馈数据辅助决策。目前,AI小参已在全国范围内直营店与加盟店上线使用,并持续推动AI小参从知识问答到销售助手再到决策引擎的全方位进阶,塑造医药零售行业智能问答新标杆。独特优势通用领域大模型百花齐放,但针对特定行业的独有知识和任务处理能力欠缺行业属性导致无法落地实际业务。整个建模周期中,算法人员要投入超过60%时间进行高质量数据准备,针对大批量数据,进行数据清洗,标注等一系列预处理。企业级模型构建过程中,对数据访问管控有严格要求,全流程保证数据安全难度高。企业痛
132、点基于腾讯内部大模型迭代的经验,提供细致的算法任务分类和智能的数据配比功能,内置超过100w条精调配比数据,覆盖12大类下的100+LLM应用场景,解决独有知识欠缺问题。提供灵活的数据构建pipeline,预置全开源可扩展的数据预处理链代码,支持有监督训练-多轮问答,有监督训练-单轮问答,无监督预训练三大模型精调训练场景,覆盖原始数据分析、数据清洗、数据去重、prompt优化、训练格式转换5大高质量数据处理环节。提供可灵活定义的数据schema配置功能,自动生成多种大模型标注操作台,实现一种“标注操作台”满对应多种“标注场景”。依托腾讯云上权限体系,针对建模过程中使用的云上存储,支持目录级的访
133、问控制,灵活配置资源隔离策略,满足企业级的数据安全管控。应对方案腾讯云TI平台使用场景及案例客户核心业务包括建筑行业电商平台、建筑人力外包以及建筑行招投标服务等。客户拥有一个大模型算法团队,有较强的模型训练开发能力。算法团队基于腾讯云TI平台精调建筑招投标大模型,用于自动对招标信息进行判别,匹配公司能力是否可以应标。该行业存在招投标过程中不需要准备投标文件,靠人工进行判别的特点,因此历史数据仅有招标需求以及是否中标的结果,中间招投标需求匹配部分缺乏数据沉淀,需要构造高质量的数据。客户利用TI平台在线服务部署DeepSeek V3模型生成生成上千万对数据,并依托平台数据处理工具对数据进行清洗,持
134、续获得高质量招投标需求匹配数据。独特优势提供面向实战的大模型精调部署工具链,内置Angel加速套件,基于优图算法沉淀,具备行业领先的训推加速能力,同时提供高校灵活的数据准备工具,稳定可控的任务调度能力,易维护高性能的服务部署能力。简单几步、数分钟内即可发起单机及多机分布式服务部署,大幅节省PoC,投产,运维精力。企业大模型业务面临着存储空间不足、存储性能瓶颈及数据难治理的难题。数据规模直接影响模型精度,海量的数据需要从全球各地快速采集后汇聚到一个统一存储池。存储性能与算力不匹配导致数据处理及模型训练效率低下,需要高性能的存储资源对模型数据进行数据预处理,同时需支持跨平台的数据自由流动及多协议访
135、问,实现数据处理和训练效率的提升。数据管理和治理任务的复杂化严重影响企业运营效能,需要保障数据质量安全合规的同时提升员工工作效率。企业痛点腾讯云Data Platform数据平台解决方案由对象存储COS、数据加速器GooseFS、数据万象CI等产品组成,提供数据存储、训练加速、数据“智”理端到端的存储解决方案。DataPlatform能够为企业提供高性能、灵活、可扩展的综合数据管理解决方案,为企业提供了坚实的技术支撑,轻松应对企业日益复杂的数据处理需求,同时提升数据效率和控制存储成本。对象存储COS依托于腾讯云全球部署的加速节点和DC接入点,支持数据从公网快速、便捷、大规模的采集进来。COS做
136、为海量数据的统一存储池能够提供安全稳定的数据存储能力,在大幅提升系统可用性、可靠性及性能的同时大幅降低存储成本。数据加速器GooseFS提供近计算端的数据缓存加速服务,兼容多种语义可与计算生态无缝融合,满足大规模数据处理和训练对高性能存储,以及Checkpoint写入需求。数据万象CI提供近存储端的数据治理能力,通过智能检索MetaInsight实现对元数据及全媒体类型数据的跨模态检索,在保障数据计算与内容合规的同时,持续释放内容价值。该服务有效降低了人工操作的复杂性和出错风险,为数据管理的全流程提供效率提升与安全护航。应对方案Data Platform数据平台解决方案45-46AppsCOS
137、Data StoreData IngestData lngest ServiceData MigrationCMGData lngestAcceleratorGlobal AccelerationData InsightCloud InfiniteData ProcessData EngineData CatalogMetalnsightComputersideStoragesideProvisioned-ClusterGooseFS-XPOSIXStorage-LessGooseFS-CacheHDFSPOSIXMetaDataAcceleratorHDFSGatewayGooseFS-Li
138、teCOSAcceleratorCoS/S3POSIXData Accelerator腾讯云Data Platform数据平台解决方案深度适配数据湖、AIGC、汽车辅助驾驶、具身智能、HPC等高性能存储场景。以国内某头部大模型厂商为例,其面临的百PB级多模态数据存储、复杂处理流程及治理需求极具代表性。腾讯云对象存储COS利用全球部署优势和内网加速域名访问,让计算资源全域数据快速传输,其自动沉降、碎片整理等能力更可对数据进行生命周期管理,进一步降低存储成本。数据湖存储GooseFS凭借分布式元数据引擎,提供高性能的文件元数据操作性能,大幅度提升数据清洗效率。数据万象的智能检索MetaInsigh
139、t实现数据精细化管理,满足千亿级别的统一数据治理,做到降本增效。使用场景及案例高速的公网接入腾讯云提供稳定便捷的数据传输服务,部署26个物理区,全球3200个加速节点和几十个DC 接入点,支持TB级别的公网带宽,满足企业模型训练数据高效采集。海量数据存储全自研对象存储引擎YottaStore提供了安全可靠的海量分布式存储平台,对象存储COS单集群可管理EB级别数据,应对AI存储时代的海量数据持久化存储的需求。高效数据缓存数据湖存储GooseFS支持Tbps级吞吐、千亿级元数据规模、单链接速度轻松达到GBps级别,相比于行业内百兆级规模提升10倍,大模型分发效率10倍跃升。多协议访问数据湖存储G
140、ooseFS可对接多种数据源,为上层计算应用提供统一的命名空间和访问协议(POSIX、HDFS、K8S CSI、FUSE、COS 存储语义),方便数据在不同的存储系统中平滑流转。一站式数据处理数据万象CI具备100+丰富的数据处理能力,可对COS中数据进行自动化处理,智能检索 MetaInsight有效提升数据的处理、管理、分析、检索效率。独特优势企业痛点腾讯云提供以高性能存储CFS Turbo为枢纽的AI存储平台,提供一站式的AI存储解决方案,通过极简的架构,解决自动驾驶、大模型训练、HPC等场景下海量数据的高性能存储需求。首先,在性能方面,通过端到端的并行处理架构,并基于内核态客户端,RD
141、MA、GPU Direct Storage等技术,大幅缩短IO路径,提供TB/s吞吐,千万级的IOPS和亚毫秒级延时。满足在AI场景下,大文件checkpoint的高速读写、千亿级训练样本的并发读取和TB级的模型文件加载的苛刻性能要求,大幅提升AI场景的训练、推理效率。其次,通过元数据映射的能力,可无缝打通公有云对象存储、公有云并行文件存储、线下存储等多场景、多类型数据存储,实现全局统一的命名空间,大幅提升数据流转效率,满足用户在多云复杂环境下,数据流动的需求。再次,在支持完整的POSIX语义外,也支持HDFS语义,满足数据清洗、数据标注、数据训练、数据推理等多环节的不同访问接口需求。并且支持
142、与云上的容器服务、机器学习平台、云桌面、EMR大数据平台、高性能计算集群等服务无缝对接,满足用户全场景使用的存储需求。最后,提供面向海量数据存储场景的两大关键的差异化能力,进一步提升用户体验。其一,通过智能元数据引擎,实现在秒级完成千万文件的检索,数据管理效率提升10倍,帮助用户实现对千亿级规模数据的高效管理。其二,基于智能的数据分层管理,可在业务不做任何改动的情况下,通过配置策略的方式,自动实现冷热分层,成本下降60%。应对方案AI新技术的涌现,普通存储无法满足性能需求随着多模态训练、端到端VLA训练等方案的出现,大幅提升了对存储读写的性能需求,要求存储能提供更高的吞吐、更低的延迟和更大的I
143、OPS。多云使用,存在数据孤岛大多数用户会同时使用多家公有云,或者结合其IDC的存储使用。而此时如果将多个数据孤岛打通,让数据高效流动,是不得不解决的难题。访问接口多样化,单一存储无法满足在AI的清洗、训练、推理、仿真等多个阶段,有不同的访问接口需求。普通存储无法同时提供多种接口,导致数据需要进行多次拷贝,效率低。千亿级的海量数据,存在管理困难当数据量上升到千亿级之后,没有高效的数据管理工具,无法快速得到数据冷热、目录大小等信息,造成成本的上升和数据容量管理的失控。Data Engine数据枢纽解决方案47-48使用场景及案例训练场景:大模型用户A通过使用腾讯云CFS Turbo,在100TB
144、的容量下、提供了超20GB/s的写入带宽,以及每秒十万级的删除性能,解决了GLM-130B大模型训练中的瞬时高带宽写入、小规模存储&高带宽负载、及海量文件快速删除难题,大幅提升大模型训练效率。大模型用户B依托腾讯云CFS Turbo,在PB级元宇宙渲染及大模型训练中,通过弹性容器服务实现数千节点分钟级扩展与70GB/s高并发读写,以3.5ms超低时延加速AI训练与视觉渲染效率。大模型用户C基于腾讯云CFS Turbo,以108GB/s峰值带宽和100%可用性支撑TB级Checkpoint每2小时高频写入,结合弹性扩容能力,保障大模型训练高效连续迭代,加速语言AI底座构建。推理场景:用户D基于C
145、FS Turbo部署推理服务,5分钟完成deepseek 671B的模型加载,单线程加载速度达1.5GB/s,加载速度提升6倍,大幅提升弹性拉起GPU实例的服务效率。AI全流程场景:F用户基于腾讯云Data Engine数据枢纽解决方案,打通其他公有云存储,形成统一命名空间,在数据清洗时调用HDFS,训练、推理时使用POSIX语义,实现数据的“零拷贝”,使用效率倍数级提升。并通过智能数据生命周期管理和智能元数据引擎,实现了230亿数据的高效管理,成本降低65%,统计效率提升10倍。高性能存储方案:数据全面打通,管理效率提升10倍,成本下降60%1秒完成千万级文件检索10X数据管理效率两层智能分
146、层60%单位成本数据处理数据标注数据训练仿真在环TKE容器服务CVD云桌面机器学习平台HCC高性能计算集群CDH专有设备托管边缘云/专有云/分布式云其他公有云中心云CFS Turbo AI存储平台KV元数据引擎智能元数据引擎CFS冷存储智能生命周期管理CFS低频存储Global NameSpaceSQLCVD云桌面TB/s吞吐亚毫秒延时千万级IOPSJPGJSONPCDBAGTurbo边缘存储节点边缘计算并行文件存储对象存储对象存储独特优势极致的性能CFS Turbo提供TB/s吞吐、千万级IOPS、百万级元数据OPS性能,支持10s内完成checkpoint文件的读写,1s完成千万级文件读写
147、,单次请求响应时间在百微秒级,满足万卡级集群进行大模型训练的样本读取需求。平台级能力的AI存储CFS Turbo基于极简的架构,云厂商中唯一 同时支持POSIX、HDFS语义等多种协议的并行文件存储;并能无缝打通公有云对象存储、公有云并行文件存储、线下存储等多场景、多类型数据存储,实现全局统一的命名空间,一站式解决AI场景下的存储需求,大幅提升数据处理效率。功能丰富CFS Turbo作为云厂商中唯一支持自动化冷热分层能力的并行文件存储,帮助用户节省60%+的存储成本;提供快照、加密(KMS)、元数据引擎、目录配额、用户配额、审计日志等丰富功能,满足多层次的用户高级管理功能需求。在Data+AI
148、平台中,数据万象和日志管理服务为客户提供元数据洞察和自助分析服务,通过AI持续洞察数据特征,并通过数据驱动业务价值提升。企业痛点针对企业客户在AI时代数据规模和文件量指数级增长,检索低效,元数据利用率低等问题,数据万象结合自研元数据管理平台,推出了智能数据检索产品,支持全媒体数据类型的向量与结构化标签的混合检索。在Data+AI平台中,MetaInsight(元数据洞察)通过多场景、跨模态的检索服务,帮助客户解决存储数据的管理、分析、检索需求。应对方案数据治理成本高非结构化数据产生渠道和路径越来越多,数据规模呈指数级增长,传统治理依赖人工文档维护,耗时且易过时。业务缺乏统一的管理和检索工具,降
149、低数据管理成本,帮助业务快速找到对应的文件。跨模态检索服务支持全媒体文件类型,依托海量中文语料数据集提取多模态特征并映射至统一特征空间,实现跨模态关联检索。数据价值挖掘不足海量的数据没有被有效的归类、关联、复用,导致业务重复搭建数据管理工具且数据使用效率低,数据价值挖掘不充分。单一模态检索限制多传统检索局限于单一模态(如“以文本搜文本”),无法满足多模态数据关联需求,同时依赖关键词匹配,忽略多模态数据的深层语义关联很难实现自然语言检索。数据万象MetaInsight49-50海量数据高效分析快速、精准地从数十亿文件中查询指定条件的文件结果,如某个文件、某批文件数量、图片格式占比等。一站式检索服
150、务平台可以根据关键词查询文件,例如查询包含某个关键词的文件或某人物出现的视频等,便于对数据进行管理和分析,挖掘数据价值。数据万象大语言模型图片集I1I2I3I4I5ImageencoderT1T1T1T1文本集Textencoder8023970T116Embedding相似度对比T1T1T1T1文本集Textencoder99558092T15Embedding相似度对比视频集V1V2V3V4V5Videoencoder独特优势跨模态检索支持以文搜图、以图搜图等多种数据检索的手段,并支持对对象元信息的高效查询和统计分析。场景全覆盖覆盖上千个细分场景,用户可根据业务场景挑选预置模板,快速搭建检
151、索应用,从而实现最大化的释放内容价值。高性能可以在毫秒级延时的情况下,实现千亿级数据的查询及95%以上的召回率。场景2:智能相册基于MetaInsight的人脸检索能力,用户可在相册中快速搜索与指定人脸高度相似的图片,并按相似度排序,结合元数据管理实现亿级图片的秒级检索,突破传统相册按时间/地点分类的单一模式。场景3:大数据场景下的数据预分类在AI模型训练前,MetaInsight可对海量非结构化数据进行智能预分类,通过语义检索(如输入“雨天”“行人穿行”)快速筛选特定场景数据。相比人工标注,该方案能减少70%以上的预处理时间,同时支持跨模态检索(如图像+文本描述),帮助企业在数据清洗阶段高效
152、构建高质量训练集。使用场景及案例场景1:电商商品检索基于MetaInsight的以图搜图功能,用户在上传商品图片后,系统通过特征提取与索引库中的商品图进行相似度对比,快速返回同款或相似款商品信息,解决传统关键词检索的局限性。用户终端COS对象存储非结构化数据文档图片视频音频图像检索人脸检索视频检索基础信息检索模板基础元信息视频标签图像标签文本特征视频DNA质量评分 算子检索条件数据集图像检索人脸检索pictextvideosql数据集A(图像检索模板)数据集B(基础信息模板)数据集C(人脸检索模板)数据集D(视频检索模板)1、上传数据4、查询数据3、索引入库2、构造检索模板5、构造检索条件Me
153、talnsight日志分析门槛高日志内容多、数据量大、格式不固定,人工查看依赖经验,学习成本高且效率低。被动响应机制滞后异常检测依赖经验配置,难以发现未知风险,缺乏主动预警能力。工具生态割裂数据分散在监控平台、数据库、CMDB、第三方平台,跨平台协作成本高,难以形成闭环。故障定位效率低根因分析需跨多数据源(日志、指标、Tracing)关联分析,人工排查耗时长且严重依赖专家经验,难以标准化。传统的基于算法的智能运维平台,在解决上述痛点时,对监控数据来源、应用系统拓扑关系有较高的要求。覆盖场景不全面,优化调整不灵活,难以因对丰富多变的业务系统架构。在Data+AI平台中,Agentic Analy
154、tics(自主分析)通过智能化的数据管理、自动化决策和主动式分析能力,显著提升了数据驱动业务的价值。腾讯云日志服务(CLS)结合大模型技术,深度融合数据及AI能力,构建“数据智能中枢”,提供端到端MLOps能力:应对方案随着企业数字化进程加速,IT系统复杂度激增,传统运维模式面临严峻挑战:企业痛点日志服务CLS!51-52多模态数据处理 支持日志、指标、Tracing数据统一接入,兼容MCP协议及第三方数据源(如数据库、CMDB)。动态决策引擎从规则及算法驱动升级为“数据+知识库”双驱动,支持实时异常检测、风险演练及自动化修复。大模型驱动分析 基于精调的垂直领域专用大模型,根据运维知识库实现自
155、主规划运维排障流程、自动查询监控数据及自动化根因推理。核心能力技术架构CLS Agent模型精调RAG知识库模型:DeepSeek、混元、其他能力内嵌用户自有运维平台多数据源及工具指标DB事件CMDB第三方平台自然语言APIMCP协议APIMCP协议用户终端ChatOPS告警根因分析周期巡检使用场景及案例独特优势场景1:智能告警与根因定位通过CLS对接日志与Tracing数据,利用大模型自动关联错误日志与服务调用链,根因定位时间从小时级降至分钟级。场景2:日志解析自动化自动识别非结构化的原始日志,动态生成正则表达式与索引配置,实现日志结构化,提高后续查询效率。场景3:自然语言交互式运维用户通过
156、自然语言指令,触发智能巡检或异常分析,CLS自动生成可视化图表及分析报告,配置耗时从30分钟缩短至1分钟。垂直领域大模型精调基于腾讯海量运维场景数据训练的专用模型,监控数据查询准确率在90%以上,自主规划的运维排障流程更高效。全栈数据融合能力支持日志、指标、Tracing多模态数据统一分析,原生集成云上各类常用云服务监控数据。零门槛交互设计从数据查询、告警到仪表盘配置,全程支持自然语言交互,降低AI技术使用门槛。企业级闭环能力提供从风险预警(巡检)、事中排障(根因定位)到事后优化(知识沉淀)的全生命周期管理,助力运维从“被动响应”转向“主动预防”。企业在拥抱大模型与AI时,业务和IT面临严峻安
157、全挑战:数据是AI的“燃料”,但敏感数据在训练、推理过程中极易泄露,如通过提示词注入或不安全的API接口。AI模型的“黑箱”特性使得其决策过程难以追溯,提示词注入等新形态的AI攻击模式,可能引发合规风险与业务损失。MCP协议作为智能体生态中的“通用连接器”,也带来了协议碎片化、传统应用接入安全性控制、身份认证和统一权限管理等一系列安全问题。AI智能体(Agent)的自主行为扩大了攻击面,凭证管理、越权访问等问题凸显,对现有安全体系构成严峻考验,亟需可信、可控、可靠的AI安全防护。企业痛点为应对大模型和AI带来的安全痛点,企业需构建“数据+AI”一体化的安全能力体系,其核心在于将数据安全治理与A
158、I生命周期安全深度融合,实现端到端的风险管控。应对方案大模型应用存储层生产数据存储客户侧行业数据推理数据存储API调用mySQLTDSQLCOSVDB.数据处理数据工程师数据清洗数据筛选数据转换数据标注算法工程师开发工程师模型训练分布式训练模型评估算法工程师模型精调参数调整模型评估实施工程师开发工程师模型发布模型打包发布管理最终用户模型推理数据输入数据输出模型开发开发测试参数调试开发工程师测试工程师开发测试库数据访问数据访问数据访问数据访问同步仿真数据数据输入进行精调数据采集传输控制机制:数据溯源KMSTSM数据库安全审计数据库防火墙静态脱敏数据库安全审计数据库防火墙数据库安全审计数据溯源数据
159、防泄漏特权与数据访问分类分级:风险评估风险监测运营管理静态脱敏动态脱敏动态脱敏控制机制静态脱敏数据加密敏感数据分类分级风险评估与监测数据安全审计数据防泄漏动态脱敏控制机制静态脱敏数据加密敏感数据分类分级风险评估与监测数据安全审计数据防泄漏机密计算模型加密联邦学习秘钥管理分类分级风险评估用户行为监测机密计算平台数据溯源数据防泄漏安全网关:输入输出敏感数据发现数据动态脱敏身份认证与权限控制数据导出腾讯云数据和智能安全大模型数据安全保护数据分类分级与脱敏:在数据接入和处理阶段,对敏感数据(PII/PHI、商业机密)进行精准识别、分类分级,并采用国密加密、脱敏、数据匿名化等技术,在保证数据可用性的前提
160、下,最大限度降低泄露风险。特别是在构建RAG知识库或微调模型时,确保输入数据的合规性。安全的数据流转与存储:建立覆盖数据全生命周期的安全防护,包括传输加密、存储加密、访问控制。针对向量数据库等新兴存储,需制定专门的安全策略。53-54AI基础设施和运行环境保护通过AI大模型应用防火墙(LLM-WAF),可以对智能化应用的边界建立全面的应用和API保护能力,对用户输入(提示词)进行恶意指令检测、敏感信息过滤,对模型输出输出进行合规性审查,提供多模型、多场景、高并发环境下的全链路防护能力。LLM-WAF还支持实时检测并拦截针对大模型的算力滥用、提示词攻击及数据泄露风险,助力企业构建可信、稳定、可持
161、续的大模型服务生态。AI-SPM是保护大模型基础设施和运行环境,检测大模型攻击面和漏洞的安全管理系统,通过外部攻击面检测、AI基础设施软件组件成分管理、结合威胁情报和漏洞检测,及时发现和处置安全风险。开放式能力扩展平台AI安全防护矩阵动态流量调度中心MCP协议标准化引擎智能体模型服务用户提问内容模型返回内容企业用户平台APPWeb小程序消耗拦截不当内容提示词攻击请求正常返回风险不当内容数据泄露提示词泄露风险请求大模型服务源站Deepseek混元大模型Qwen2.5阶跃星辰LLM-WAF 大模型安全防护平台大模型业务安全防护大模型生成内容安全过滤注入攻击多模型接入数据分级分类引擎:身份证、手机号
162、、社保卡、护照号、银行卡等混元内容安全大模型:社会、政治、色情、违法、其他不当内容安全策略内容策略自定义敏感库BOT攻击API越权算力消耗内容安全数据泄露提示词攻击WAF+大模型安全引擎正常返回AI模型与应用安全保护天御大模型安全网关,作为企业AI应用落地的安全中枢,连接智能体、模型与服务,实现统一治理与高效协同,并通过多层次防护机制解决AI规模化应用中的关键风险。身份与权限管理:为AI智能体分配独立的、最小权限的凭证,避免凭证硬编码;建立严格的访问控制策略,限制其操作范围和数据访问权限。行为监控与审计:对AI智能体的行为进行实时监控、记录和审计,及时发现异常活动和潜在威胁,如越权访问、数据外
163、泄等。全链路安全管理:支持精准识别并处置输入指令、生成内容、运行环境等大模型场景下的各类安全风险,包括恶意指令注入、工具投毒攻击、访问敏感信息等,同时具备弹性的管控粒度,支持基于MCP server以及MCP tools维度的策略配置,为用户提供丰富的、全面的的安全防护能力。MCP协议封装:提供标准化协议转换能力,支持将传统API接口一键封装为标准化MCP服务,同步生成Client SDK实现Agent无缝集成,有效降低开发门槛,助力企业存量业务快速融入MCP生态。网关流量控制:提供基于MCP Server的路由配置、正反向代理及全维度流量管控能力,可基于参数、版本、协议、负载做动态调度,实现
164、多版本、多模型、多工具动态调度。多维防护体系:基于开放式安全能力中台,提供标准化接口快速集成内容安全、数据安全等第三方服务组件。用户可灵活配置文本/图片多模态内容审核、结构化数据安全检测等场景化防护策略,构建全面的大模型安全治理体系。场景案例一:企业智能体应用的安全防护某制造企业使用AI智能体监控生产线数据,并自动管控设备参数。大模型在规模化部署中面临注入攻击、敏感数据泄露、MCP Tools投毒等多重安全威胁,企业需要构建从输入到输出全链路的智能体安全防护体系。通过部署天御大模型安全网关,建立针对大模型的多维攻击防御,识别及拦截处置提示词注入、工具越权访问、异常流量等攻击行为,并内置敏感数据
165、识别规则,脱敏身份证号、电话号等高危字段,保护企业系统和信息安全。实时追踪智能体的操作指令和数据访问行为,一旦发现智能体尝试访问非授权数据或执行超出权限的操作,系统会立即告警并阻断,防止因智能体被恶意利用导致生产事故或数据泄露。场景案例二:零售企业智能客服系统的大模型安全防护某连锁零售企业上线了基于大模型的智能客服系统,为消费者提供订单咨询、退换货政策解答及商品推荐服务。为防止用户输入、大模型输出中包含个人敏感信息,或恶意用户发起提示注入、诱导攻击,以及模型被误导生成违规、敏感或不当内容,该企业接入了腾讯云LLM-WAF大模型应用防火墙方案。在输入阶段,系统可实时识别手机号、地址等隐私数据并提
166、示用户,同时检测并拦截潜在的注入攻击与提示词诱导行为;在输出阶段,对大模型生成结果进行内容审查,防止泄露个人敏感信息或输出不合规表述。系统还支持对风险交互内容进行日志留存与策略优化闭环,助力企业在提升客服智能化体验的同时,保障合规运营与品牌声誉安全。同时通过部署AI-SPM,对于企业大模型基础设施和智能应用生产运行环境进行全面的风险管理和安全监控,结合外部暴露面管理、威胁情报、漏洞检测,综合评估和运营AI应用和基础设施的安全态势,完成管理和响应闭环,保障业务安全稳定运行。使用场景及案例天御大模型安全网关安全防护流量控制XGit MCP ServerCos MCP ServerSQL MCP S
167、erverFigma MCP Server文档转换 MCP ServerAI智能体应用身份安全工具安全内容安全攻击防护限流限频自定义路由容灾熔断黑白名单腾讯云在“数据+AI”安全领域具备显著优势,能够为企业构建安全可信的AI应用提供坚实保障:独特优势55-56通过这些优势,腾讯云致力于帮助企业在充分享受AI技术红利的同时,有效管理和控制潜在安全风险,实现可持续的智能化转型。领先的数据安全治理实践腾讯在海量数据处理和安全治理方面拥有丰富经验,其数据安全产品(如数据安全中心、数据库审计等)能够有效保障AI训练和推理数据的全生命周期安全。强大的AI技术积累与生态腾讯混元大模型等自研AI技术与行业解决
168、方案相结合,能够提供更懂业务场景的AI安全能力,例如针对性的内容安全审核、AI智能体行为分析等。云原生与开放集成腾讯云平台提供云原生的安全服务,易于集成和扩展,能够与企业现有IT架构和第三方安全工具无缝对接,助力企业快速构建符合自身需求的“数据+AI”安全体系。全栈安全能力与经验腾讯云拥有从基础设施安全(IaaS)、平台安全(PaaS)到应用安全(SaaS)的完整安全产品矩阵和深厚的攻防实战经验,能够为AI系统提供多层次、纵深化的安全防护。Data+AI典型行业应用场景0557-58Data+AI未来发展06Data和AI的结合在当下已经变得非常普遍,它们的应用场景极其广泛,几乎涵盖了所有行业
169、和领域。以下是Data+AI结合的主要行业应用场景:不止这些,随着AI技术的不断进步和数据量的爆炸性增长,Data+AI的应用场景将会更加丰富和深入,为各行各业带来前所未有的变革和效率提升。大模型通过实时交易数据推理,可以实时监测市场动态,调整投资策略,提高收益率和降低风险;大模型通过分析客户的信用历史、行为特征和社会关系等数据,可以为金融机构提供精准的风险评估和欺诈检测。另外AI可以利用图神经网络、对抗生成网络和异常检测等技术,挖掘潜在的风险因素,识别异常行为,防范金融损失。基于用户风险偏好、市场趋势及历史收益数据,AI算法生成动态投资组合,并通过自然语言生成(NLG)技术输出可解释性报告。
170、利用实时新闻、社交媒体情绪数据训练预测模型,提前捕捉市场波动。在金融行业企业通过在生产线各个环节安装传感器,实时捕捉机器的运行状态、生产速度、物料消耗等数据。AI系统对这些数据进行精确分析,能够及时识别生产中的瓶颈与问题,如机器效率下滑或某一环节耗时增加,并提供相应的优化措施。在供应链管理中,可以尝试利用AI大模型,实时监控供应链中的各个环节数据,如原材料供应、物流运输、库存管理等数据,优化供应链的资源配置和运作效率,降低运营成本。并基于实时交通、天气数据,AI算法规划最优运输路线。在制造业AI大模型通过分析海量的生物医学数据,能够自动识别靶基因,发现生化和药理学原理,从而帮助科研人员更好地理
171、解疾病的异质性,为后续的靶点发现打下基础等等。在医学诊断中,影像数据可以提供病变的视觉信息,而病理数据则可以提供细胞层面的详细信息。结合这些多模态数据,可以更全面地理解病情并提供综合诊断建议,提高诊断的准确性。结合智能穿戴设备采集生理数据(如血糖、心率),AI模型可预警异常并推荐干预措施。聚合公共卫生数据与气候信息,可构建传染病传播模型,新冠疫情期间,类似技术被用于预测区域感染风险等级。在医疗行业AI通过分析历史销售数据、市场趋势及外部因素(如季节、促销活动),实现精准需求预测。例如通过AI+BI系统,预测SKU出货量及经销商拿货量,预测准度大幅提升,供应链全链路效率提高。生成式AI还能模拟不
172、同市场环境下商品销售趋势,辅助制定库存策略,减少过剩或短缺风险。AI驱动的商品推荐系统基于用户行为数据(如搜索、购买历史)生成“千人千面”的营销内容,例如AI搜索工具允许用户通过场景而非商品名称搜索产品,提升购物体验。在零售行业通过多模态传感器(激光雷达、摄像头、毫米波雷达等)实时采集环境数据,结合GPS/IMU实现厘米级定位,AI能实现同时处理视觉图像、雷达信号、GPS定位等多种模态数据,进而提供准确的环境感知和决策。基于实时交通流、障碍物轨迹、历史驾驶等数据,AI模型(如强化学习、博弈论算法)生成最优路径规划,并预测周围车辆/行人意图,提高驾驶安全性,及时应对突发情况。例如,处理“鬼探头”
173、等边缘场景时,合成数据训练可提升模型泛化能力。在一些更为复杂的智能辅助驾驶场景中59-60Gartner预测,到 2028 年,80%的GenAI商业应用将在组织现有的数据管理平台上开发,从而将实施复杂性和交付时间降低50%。到 2028年,来自至少三个地区的AI模型的数据主权和偏见将占AI数据管理工作负载的50%。到2027年,组织内60%的AI工具使用将无人监督,从而促使对主动元数据解决方案的投资增加,以跟踪使用情况。未来Data+AI平台的一体化发展将使数据与AI更紧密,推动企业AI建设实现飞跃。特别是围绕数据管理生态的融合、自然语言交互的应用,以及数据质量与治理的强化等六个方面的技术升
174、级尤为关键,以此更好地应对未来挑战并抓住技术红利。数据管理市场的融合过去分散的数据管理市场将围绕“数据生态系统”(由数据织物和生成式AI驱动)融合为“单一市场”,以显著降低技术复杂性和集成成本。关键举措包括停止部署孤立的点解决方案,采用集成化的数据生态系统,并投资元数据管理和数据织物技术。自然语言交互的普及未来,自然语言将成为查询和操作数据管理生态系统的主要方式,数据消费效率得到大幅提升,针对非技术用户,可通过自然语言直接访问数据,减少对传统语义层和建模工具的依赖,推动数据民主化。生成式AI(GenAI)在现有平台的深度整合企业可以基于企业现有数据管理平台(如数据湖仓)开发生成式AI业务应用,
175、这样的资源整合可以减少实施的复杂性和交付周期。技术上可以采用检索增强生成(RAG)技术,利用现有平台作为知识源,增强应用的稳定性和数据兼容性。数据质量与治理的强化数据质量差、风险控制不足将导致很多生成式AI项目在概念验证阶段被放弃。企业可通过主动元数据管理提升代码/查询生成的准确性,防范AI幻觉和隐私泄露,并采用合成数据扩展训练数据集。代理型AI(Agentic AI)的崛起AI代理将重构软件接口,通过自然语言、手势等多模态交互取代传统界面,并分解端到端流程为多代理协作任务。企业需建立适应性强的治理框架,确保自主AI系统的安全性和可验证性。数据基础设施的适应性与合规性提升企业将更注重数据基础设
176、施的直接投资回报,例如通过与云中立供应商合作提升跨云数据集成效率,并增强数据的AI准备度(如元数据管理和AI供应商协作)。总结Data+AI不仅会改变企业原有运营方式,同时还为企业提供了增长的新途径。企业只有充分认识到Data+AI的重要性,并将其作为战略实施重点,促进智能化转型以保持竞争力和市场领导地位。未来,随着多模态大模型发展,企业的数据平台将更注重实时性、自适应能力与伦理合规,成为企业GenAI落地的核心基础设施。相关数据及观点来源报告如下:1、Gartner Inc.,Data Management Is the Sole Differentiator in a Commoditiz
177、ed and Multipolar LLM World,G008283082、Gartner Inc.,Develop Unstructured Data Management Capabilities to Support GenAI-Ready Data,G008217283、Gartner Inc.,Emerging Tech:Data Fabrics With Multimodal Data Focus for Generative AI-Enabled Applications,G008181414、Gartner Inc.,Market Guide for Agentic Analytics,G00824122 5、Gartner Inc.,Quick Answer:How Is Generative AI Transforming Self-Service Analytics?G00794295