1、Your Data for Your AIMatrixOne IntelligenceAI原生多模态数据智能解决方案白皮书 1 Your Data for Your AI 目录 前言.2 GenAI 时代的数据挑战.3 类人脑计算能力的崛起.3 非结构化数据价值开始被挖掘.3 企业落地 GenAI 的数据困境.5 典型行业场景的落地难题.6 总结.8 MatrixOne Intelligence AI 原生多模态数据智能解决方案.9 MatrixOne Intelligence 概述.9 解决方案架构介绍.9 核心产品概述.11 解决方案技术特点及优势.13 解决方案技术流程详解.15 整体数
2、据流程.15 数据接入与整合.16 数据预处理与解析.19 特征工程.21 数据标注与增强.23 模型训练与评估.25 RAG 召回与搜索.27 总结.30 行业案例.31 极视角多模态数据与特征平台.31 深智城集团.32 江西铜业.33 金意陶.34 素问 TechAgent.35 总结.38 2 Your Data for Your AI 前言 在当今时代,Gen 人工智能(Generative AI,简称 GenAI)正以前所未有的速度席卷全球,成为推动科技进步和产业变革的重要力量。从 ChatGPT 的横空出世到各类大模型的广泛应用,GenAI 不仅在技术层面取得了突破性进展,更在商
3、业和社会层面引发了深远的影响。从文本生成、图像绘制到视频制作,GenAI 的应用场景日益丰富,为各行各业带来了前所未有的机遇与挑战。据麦肯锡全球研究院(McKinsey Global Institute)的报告,到 2030 年,AI 技术有望为全球 GDP 贡献高达 13 万亿美元的增长。Gartner 预计在 2026 年,超过 80%的企业将使用 GenAI 应用程序编程接口(API)或模型,或者在相关生产环境中部署支持 GenAI 的应用程序。这一比例在 2023 年还不到 5%,这意味着在短短三年内,采用或创建 GenAI 模型的企业数量预计将会增长 16 倍。在 GenAI 的架构
4、中,数据处理的作用尤为关键。AI 技术与数据的紧密联系显而易见:庞大的数据集训练出强大的 AI 模型,而这些模型的功能又能促进数据处理的进一步优化。尽管如此,行业对 GenAI 技术栈中的算力层、模型层和应用层的各项能力及技术方案已有深入探索,但对数据处理层的重视程度仍显不足。在通用基座大模型越来越普及的趋势下,对企业自有数据的挖掘利用将变成 GenAI 落地企业级应用的最关键因素。矩阵起源作为一家 Data+AI 领域的创业公司,在数据及 AI 领域已经有超过十年的行业经验沉淀。本白皮书将从矩阵起源的专业视角,深入剖析 Data+AI 领域的最新趋势和挑战,并给出如何对企业自有数据进行深度挖
5、掘利用的详细蓝图,以实现更符合企业实际业务价值的 GenAI 应用落地。3 Your Data for Your AI GenAI 时代的数据挑战 类人脑计算能力的崛起 驱动 GenAI 技术发展的核心是大语言模型 LLM,其本质上是使用计算机构建巨大的神经网络结构模拟人脑神经元的构成,然后将海量的文本知识压缩到一个有庞大参数量的神经网络中。这样的架构可以给计算机赋予人类一样的交互能力,可以理解人类的语言和需求,再生成便于人类理解的数据。GenAI 的类人脑计算能力与过去传统意义上计算机擅长的高速数学计算有根本性的区别:1.传统计算能力可以轻松完成人类在短时间内难以完成的复杂科学计算,而且工作
6、准确度极高,相同的任务可能需要大量人力进行手动计算整合才能完成,且人类的工作经常出错,但是传统计算能力难以处理以人类自然语言构成的 NLP 任务,比如文档理解、对话理解、图片理解等,而对于人类而言即使是儿童也具备这些能力。2.而新型的 GenAI 计算能力是完全模仿人脑的结构所设计的,所展现的能力也跟人类行为极为相似,通过自然语言交互,同样能很轻松的胜任文档理解、对话理解、图片理解等任务,同时具备一定的创造力,可以生成现实中不存在的东西,但是并不擅长复杂的数学计算,准确度也是天生的缺陷。因此,GenAI 真正带来的是一种全新的类人脑计算能力,它与传统的计算机精确数学计算能力共同构成了我们当今