1、2022.7 iResearch Inc.中国数智融合发展洞察22022.7 iResearch I摘要来源:艾瑞咨询研究院自主研究及绘制。VUCA时代,市场变化加速。企业需要更加敏捷而准确的数智化决策,这些决策应当是分钟级的而非天级的,应当是基于全量数据的而非局部数据的,应当是基于准确数据的而非基于“脏数据”的,应当是业务人员和数据分析人员任意发起的而非是通过复杂流程和多部门配合才能实现的。传统的数仓或者湖仓分离架构让数智融合和企业敏捷决策变得困难:数据孤岛存在,决策无法基于全量数据;数据来回流转,成本高、周期长、时效差。基于存储-缓存-计算分离,湖-仓-AI数据统一元数据管理的Server
2、less,可在数据量、成本、效率、敏捷方面取得最优解。开源为数智生态贡献重要力量,但这不预示所有企业需通过开源产品自建数智平台。实际上,大多企业聚焦自己核心业务,选择性能稳定、无须运维、数智融合、端到端自动化与智能化的商业化数智平台,ROI会更高。当然,平台应与主流开源产品具有良好继承性,如此,更加灵活开放,企业的IT人才补给成本也更低。3中国数智融合发展背景1企业数智融合的痛点及应对2数智融合典型实践342022.7 iResearch I2022.7 iResearch I数据量和非结构化数据占比上升统一管理,统一查询使用,成为新的挑战全球数据量以59%以上的年增长率快速增长,其中80%是
3、非结构化和半结构化数据,中国数据量的上升较全球更为迅速。数据量和非结构化数据的上升,使得基于对象存储的数据湖越来越为普及。此时,如何使用统一管理,统一查询使用,成为新的挑战。来源:中国电信招股说明书,艾瑞咨询研究院整理及绘制。来源:艾瑞咨询研究院自主研究及绘制。2015-2030年中国数据量规模及全球占比企业内结构化数据与非结构化数据占比及使用情况在企业的数据中,结构化数据仅占20%,其余80%都是以文件、语音、图片等形式存在的非结构化数据。且非结构化数据的增速远远高于结构化数据,随着时间的推移,非结构化数据所占的比例将会越来越高。企业长期以来,受技术影响,对结构化数据的利用率均高于对非结构化
4、数据的利用率。但实际上,非结构化数据的体量与其包含的信息量都更多,是企业未得到充分利用的宝贵资产。结构化数据,70%非结构化数据,30%3124917523.2%23.6%27.8%28.8%201520202025e2030e中国年数据量(ZB)中国年数据量全球占比(%)非结构化数据,80%结构化数据,20%52022.7 iResearch I2022.7 iResearch I数据多源异构成为常态数据从“汇聚才可被用”到“链接即可被用”在传统数仓中,多源数据经ETL过程并集中入仓,方可被使用。该方式有许多不足:第一,因有复杂的ETL过程及大量数据的传输,数据实时性难以保障,因此分析常必须
5、T+1才可完成;第二,数据的全量存储和存储成本之间难以取舍,因此必须提前抉择保留哪些数据,随着数据种类的逐渐增多,这很难做到;第三,对于异常值的下钻、回溯等,无法回溯到最为原始的数据。随着应用场景的增多,数据库的种类也逐渐丰富,如更适应物联网场景的时序数据库、更适应知识谱图应用的图数据库,等等。综上,多源异构、分布存储、现用现传、统一查询与应用的架构,逐渐被敏捷型企业认可。来源:艾瑞咨询研究院自主研究及绘制。来源:艾瑞咨询研究院自主研究及绘制。数据仓库vs数据湖vs湖仓一体数据库的多源性BI报表结构化/半结构化数据ETL数据仓库结构化/半结构化/非结构化数据数据处理BI报表数据湖数仓集群 数湖
6、集群统一资源池计算层存储层计算层存储层存算分离,弹性扩展接口BI报表数据仓库vs湖仓一体数据湖vs湖仓一体“湖仓一体”作为数据处理统一底座,提供实时处理多引擎、多数据类型能力,避免数据移动建模,降低数据处理的成本。“湖仓一体”弥补Hadoop下数据湖实时数据处理的缺失,降低事后数据治理难度,提升了大数据应用性能。公有云1公有云2私有云虚拟机物理机OracleDB2达梦开源OpenGaussMySQLPostgreSQLReids关系型非关系型部署资源管理 监控巡检性能容量高可用安全性一站式数据库管理62022.7 iResearch I大数据的5V价值有待进一步释放可从平台性工具入手,进而解决