《艾瑞咨询:中国云原生数据湖应用洞察白皮书(47页).pdf》由会员分享,可在线阅读,更多相关《艾瑞咨询:中国云原生数据湖应用洞察白皮书(47页).pdf(47页珍藏版)》请在三个皮匠报告上搜索。
1、中国云原生数据湖应用洞察白皮书2022.4 iResearch Inc. 22022.4 iResearch Inc. 摘要来源:艾瑞咨询研究院自主研究及绘制。概念界定:数据湖是面向大数据场景的创新解决方案,采用了与传统数仓不同的设计架构,具有数据多源异构、统一存储管理、多范式计算、schema后置和应用广泛的特性。云原生是数据湖未来部署的必然形态,具有建立统一数据资产、低成本使用基础资源、高性能计算体验升级和敏捷创新赋能的核心价值。市场现状:数据变革、企业数字化转型、投融资、政策支持将持续加速释放云原生数据湖的应用需求。2020年云原生数据湖市场规模(含生态)达124亿,预计未来三年将以39
2、.7%的复合增长率快速扩张。竞争格局:中国云原生数据湖还处于发展的早期,能够提供整体解决方案的独立厂商还较少,市场较为集中,竞争主要围绕头部云厂商展开。以营收口径核算,2020年云厂商在中国云原生数据湖市场(不包含生态支持部分)的份额达到了82.4%。趋势展望:在云原生与大数据背景下,云原生数据湖成为企业智胜未来的新一代生产力工具,市场即将迎来爆发期。尽管数据湖与云和大数据天然契合(海量、弹性、简单、敏捷),但在具体业务场景落地中,仍有许多实际问题需要解决。未来,云原生数据湖厂商需与开发者、ISV和SI共同努力,在企业级生产环境中不断探索,生态共赢驱动云原生数据湖解决方案日臻完善。应用现状:现
3、阶段,云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。选型建议:企业在布局数字化转型时,面对多元且快速迭代的业务需求,一方面需建设统一的数据底座,另一方面需关注DT能力的开放性、敏捷性和创新性。在选型云原生数据湖时,除内部能力评估外,还需要考虑服务商的服务半径和发展路径。3云原生数据湖概念界定1云原生数据湖市场现状2云原生数据湖竞争分析3云原生数据湖行业应用与最佳实践4云原生数据湖选型建议与典型企业5云原生数据湖发展趋势642022.4 iResearch Inc. 数据湖的定义数据湖是面
4、向大数据场景的创新解决方案早期,业界和用户多把数据湖定义为一个储存原始格式数据的系统,可容纳结构化、半结构化、非结构化及二进制的数据。随着大数据技术的融合发展,数据湖的边界不断扩展,内涵也发生了变化。数据湖开始汇集各方面技术,逐步演进成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。它可以更加高效率低成本地管理海量多源异构数据,打通数据孤岛,释放数据价值,助力新时代下各行业企业的数字化转型。来源:艾瑞咨询研究院自主研究及绘制。数据湖典型构架及特性数据湖接入层离线数据湖管理层任务管理流程编排质量管理数据治理数据接入数据搬迁访问控制资产目录元数据管理数据湖计算层离线计算
5、实时计算应用BI报表数据大屏数据挖掘机器学习IoT分析数据科学数据库数仓APP日志MapReduceSparkStormFlinkSpark Streaming数据湖存储层OSS数据湖应用层实时调用数据湖调度层统一的API接口 应用广泛:支持使用者通过自助访问业务数据,支持数据挖掘、机器学习等未知探索诉求。 Schema后置:数据湖存储数据不需要满足特定的范式,支持在读取数据的时候schema。 数据多源异构:可容纳海量数据,且无存储格式要求,接收结构化、半结构化、非结构化及二进制数据入湖。数据统一存储管理:对内以OSS为中心,进行统一存储,对接多范式计算引擎,对外提供统一的API接口多范式计
6、算:支持多种计算引擎,满足不同数据计算分析需求,支持批处理、流处理、机器学习等。52022.4 iResearch Inc. 数据源数据处理适用场景性价比支持处理过后的结构化/半结构化数据;来自业务系统写时建模(Schema-on-write)传统行业,以及企业的稳态业务;数据量少,数据结构化,稳定可预测,对执行实时性要求不高建设成本低扩容成本高高度监管与严格事前控制,满足企业级诉求;数据与模式稳定,引擎优化表现较好。支持未经处理的结构化/半结构化/非结构化数据;来自IoT设备、Web、APP和业务系统等读时建模(Schema-on-read)泛互联网行业以及传统行业的互联网场景;海量数据,迭