《奇点研究所:OLAP数据库引擎选型白皮书(2022)(19页).pdf》由会员分享,可在线阅读,更多相关《奇点研究所:OLAP数据库引擎选型白皮书(2022)(19页).pdf(19页珍藏版)》请在三个皮匠报告上搜索。
1、O L A P 数 据 库 引 擎 选 型 白 皮 书1.1 OLAP数据库引擎概述1.2 OLAP数据库引擎选型过程中存在的问题1.3 如何更好地对数据库引擎进行选型?1.4 报告特色2.1 测评结果表 2.2 引擎评述2.3 选型指南评分标准 01020203040511141.0 背景2.0 测评结果附录010414目 录C o n t e n t s1.0背景 OLAP(Online Analytical Processing,联机分析处理),主要应用于大规模数据分析及统计计算,为决策提供数据支持。OLAP数据库引擎贯穿于数据时代发展的 3个阶段。无论在哪一阶段,当企业需要积累数据并进
2、行数据分析时,就会面临 OLAP数据库引擎的选型问题。1.1 OLAP数据库引擎概述*.02O L A P 数 据 库 引 擎 选 型 白 皮 书目前市面上可选择的数据库类型越来越多,数据库呈多元选择趋势。在进行数据库引擎选型时,可选项繁多,而目前市面上可参考的选型标准较少,选型流程长,耗费成本高。1.选项繁多,选型流程长开源数据库的成熟度开始逐渐超过商业数据库。虽然避免了高昂的服务费及license费用,但开源数据库在易用性、配套能力等方面存在一定缺陷,会产生额外的开发、部署、迁移等成本。因此,在选型过程中,除了考虑性能之外,运维成本、数据安全、生态影响力等维度也需要纳入考虑范围。2.开源逐
3、渐成为大趋势,选型时需进一步考虑的维度增加在选型过程中,针对不同的业务场景和环节,分维度对不同数据库引擎进行测试和比对,能有效提升数据库引擎选型的效率。选型时需要综合考虑业务需求、性能、维护成本、数据安全等多种维度的信息。具体而言,至少需要考虑以下三个层面:1.3 如何更好地对数据库引擎进行选型?测试业务场景要与企业的实际业务场景类似,这样提供的信息才能有效有效辅助决策者做出适合业务的决策;1.充分考虑业务相关性中国数据库行业研究报告(2021年)显示,2020年中国数据库市场总规模达 247.1亿元,同比增长16.2%。2020-2022中国数据库市场预计将呈高增长态势。数据库行业持续发展的
4、同时,在数据库引擎选型的过程中也存在着以下问题:1.2 OLAP数据库引擎选型过程中存在的问题数据库引擎采购常见流程调研企业内部业务需求结合内部需求,对市场上的供应商进行调研及初筛调研结合初筛结果触达供应商商务触达供应商演示解决方案企业结合演示情况进行进一步筛选二次评估部分企业会通过POC项目进一步验证供应商的产品及实施能力POC采购03本次测评在数据构造及测试过程中充分考虑到泛零售的业务场景,数据构造方案来源于真实客户业务场景,评测维度充分考虑了引擎的易用性及可维护性。有以下特色:1.4 报告特色奇点云深耕泛零售领域,曾服务泛零售行业近 50%头部客户,在该领域有非常丰富的项目实施经验。测评
5、过程中构造数据时,充分考虑了泛零售行业客户在选型时关注的主要业务场景,如泛零售数据计算、BI报表、不同规模数据即席查询等;1.来自最佳实践除基本的性能测评外,本次测评还关注到了数据安全、运维成本、元数据等维度;2.关注更多维度通过客观的数据建模方式进行计算,整体结论客观中立;3.客观中立整体指标及选型模型设计时更加贴合 OLAP场景。4.专注于 OLAP构造的数据集过于规则容易测试出较高的指标。但真实的环境,数据是有瑕疵和倾斜的。因此,在数据构造阶段需要充分理解客户的业务场景,并可尽量模拟出贴近真实应用场景的数据。3.保障测试数据真实有效基准测试一般有多个度量指标,不同业务场景关注的指标会有较
6、大区别。在设计指标时候,需要充分考虑业务关注点;2.根据实际业务场景选择合适度量指标如何通过测试比对,找到最适合的数据库引擎?指标多维性数据真实性业务相关性04O L A P 数 据 库 引 擎 选 型 白 皮 书2.0测评结果测评结果如下图,共 11个分析维度2.1 测评结果表全表scan性能MySQLClickHouseStarRocks维度引擎事实表查询性能宽表查询性能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据TiDBPresto+KuduImpala+Kudu以上评分从高到低依次为:GABCD05基本介绍:MySQL是目前最流行的开源数据库,其本身属
7、于是 OLTP引擎,但是也具备一些 OLAP计算的能力。协议被众多其他引擎采用,被广泛地应用在Internet上的中小型网站中。总评:MySQL在即席查询性能和数据批量同步维度表现较好,其他维度表现一般,不支持统一元数据管理。整体而言,MySQL体积小、速度快、成本低,开源。单机版易操作,单机性能好,适合中小型表,业务量低于亿级别,对计算和查询性能都有一定需求的客户可以选择 MySQL。2.分析引擎评述2.2 引擎评述全表scan性能MySQL维度引擎事实表查询性能宽表查询性能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据全表scan性能事实表查询性能宽表查询性
8、能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据1.测评结果2.2.1 MySQL优点:1.支持事务;2.低成本易上手:体积小,部署方便,资源占用少。技术成熟,使用标准SQL数据语言形式,易上手;3.兼容性较好,适配性强:支持 Linux、Mac OS、OS/2 Wrap、Solaris、Windows等多种操作系统,BI软件基本都支持 MySQL数据源。缺点:1.开发运维成本高:对存储过程和触发器支持不够良好,开发和维护存储过程比较难。且不支持热备份;2.海量数据处理的时候效率不高,单机连接并发数上线较低,单表数据量千万查询性能下降,复杂 SQL执行效率低;3
9、.版本更新慢。06O L A P 数 据 库 引 擎 选 型 白 皮 书1.测评结果2.2.2 TiDB基本介绍:TiDB由 PingCAP公司开发和支持,是一个开源的 NewSQL数据库,支持混合事务和分析处理(HTAP)工作负载,与 MySQL兼容,并且可以提供水平可扩展性、强一致性和高可用性。TiDB是一个综合性的引擎,兼顾 OLAP和 OLTP,本次测评时主要考虑 TiDB的 OLAP场景。总评:TiDB事实表查询、宽表查询、即席查询和 AP计算性能方面表现亮眼,运维成本较低,无统一元数据管理。TiDB解决了 MySQL单机和中小型数据库表的瓶颈,高并发、AP、TP、即席查询性能均衡。
10、2.分析引擎评述优点:1.支持一键水平扩容或者缩容,支持高可用;2.云原生的分布式数据库;3.兼容 MySQL 5.7 协议和 MySQL 生态;4.自带运维监控系统。缺点:1.布署成本高,集群模式决定了需要更多的硬件成本;2.不支持分区,存储过程。全表scan性能维度引擎事实表查询性能宽表查询性能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据全表scan性能事实表查询性能宽表查询性能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据TiDB071.测评结果2.2.3 ClickHouse 基本介绍:ClickHouse是用于联机分析
11、处理的开源列式数据库,允许分析实时更新的数据,以高性能为目标。该引擎为 OLAP查询而设计,常见应用场景有服务器日志分析等。该项目于 2016年 6月开源。总评:ClickHouse在全表 scan、事实表查询、TP查询、AP计算、数据批量同步速率性能方面表现亮眼,支持统一元数据并且有落地场景,运维成本相对低。该引擎在并发和 TP查询维度一般,DataX集成速度快,适合大规模批处理计算场景。2.分析引擎评述优点:1.列式数据库管理系统:写入速度快,在一些其他系统中也可以将不同的列分别进行存储;2.数据压缩:数据压缩空间大,减少 IO,处理查询高吞吐量,每台服务器秒级数十亿行;3.资源利用率高,
12、适合在线查询;4.实时的数据更新,支持近似计算;5.不依赖 Hadoop复杂生态。缺点:1.不支持事务;2.不擅长根据主键按行粒度查询;3.不擅长按行删除数据。全表scan性能维度引擎事实表查询性能宽表查询性能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据全表scan性能事实表查询性能宽表查询性能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据ClickHouse08O L A P 数 据 库 引 擎 选 型 白 皮 书1.测评结果2.2.4 StarRocks基本介绍:StarRocks主要应用于实时分析场景,于 2018年在Ap
13、ache社区开源。是一款面向多种数据分析场景、兼容 MySQL协议的分布式关系型列式数据库。总评:StarRocks在数据查询处理性能方面整体表现亮眼,支持统一元数据管理,运维成本相对低。该引擎 load接口不稳定,常出现删除数据库空间无法释放的情况,并发性能中等,其他表现不弱于TiDB。2.分析引擎评述优点:1.StarRocks 并不依赖于大数据生态,但其外表联邦查询可兼容大数据生态;2.提供了多种不同模型,能够支持不同维度的数据建模;3.支持在线弹性扩缩容,可以自动负载均衡;4.支持高并发分析查询,在单表查询及多表 join方面综合性能均较优;5.实时性好,支持数据秒级写入;6.兼容 M
14、ySQL5.7 协议和 MySQL 生态。缺点:1.周边生态比较不完善;2.部分 SQL语法不支持。全表scan性能维度引擎事实表查询性能宽表查询性能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据全表scan性能事实表查询性能宽表查询性能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据StarRocks091.测评结果2.2.5 Impala+Kudu基本介绍:Impala是 Cloudera主导开发的查询系统,Impala并没有自己的存储引擎,不提供数据存储服务,但底层可集成多个数据源。Kudu 是针对 Apache Hadoop
15、 研发的列式存储管理器,支持横向扩展和高可用。Impala和 Kudu深度集成,数据可实时写入 Kudu,Impala提供 BI分析 SQL查询。总评:在即席查询场景下,Impala的稳定性和速度已在工业界经过广泛验证。Impala+Kudu架构支持随机读写,有良好的 Scan性能,对 Spark等流式计算框架有官方客户端支持,为实时数据仓库存储提供了良好的解决方案。适用于数据量不大、有一定的并发量、需要快速响应的场景。2.分析引擎评述全表scan性能维度引擎事实表查询性能宽表查询性能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据全表scan性能事实表查询性能宽
16、表查询性能TP查询性能AP计算性能数据批量同步速率高并发数据安全运维成本生态影响力元数据Impala+Kudu优点:1.Impala SQL语法与和 Hive SQL高度相似,学习成本低;2.Impala具备超大数据规模 SQL解析能力,能够高效利用 CPU与内存,快速返回结果;3.Impala与 Hue深度集成,提供可视化的 SQL操作以及 work flow;4.Kudu能完成与关系型数据库类似的操作,数据可以存储在 Kudu里并随时更新。缺点:1.Impala基于内存计算,整体而言对内存依赖性比较大;2.Impala基于 C+编写,引擎维护难度较大;3.Impala不支持 ANSI SQ
2022郑州市区域产业画像报告(44页).pdf
英敏特:2022中国消费者生活方式与态度趋势报告(21页).pdf
2022重庆市区域产业画像报告(44页).pdf
中欧商业在线:2021-2022 TOP20数字化学习最佳企业实践奖年度精选案例集(224页).pdf
万楼数据:写字楼需求市场-2022前三季度上海企业大数据报告(24页).pdf
远瞩咨询:2022年全球水电行业分析报告(28页).pdf
中欧商业在线:2022未来管理人才白皮书(24页).pdf
伟大航路:妙可蓝多是如何创建增长曲线的?(2022)(55页).pdf
云安全联盟:面向云客户的SaaS治理最佳实践(2022)(67页).pdf
艺恩:2022决胜“双11”抖音直播爆品指南(36页).pdf
智联招聘:职场新人的职业准备画像(2022)(30页).pdf
艺恩数据:2022Z世代IP兴趣报告(67页).pdf
全市场科技产业策略报告第125期:两大观察+三大思考探讨煤炭智能化行业发展前景(41页).pdf
银行合规性报告-为未来的复杂环境做准备(英文版)(12页).pdf
布鲁盖尔研究所( Bruegel):货币增长与通货膨胀关系报告(英文版)(21页).pdf
布鲁盖尔研究所( Bruegel):新欧元区通胀指标和目标报告(英文版)(29页).pdf
2021年假日零售趋势调查报告(英文版)(34页).pdf
2022年全球营销趋势报告-以客户为中心带动企业蓬勃发展(英文版)(68页).pdf
提高员工敬业度以重建对政府的信任(英文版)(28页).pdf
国际金融公司(IFC):2021年个人防护装备制造创新报告-走向可持续性和循环性(英文版)(68页).pdf
国际金融公司(IFC):基础设施共同投资选择-机构投资者指南(英文版)(46页).pdf
2021年元宇宙应用场景分析虚拟人偶像市场需求研究报告(27页).pdf
华赛天成(SAI Global):2021年澳大利亚商业保险报告(英文版)(10页).pdf
绿色气候基金(GCF):绿色气候基金年度报告-大流行期间的气候行动(英文版)(44页).pdf
蜜雪冰城招股说明书-连锁茶饮第一股(724页).pdf
线上健身第一股-keep招股说明书(463页).pdf
麦肯锡:2023中国消费者报告:韧性时代(33页).pdf
罗振宇2023“时间的朋友”跨年演讲完整PDF.pdf
QuestMobile:2022新中产人群洞察报告(37页).pdf
QuestMobile:2022年中国短视频直播电商发展洞察报告(30页).pdf
町芒:2022现制茶饮行业研究报告(47页).pdf
小红书:2023年度生活趋势报告(34页).pdf
QuestMobile:2021新中产人群洞察报告(30页).pdf
锐仕方达&薪智:2022年薪酬白皮书(105页).pdf