1、CONTENTS目 录人群圈选&用户画像BitEngine/BitMap行为分析留存分析函数漏斗分析函数数据分析场景实时数仓0102060708高并发场景10Kafka&FlinkCDC(Change Data Capture)实时数据同步Upsert&部分列更新1.11.21.30101022.12.202043.13.23.33.4060607074.1075.15.20809复杂查询优化器执行层宽表查询预聚合Zero copy 优化全局字典UncompressedCache 优化Vector 向量检索GIS时空分析1012标准测试集性能参照SSB 性能测试测试结果测试环境测试步骤TPC-
2、H 性能测试测试结果测试环境测试步骤TPC-DS 性能测试测试结果测试环境测试步骤1539571.11.21.31517171.11.21.33941411.11.21.3576464在数据处理和分析的领域,提升查询效率始终是一项关键挑战。在 OLAP 领域,性能的关键需求在于能够快速进行数据检索,支持实时分析,具备处理大规模数据的能力,轻松应对复杂查询,提供快速响应,具备良好的可扩展性,高效处理并发操作,以及实现高效的数据压缩和存储。这些方面对于满足高效、准确的数据分析需求至关重要。ByteHouse 是火山引擎自主研发的云原生数据仓库产品,它全面继承了开源 ClickHouse 的高性能和
3、强大的分析能力,并在架构上遵循新一代云原生理念进行全面重构,实现了容器化、存储计算分离、多租户管理和读写分离等功能。在可扩展性、稳定性、可运维性、性能以及资源利用率等方面都有显著提升。截至 2022 年 2 月,ByteHouse 在字节跳动内部的部署规模超过 18000 台,单集群超过 2400 台。它经过了内部数百个应用场景和数万用户的锤炼,并在多个外部企业客户中得到了广泛应用。本文将介绍 ByteHouse 企业版的一系列优化措施。这些改进旨在缩短查询执行时间、优化资源利用,提供更流畅的数据分析体验。通过智能优化算法和先进的执行技术,ByteHouse 能够更好地应对各种复杂的查询场景。
4、为了让大家亲身感受这些优化带来的效果,我们提供了使用 SSB 100G、TPC-H 100G、TPC-DS 100G 数据集的性能测试步骤。您可以按照这些步骤进行测试,亲自验证 ByteHouse 企业版在查询效率方面的显著提升。数据分析场景实时数仓HaKafka:更稳定的高可用 Kafka 消费引擎Kafka&FlinkCDC(Change Data Capture)实时数据同步Upsert&部分列更新ByteHouse 的 HaKafka Engine 是一款自研表引擎,在数据实时消费性能不降级的基础上解决了Kafka 消费的高可用问题,提供了 low-level 消费模式,保证了 At-
5、least-once 消费语义。用户可以通过ByteHouse 控制台可视化创建实时导入任务。当前,很多企业在分析型业务中对数据去重有很强的诉求,为此,ByteHouse 研发了 HaUniqueMergeTree 表引擎,保留了 ClickHouse 高效的查询性能,还支持主键实时更新的场景,ByteHouse 在落盘即去重,解决了社区版 查询时去重的效率问题,可以帮助业务更轻松地开发实时分析应用。同时,在 ByteHouse 中,我们可以在 HaUniqueMergeTree 表中实现部分列更新的功能。部分列更新模式在指定变量 enable_unique_partial_update=1
6、后,允许以部分列更新的模式进行写入。DES 数据快车服务(ByteHouse 插件)Flink ConnectorFlink Connector for ByteHouse 连接器专用于通过 Flink 将数据加载到 ByteHouse,目前 FlinkConnector 已经支持 通过 Table API&SQL 和 Flink DataStreamAPI 两种方式来连接 ByteHouse并处理数据,详情请参见产品手册(https:/ Express Service)是一个用于将多源异构数据源和数据结构导入到ByteHouse 的服务,通过提供数据集成、结构映射、高效导入、安全可靠等功能,