《火山引擎:2024云原生数据仓库ByteHouse技术白皮书V1.0(20页).pdf》由会员分享,可在线阅读,更多相关《火山引擎:2024云原生数据仓库ByteHouse技术白皮书V1.0(20页).pdf(20页珍藏版)》请在三个皮匠报告上搜索。
1、云原生数据仓库ByteHouse技术白皮书第一章 ByteHouse简介第二章 技术趋势和挑战产品特性011.1适用场景021.2业务需求032.1技术趋势042.2技术挑战052.3第三章 整体架构设计第五章 总结和展望第四章 核心技术解析服务层073.1计算层083.2存储层083.3作业执行流程093.4数据查询流程093.4.1数据导入导出113.5多租户管理133.6运维监控管理 133.7离线导入113.5.1实时导入123.5.2数据写入流程103.4.2后台任务113.4.3目录自研表引擎154.2复杂查询执行模型164.3列式存储设计174.4元数据管理154.1元数据持久化
2、154.1.1元数据缓存154.1.2Data layout174.4.1Part Delta174.4.2Part文件内容174.4.3Compaction174.4.4事务和并发控制184.5资源收集和服务发现234.7.1资源管理器自身高可用&兼容升级234.7.2计算资源弹性共享234.7.3事务概览184.5.1技术选型184.5.2分布式时钟194.5.3事务处理194.5.4并发控制214.5.5垃圾回收214.5.6自研优化器224.6资源管理器224.7火 山 引 擎 数 智 平 台Volcengine Data Intelligence第一章ByteHouse简介产品特性1
3、.1适用场景1.2第一章 ByteHouse简介1.1 产品特性0102ByteHouse是火山引擎自主研发的云原生数据仓库产品,在开源ClickHouse引擎之上做了技术架构重构,实现了云原生环境的部署和运维管理、存储计算分离、多租户管理等功能。在可扩展性、稳定性、可运维性、性能以及资源利用率方面都有巨大的提升。截至2022年2月,ByteHouse在字节跳动内部部署规模超过1万8000台,单集群超过2400台。经过内部数百个应用场景和数万用户锤炼,并在多个外部企业客户中得到推广应用。ByteHouse以提供高性能、高资源利用率、高稳定性、低运维成本为目标,进行了优化设计和工程实现,产品特性
4、和优势如下:1.存储计算分离:解决了全局元数据管理,过多小文件存储性能差等等技术难题。在最小化性能损耗的情况下,实现存储层与计算层的分离,独立扩缩容。2.新一代 MPP 架构:结合 Shared-nothing 的计算层以及 Shared-everything的存储层,有效避免了传统 MPP 架构中的 Re-sharding 问题,同时保MPP并行处理能力。3.数据一致性与事务支持。4.计算资源隔离,读写分离:通过计算组(VW)概念,对宿主机硬件资源进行灵活切割分配,按需扩缩容。资源有效隔离,读写分开资源管理,任务之间互不影响,杜绝了大查询打满所有资源拖垮集群的现象。5.ANSI-SQL:SQ
5、L兼容性全面提升,支持ANSI-SQL 2011标准TPC-D测试集100%通过率。6.UDF:支持Python UDF/UDAF创建与管理,补足函数的可扩展性。(JavaUDF/UDAF已在开发中)7.自研优化器:自研Cost-Based Optimizer,优化多表JOIN等复杂查询性能,性能提升若干倍。产品能力上,在引擎外提供更加丰富的企业级功能和可视化管理界面:1.库表资产管理:控制台建库建表,管理元信息。2.多租户管理:支持多租户模型,租户间互相隔离,独立计费。RBAC权限管理:支持库、表、列级,读、写、资源管理等权限。通过角色进行管理。3.VW自动启停,弹性扩展:计算资源按需分配,
6、闲时关闭。降低总成本,提高资源使用率。4.性能诊断:提供Query History和Query Profiler功能,帮助用户自助地排查慢查询的原因。1.2 适用场景 用户自定义查询支持多维查询分析的数据应用自由维度、多表关联、响应快自助式报表支持Tableau等BI工具自由维度、多表关联、响应快用户画像分析支持DMP等圈人画像平台自由维度、多表关联、响应快实时数据接入支持实时数据写入、更新实时数据写入,立即可见准实时ETL计算支持复杂计算,数据清洗混合负载营销效果分析支持流量效果漏斗分析多表关联、实时行为日志分析支持日志探索分析日志检索、数据量大直播数据统计看板支持实时报表实时业务仪表盘支持