《腾讯云+TCHouse-C+:基于Schema-less的半结构化数据分析实践.pdf》由会员分享,可在线阅读,更多相关《腾讯云+TCHouse-C+:基于Schema-less的半结构化数据分析实践.pdf(12页珍藏版)》请在三个皮匠报告上搜索。
1、腾讯云?TCHouse-C?:基于Schema-less的半结构化数据分析实践张一鸣腾讯云云数据仓库高级产品经理主讲人:吞吐写性能分析低成本存储Clickhouse在规模数据分析中的优势ClickHouse被泛应于海量数据分析任务具备吞吐能,撑峰期每时百亿数据的写数据压缩、列式存储、存算分离、冷热分层降低存储成本持向量化引擎、聚合分析下,充分发挥了列存引擎优势半结构化数据处理挑战 数据来源泛、数据价值潜巨 数据OLAP场景,缺少强分析能的Schema-less数据库社区22.8-持动态列能社区22.3JSON数据存储为STRING类型,通过具函数来获取JSON字段信息,辅助查询分析缺点:所有字
2、段混合存储,查询分析效率低下持动态列能,引擎针对每个写的?JSON?对象值进动态的类型推导缺点:法持动态列级索引、创建物化视图、PROJECTION、以及对列的增删改等功能 构建分布式查询计划复杂,性能低下半结构化分析挑战采GOSSIP协议实现节点之间元数据信息播,使集群范围内节点的动态列信息保持最终致性内核增强:持Schema-less动态列,应对半结构化数据处理的挑战社交媒体互联物联移动应Clickhouse-serverClickhouse-serverClickhouse-server实时分析数据看板监控告警风控审计应场景Ck内核写数据源易性、性能、灵活性、可扩展性兼容现有客户端协议内
3、核持Schema-less能解决案 需预定义数据结构,允许数据结构运时动态扩展 持量半结构化数据写?,动态增加字段 业务写更加灵活降低客户集群迁移成本;沿现有OBJECT或者String类型,沿现有客户端协议动态增加列使得数据分析兼具性能与灵活性,实现存储效率与查询性能之间的平衡动态列信息保持最终致性核优势应场景Schema-less技术架构解读:需预定义数据结构,持动态扩展a.b.ea.c.dparserinterpreterQuery?pipelineStorage?engineJSON列以OBJECT或者String类型字段存储包装为BlockHouse数据结构BLOCK解析为TUPLE
4、类型的数据构建数据写的Query?Pipeline,并执数据落盘后,在PART提交过程中更新动态列;创建表时需要设置参数以标识该表持Schema-less功能指定分区键,主键以及排序键引的字段名称以及类型数据写时,将半结构化数据以JSON的形式放在已定义字段的后向客户端返回必要数据在写了JSON数据后,该表会动态扩展字段,查看数据:半结构化数据写持Schema-less的tchouse-c集群时,只需要简单步骤。Step1:标识表Step2:数据写Step3:查看数据性能对半结构化数据性能提升20倍 某客户志分析以及APM场景下,对半结构化数据实时分析性能提升20倍 秒级返回查询结果 将查询频
5、字段按普通列存储,充分利向量化计算性能优势 持级索引、预计算处理,从提升查询性能 持基于JSON内部字段构建物化视图25.31.1051015202530查询时间/s社区版本TCHouse-C云原技术架构升级:存算解耦,资源管控粒度更细,成本更加可控计算与存储资源对称需求愈发强烈,客户需要常灵活的资源编排能。存算体、法独按需扩展,带来成本冗余集群扩容后,新的节点不会动同步元数据信息;数据重分布问题需要介。缺少真正的弹性能需要介。缺少真正的弹性能部分业务在创建初期难以准确估算数据规模和所需资源,且频繁调整。规模数据量带来成本压,为应对调整,快速搭建、扩缩集群是必要能内核升级:持数据重分布内核升级
6、:持数据重分布弹性版弹性版存算解耦,数据动均衡存算解耦,数据动均衡存算分离架构:元数据服务层、计算层、存储资源层对象存储/分布式存储/云盘存储元数据管理1clickhouse-admin处理DDL请求元数据分发失败节点检测数据分布表SCHEMA信息配置信息研表引擎2数据重定向数据查询数据写效弹性3存算分离分组隔离数据容灾秒级扩容存储资源层计算资源层云原技术架构解读研表引擎实现兼容开源代码,提供了统的抽象视图?,集成多种存储clickhouse-admin管理集群全局信息存算分离架构,独扩展,弹性效率极提升CloudMergeTree?数据读写?后台合并?数据均衡?CloudDistribute
7、d案例:使腾讯云TCHouse-C?构建通志分析系统时效性留存分析留存分析审计归档审计归档线上监控线上监控运营推运营推实时业务数据洞察志冷存储查询频率秒级分钟级时级天级季度年问题诊断问题诊断业务洞察业务洞察业务分析业务分析户画像户画像聚合查询聚合查询千亿规模数据分析秒级完成,数据写链路平均延时于5s,查询延迟缩短秒级半结构化数据性能提升20倍效分析 数据动均衡,感扩缩容,降低户运维成本弹性能应对潮汐业务,维持可控的资源利率,降低资源成本弹性伸缩成本数据量实时性要求客户价值使 TCHouse-C?构建通志系统:应对不同时效性与查询效率下的志场景志场景下的痛点:打造更性价的海量数据分析产品未来展望
8、实时UPSERT能研存储引擎持UPSERT能,增强原ClickHouse的企业级能全?SERVERLESS户需提前进计算资源预测?,根据负载实时进动态资源的调整,提资源利率分布式查询引擎持分布式查询引擎,幅提升分布式查询能前,TCHouse-C已经具备做到完整的弹性伸缩能,户可以按需购买计算资源与存储资源。标准版与弹性版均持schema-less进半结构化数据分析,带来了志分析场景下的新突破.在运维TCHouse-C依赖云上运维管控系统,为户提供开箱即的服务。腾讯云云数据仓库品牌全新升级-TCHouseDCPTCHOUSE-P兼容?PostgreSQL开源数据仓库,提供简单、快速、经济效的?PB?级云端数据仓库解决案TCHOUSE-D基于业内领先的?OLAP?数据库?Apache?Doris?内核构建,兼容MySQL协议和Hadoop态,提供便易、灵活稳定的实时数据仓库服务TCHOUSE-C基于开源引擎clickhouse打造的为云端全托管服务,快速完成海量数据查询数据仓库的搭建,简单轻松地完成对数据的实时查询分析腾讯云云数据仓库发布系列企业级托管型云数仓产品打造完整的数据仓库产品体系,满户多种场景下的案选型THANKS谢谢观看