《6 唯品会-StarRocks在电商数据分析场景的实践.pdf》由会员分享,可在线阅读,更多相关《6 唯品会-StarRocks在电商数据分析场景的实践.pdf(18页珍藏版)》请在三个皮匠报告上搜索。
1、StarRocks在电商数据分析场景的实践从2.5到3.X的迭代升级王新春唯品会-数据平台0102030405OLAP 在电商场景的发展历程StarRocks 2.5 存算一体加速分析StarRocks 3.1 存算分离优化和实践StarRocks 湖仓一体增强智能BI分析StarRocks Next:统一分析场景01OLAP在电商场景的发展历程Presto/ClickHouse到StarRocksOLAP在电商场景的发展历程2015年至今通用数据产品查询和数仓分析主要工作:2019年:基于负载的集群调度,用户智能查询路由2019年:全部容器化,集群智能扩缩容2022年:Spark和Prest
2、o潮汐混部,Presto夜间缩容调度ETL2020年至今专有数据产品加速和日志降本主要工作:2020年:AB实验场景下Flink百万级/s写入性能优化2022年:日志场景下替换ES,节约50%以上成本;BulkLoad出仓加速2倍以上2024年:核心集群多AZ容灾和高可用2022年至今指标分析加速和湖仓分析主要工作:2023年:部分场景替代Presto,提升5-10倍查询效率(P85查询小于5s)2024年:大规模存算分离和统一湖仓分析加速2024年:Serverless架构,资源动态扩缩容02StarRocks 2.5存算一体加速分析提升分析效率5-10倍分析1.0版排队时间久排队时间久下载
3、数据量少下载数据量少分析耗时长分析耗时长查询时间范围短查询时间范围短StarRocks 2.5存算一体加速分析分析1.0基于PrestoDB+Alluxio,由于引擎能力和资源的有限,在用户体验层面痛点突出5012015031520020406080100120140160交易主题流量主题交易流量交叉主题主题平均耗时前后对比(单位:秒)1.0耗时2.0耗时只支持查询1414天内的流量数据分析 1.0原始数据超过 1000 亿!分析 2.0流量查询时间范围大幅延伸支持高频指标和维度一年以上的整体分析StarRocks 2.5存算一体加速分析StarRocks的引入,利用向量化和更好的下推能力,整
4、体分析能力提升了7倍以上资源利用率在双11、双12活动大促、运营推广、复盘、年末汇算期间长期保持在85%以上查询 p70 低至8秒,p90 能始终保持在60秒内StarRocks 2.5存算一体加速分析数据导入StarRocks的定制化优化,提升查询的稳定性和数据时效例如:导入数量限制、回刷历史数据时使用批量导入功能、以及是否将任务在空闲时段执行等 03StarRocks 3.1存算分离优化和实践2倍查询的增长,50%性能提升存算一体到存算分离存算一体计算和存储资源的紧耦合,导致独立资源的弹性扩展能力不足PB级别数据的分析,数仓和StarRocks数据交换成本巨大 极致的性能,最佳查询性能高度
5、的弹性和可扩展性存算分离优化:视图提升时效性、分析范围和存储利用率自研 SQL 路由的 SQL 改写 rewrite 功能灵活定义视图的范围灵活调配使用 内表和外表(Hive+Block Cache 加速)的分区比例,弥补了之前仅使用纯内表模式的局限性 存算分离优化:HyperLogLog优化,秒级汇总亿级数据Velox 的 HyperLogLog 实现,替换 StarRocks 自带的相关函数二进制兼容由Spark使用Java 版 HLL UDAF 写入Hive的预聚合结果4-5X性能提升4.825.852.220102.6205.620.21032071千万级5千万级1亿级Velox C+
6、xxhashAirlift xxhashAirlift murmurhash04StarRocks湖仓一体增强智能BI分析满足智能BI分析高并发和低延迟要求StarRocks湖仓一体增强智能BI分析智能BI分析的对OLAP的挑战:大量指标的并发查询(长周期 30-180天、同环比等)每个分析需要数十个指标的查询并发查询StarRocks湖仓一体增强智能BI分析解决方案:指标全数据湖仓;扩分析能力多集群、存储分离StarRocks Next:统一分析场景基于StarRocks强