1、从探索到赋能:微众银行携手StarRocks 重塑数据分析林俊锋微众银行大数据工程师,StarRocks平台负责人微众银行大数据平台套件 一站式、全连通、金融级的数据应用开发管理套件 独特中间件层设计,简化整体架构,提升连通性、复用性、可扩展性和治理管控能力 解耦上层应用程序和底层引擎,简化新组件引入,降低开发运维成本WeDataSphere 开源开放 累计试用中/上生产公司达700+家,社区微信+QQ群用户总数达5000+人 用户覆盖电信、金融、互联网、制造、零售、教育等各行各业,典型用户如电信天翼云、平安保险、交通银行、Boss直聘、蔚来汽车、华中科技大学国家高性能计算中心等 政府用户案例
2、含深圳市金融局&银监局、交通部信息中心、航天八院等01020304OLAP选型与StarRocks引入过程StarRocks在行内业务场景的落地StarRocks在行内大数据生态的应用未来规划方向与展望01OLAP选型与StarRocks引入过程背景与痛点 当前行内业务方有用户画像、人群圈选、BI交互看板、用户行为分析等大数据量场景的分析需求。业务方使用行内现有的计算引擎在上述分析场景下存在如下痛点问题:1.BI交互看板在大数据量下的计算速度缓慢。2.对较长历史周期的用户行为数据分析效率低下。3.运营分析中查询频次较高的热数据无法使用预聚合提速。4.查询无法同时满足高灵活性、大数据量、多维度、
3、高时效性等多样化要求。基于以上痛点,在现有的计算引擎下无法满足大数据量级下秒级响应速度和数据时效性的要求,因此需要引入新的高性能的OLAP计算引擎StarRocks来填补此处空白。2023.062023.06OLAP产品选型122023.082023.08制定POC测试计划以及报价给四个厂商2023.122023.12各厂商方案对比,综合考虑选择镜舟科技,进入行内测试阶段342024.042024.04资源评估,特性收集,进入采购阶段2024.062024.06验收阶段,基于RBAC的用户权限管控体系对接,生产试用阶段5620242024下半年下半年多部门推广使用,涉及存款和贷款等多部门使用下
4、一步下一步行内大面积推广使用,覆盖科技侧和业务侧的多业务场景,助力用户提效先进架构演进,降本增效7StarRocks引擎引入计划为什么选择StarRocks数据同步数据更新数据存储数据结构离线与实时同步完整Update语法数据倾斜OLAP函数与压缩算法数据与存储集群性能执行计划存算分离国产化线性扩展SQL分析优化私有化部署服务器适配集群管理Catalog语法兼容性物化视图数据模型Hive catalog替代Trino加速查询指标开发湖仓一体权限管理体系数据审计RBAC权限体系审计日志权限与安全Trino VS StarRocks对比对比项项STARROCKSSTARROCKSTRINOTRIN
5、O查询性能使用行内用户案例的SQL对比测试结果见如下表格,StarRocks在查hive外表单表查询和交叉查询场景下的平均速度是Trino的3.35倍,优势较明显在跨多种类型数据源联邦查询场景下有特别优势存储模式作为列存数据库自身可以存储数据,且有多种性能优化手段,如表模型选择、建索引、物化视图、分区分桶策略等纯计算引擎,自身不存储数据,数据依赖从外部数据源获取,优化手段比较有限,可通过SQL优化、内存参数调整等手段优化语法兼容MySQL语法和协议,并兼容90%的Trino常用语法函数单独语法体系,遵循ANSI SQL标准,不能很好支持当前行内主流的OLAP引擎语法查询HIVE外表场景下Sta
6、rRocks和Trino的性能对比引擎单表查询(输出汇总数据)交叉查询(输出汇总数据)100万1000万1亿10亿100亿100万1000万1亿10亿100亿Trino1.67秒2.67秒5.67秒27.67秒92秒3秒4.67秒5.67秒 31.33秒 242秒StarRocks1.48秒1.1秒4.74秒3.05秒14.34秒0.99秒1.89秒3.1秒 11.85秒74.02秒StarRocks相比Trino速率提升12.8%142%19.6%807%541%203%147%82.9%164%227%平均速率提升:235%StarRocks在数据存储、湖仓一体化建设和运维功能方面相比Tr