1、BigBig AIAI DataData时代,时代,小红书数据架构的演进小红书数据架构的演进吴浩亮 小红书 基础数仓业务负责人关 涛 云器科技联合创始人 CTO个人介绍个人介绍个人简介:毕业于约克大学,后任职Teradata,18年加入小红书,目前负责小红书交易、基础数仓团队。在小红书,先后主导负责了离线数仓以及实时数仓0-1的建设,一些核心的对外数据产品:一站式投放平台聚光、商家运营平台千帆等重要数据产品的建设;另外推动了数据业务自助化的技术架构演进和推广目录目录0 1小红书业务小红书业务&数据概览数据概览0 2数据架构的演进迭代数据架构的演进迭代0 3应用场景总结应用场景总结&展望展望0
2、1 小红书业务数据现状小红书业务数据现状小红书业务概述小红书小红书AppApp是一个聚焦年轻人的生活兴趣社区,每月有超过是一个聚焦年轻人的生活兴趣社区,每月有超过4 4 亿人在这里分享生活和兴趣爱好亿人在这里分享生活和兴趣爱好小红书公司围绕社区+电商+商业化为核心,通过 UGC 内容驱动种草-拔草的业务闭环,不断提升APP用户规模和用户粘性,与此同时,日志规模达到日均几千亿,并由此催生了大量的实时、离线的数据需求小红书数据架构BI、报表、自助分析;洞察数据各种面向广告主、商家、博主的数据平台提供用户画像、特征标签,作为推荐搜索、商业等算法策略的输入12324年迁云:AWS 迁移到阿里云,迁移数
3、据500PB,任务11万,参与人数1500人,涉及部门40多个。项目涉及产品之多和数据体量之大创下业界记录0 2 数据自助化架构的迭代数据自助化架构的迭代数据架构演进1.02.03.04.0分析看板分析看板社区CLICKHOUSE单体架构存算一体离线导入APPAPP行为分析平台行为分析平台云原生CLICKHOUSE超大体量单表存算分离分布式优化业务经营数据自助业务经营数据自助 StarRocks On Iceberg湖仓一体准实时实验分析准实时实验分析 数据湖仓+云器增量计算1.0 基于ClickHouse的即席分析T+1T+1 ETLETL数据同步数据同步 成本高 扩容难 数据时效性差2.0
4、 Lambda架构&存算分离 存算分离 Lambda架构 多类型关联 物化视图&索引加速2.0 应用场景-用户行为分析平台 关联优化用户特征X行为分析 物化视图优化覆盖70%查询 索引构建优化用户细查2.0 Lambda&存算分离总结 秒级时延分析 200+产品业务高度自助 万亿数据规模10S响应业务收益业务收益3.0 Lakehouse2.0 问题:2套数据存储 2套计算框架 CK缺少ETL能力如何让全量的数仓数据资产发挥更大价值,支持更丰富的业务场景分析业内基本形成共识的解决方案:Lake House,基于湖上建仓3.0 Lakehouse 技术选型 Flink入湖 Iceberg数据存储
5、 Spark业务加工 StarRocks查询加速3.0 Lakehouse查询加速:Z-Order智能排序优化前:优化后:3.0 查询性能收益 数据文件压缩率相比CK提升1倍 查询P90性能提升大约3倍3.0 应用场景:业务经营数据自助 逻辑视图收敛数据集数量,统一口径定义,降低理解成本提升数据集业务覆盖度,降低数仓ETL加工成本按需智能裁剪 物化加速构建流程:发现-生产-消费BitMap去重优化,告别传统CUBE加工模式直接用DWS表搭建看板3.0 Lakehouse 收益业务收益业务收益 覆盖业务体系(销售、运营、产品)核心场景,业务用户渗透70%官方数据集收敛到300个,覆盖核心分析场景
6、 当前湖仓数据整体规模超过300PB,日增4PB4.0 增量计算一个实时任务的开发,往往是一个离线任务开发工作量的3倍左右;且会面临数据回刷、资源锁定、任务稳定性、带状态恢复等问题有没有一套计算框架实现了类似Snowflake的Dynamic Table能力?4.0 增量计算-云器合作项目基于Iceberg的动态表定义以及完整的增量算子支持4.0 增量计算-云器合作项目高效的引擎处理性能功能验证:1.对当前Spark任务作业改写成本不高2.数据正确性验证通过3.可以在freshness间隔与成本间做灵活调节性能验证性能验证(Fresh Per 5 min):1.纯增量表相比离线Spark性能提