《数据湖在快手的应用实践_034157.pdf》由会员分享,可在线阅读,更多相关《数据湖在快手的应用实践_034157.pdf(17页珍藏版)》请在三个皮匠报告上搜索。
1、DataFunSummitDataFunSummit#20242024数据湖数据湖在快手的应用实践在快手的应用实践靳国卫 快手姓名:靳国卫目前负责生产社交数据团队10年+数据相关工作经验,主导快手、滴滴、美团核心业务数据体系建设及公司级BI产品的规划及落地擅长OLAP技术和数据湖技术并多场景实践落地数据湖在快手的应用历程数据湖在快手的应用历程问题与挑战、技术选型、应用过程、推广策略、生态建设数据湖在快手的应用案例数据湖在快手的应用案例CDC数据同步、批流结合业务加速、架构升级数仓优化目录目录 CONTENTCONTENTDataFunSummitDataFunSummit#2024202401
2、01数据湖在快手的应用历程数据湖在快手的应用历程问题与挑战技术选型应用过程推广策略、生态建设问题与挑战模型持续膨胀模型持续膨胀成本、运维、治理成本、运维、治理跨域跨域/团队协作团队协作效率、质量、运维效率、质量、运维离线、实时数据离线、实时数据GapGap质量、决策困扰质量、决策困扰问题与挑战(具化)数仓:复用数仓:复用 引擎:批处理引擎:批处理 协作:多域建设协作:多域建设业务诉求数据统计:纬度1、纬度2、纬度3、纬度4、指标1、指标2、指标3、指标4、指标5、指标6、核心日报:纬度1、指标1、指标2(SLA承诺7:00)增长钱效数据:纬度1、指标2、指标3、指标4(SLA承诺8:00)增长
3、日报:纬度1、指标3、指标4、指标5、指标6(SLA承诺10:00)数据域A(4点)数据域B(5点)数据域C(7点)数据域D(8点)数据域A&数据域B(7点SLA)公共模型1数据域A&数据域B&数据域C(8点SLA)公共模型2数据域A&数据域B&数据域C&数据域D(10点SLA)公共模型3跨领域数据跨领域数据数数仓仓架架构构复用一次写多次读更新写更新写多次读多次读SLA时效要求技术选型-更新写更新写多次读对比项对比项HudiDelta LakeIceberg功能丰富度丰富丰富待提升公司融合度高自动化程度自动部分开源手动Flink集成是否是社区活跃度活跃活跃相对活跃功能丰富、运维简便商业化强大框
4、架优秀、扩展性好技术选型 应用方案更新更新更新更新更新数据域A(4点)数据域B(5点)数据域C(7点)数据域D(8点)理想理想数数仓仓架架构构业务诉求数据统计:纬度1、纬度2、纬度3、纬度4、指标1、指标2、指标3、指标4、指标5、指标6、核心日报:纬度1、指标1、指标2(SLA承诺7:00)增长钱效数据:纬度1、指标2、指标3、指标4(SLA承诺8:00)增长日报:纬度1、指标3、指标4、指标5、指标6(SLA承诺10:00)数据域A(4点)数据域B(5点)数据域C(7点)数据域D(8点)数据域A&数据域B(7点SLA)公共模型1数据域A&数据域B&数据域C(8点SLA)公共模型2数据域A&
5、数据域B&数据域C&数据域D(10点SLA)公共模型3跨领域数据跨领域数据数数仓仓架架构构技术选型 应用效果2021-012021-032021-052021-072021-092021-112022-012022-032022-052022-072022-092022-112023-012023-032023-052023-072023-092021-012021-032021-052021-072021-092021-112022-012022-032022-052022-072022-092022-112023-012023-032023-052023-072023-09增长设备域数据模
6、型多纬度分析设备技术选型 推广策略、生态建设广泛适用广泛适用0-10-1、110110的应用的应用价值评估价值评估具有推背感的效率、成本收益具有推背感的效率、成本收益技术选型 推广策略、生态建设广泛适用广泛适用新的任务100%历史任务96%+CDC同步100%收益评估收益评估规模缩减时效提升协作统一生态工具链IDPKStreamAB平台KwaiBI打造数据湖生态工具链打造数据湖生态工具链论证论证数据湖生态数据湖生态可落地可落地DAU曝光电商订单DAU点击CNY夏奥增长花费逐点