1、快手万亿级用户行为分析平台演进主讲人:路 帅演讲嘉宾介绍路帅快手大数据应用技术负责人 快手大数据应用技术负责人,带队流量数据产品方向的研发 在万亿级数据处理、数据治理、分析产品等有丰富的实战经验 有5年的用户行为分析系统研发经验,10年+的数据中台的研发经验快手数据平台短视频直播电商商业化游戏平台快手数据平台的使命是“提升数据决策效率,利用数据助力业绩提升”万级EB级PB级万级百万级数据量级总存储量日净增数据量日活跃用户数日分析查询数秒级数据查询BP 平均日活23Q1 3.74亿 日均时长23Q1 126.8分钟 电商GMV23Q1 2248亿 短视频+直播电商,本地生活,招聘,积累驱动快手的
2、使命是“帮助人们发现所需、发挥所长,持续提升每个人独特的幸福感”关于快手与大数据平台什么是用户行为分析快手的用户行为分析(APP分析)Google Analytics埋点分析工具百度云统计神策/GrowingIO/友盟/火山引擎/北极星产品是快手一站式的行为分析平台,满足用户埋点数据统一上报、埋点设计、埋点测试、埋点数据等需求,实现对埋点数据从生产到分析全流程的闭环管理,提升埋点生产和消费的效率Saas服务/私有化/解决方案快手北极星体系=埋点平台 +APP分析快手行为分析产品行业行为分析产品CONTENT目录2023K+01快手APP分析平台介绍快手APP分析技术演进快手APP分析实战案例0
3、203总结与未来规划042023K+01快手APP分析平台介绍什么是埋点搜索视频观看视频页面曝光所谓“埋点”,是对用户在App内触发的一系列行为数据的采集,比如用户、观看、点赞等等,用来进一步优化产品、推荐策略提供数据支撑。WHO谁谁设备标识、登录IDWHEN什么时间什么时间事件发生时间WHERE发生地点发生地点事件发生的地理位置WHAT做了什么做了什么如观看、关注、点赞、购买等HOW埋点埋点发生时的状态发生时的状态埋点发生时,网络、来源渠道等埋点埋点WhoWhenWhereWhatHow埋点上报链路传输效率高,采用轻便高效的protobuf作为传输协议埋点模型巧,不同于业界的event_id
4、埋点模型,而是通过实体+Action,如点击、曝光、观看都是独立的事情流埋点参数精细,各类参数用途明确,业界大多是一个param大字段,快手是页面、元素、业务公参等三类快手APP分析平台愿景:致力于通过丰富埋点分析工具,打造一站式的行为分析平台,提升数据获取与分析效率。快手APP分析平台快手数据分析大部分数据来自客户端埋点,不同角色运用不同分析方法对不同数据进行分析,进而为产品迭代和发展提供方向2023K+02快手APP分析的技术演进问题与挑战万亿数据分析性能(秒级响应)灵活细分(应用场景多样)服务稳定性(产品易用)基于万亿级数据,提供灵活多维、秒级响应的行为分析有哪些技术挑战?及时性(明细宽
5、表)数据链路-及时性快手APP分析数据模型架构灵活的分析,基于ClickHouse明细数据的多维分析,足够灵活丰富的维度,丰富的用户、设备、分群等进行关联分析数据及时性,有体系化的保障机制,每天7点前T-1数据就绪埋点强管控,完整的埋点生命周期管理(注册、黑名单、采样)及时性-遇到的问题及挑战以往面临的挑战数据体量大:万亿级数据,数据增长快资源是瓶颈:计算资源不足,预算远比不上数据量的增长资源保障差:任务混部资源保障能力差,遇到高优任务经常被逐出重试成本高:任务出现运行失败,任务里的数据量大,重试成本高数据采集离线数据实时数据批处理层Hive/Spark任务流处理层Flink任务引擎层Clic
6、kHouseHbaseRedis应用层事件分析路径/漏斗留存分析归因分析客户端APP日志Web日志服务端日志及时性-问题分析及解决思路快手APP分析=聚合模型 +明细宽表高频维度(如平台、版本、机型等),用来加速查询明细数据,分析灵活,支持事件分析、漏斗/路径、路径归因等模型常见数据模型解决方案:及时性-hive2CK导数工具升级V1.0架构剖析架构剖析V2.0架构剖析架构剖析 基于基于v1.0 MR的的hive2CK流程原理流程原理 借助Clickhouse引擎,基于MR提升导数任务的稳定性和并发度 基于基于v1.0 MR的的hive2CK架构的缺点架构的缺点 1.数据写入并发数受限于集群s