《7-2 字节跳动埋点成本治理实践.pdf》由会员分享,可在线阅读,更多相关《7-2 字节跳动埋点成本治理实践.pdf(35页珍藏版)》请在三个皮匠报告上搜索。
1、字节跳动埋点成本治理解决方案肖茜文火山引擎大数据工程师|01治理背景治理背景02治理策略治理策略03治理经验回顾治理经验回顾04规划与展望规划与展望目录目录CONTENT|埋点成本治理背景01|埋点成本治理背景|-埋点在字节跳动的应用Web端日志采集服务实时消费离线数仓推荐客户端服务端UBAAB标准化数据分发数据清洗实时ETL埋点成本治理背景|-埋点在字节跳动的规模10+PB/天存储增量10万亿/天埋点量1亿+/秒峰值流量埋点成本治理背景|-为什么要治理埋点机器资源成本运维SLA埋点成本治理背景|-在字节内取得的效果与收益应用于抖音、头条等多个业务,覆盖85%业务通过无用埋点下线,在2021年
2、节省成本近亿元通过埋点分级,节省100+PB HDFS存储通过埋点采样,在2022年可节省成本¥3000+万/年埋点成本治理多场景策略02|埋点成本治理多场景策略|-从0到1建设治理01先控增量,再治存量02降低无用埋点上报03按重要性区分埋点等级04支持采样上报埋点成本治理多场景策略|-场景1:先控增量,再治存量01先控增量,再治存量问题在业务发展过程中开始治理,既有存量埋点存量埋点,同时也有不断增加的新增埋点新增埋点。需要先控制新增、再治理存量。解决方案埋点上报管控:在“允许上报”列表内的埋点才可上报|-场景1:先控增量,再治存量SDK上报日志采集服务实时消费离线数仓UBA/推荐/AB等下
3、游元数据服务上报管控上报管控上报管控生效上报管控生效数据治理实时ETL1亿+/秒 峰值流量万亿/天 埋点量50+万条 元数据埋点成本治理多场景策略|-场景1:先控增量,再治存量通过平台维护列表:在ByteIO平台录入埋点、且为“已上线”状态,允许埋点上报。埋点成本治理多场景策略|-场景2:降低无用埋点上报02降低无用埋点上报问题解决方案无用埋点下线:筛选无用埋点,从“允许上报”列表中移除。埋点已不再使用不再使用,但仍持续上报,造成资源浪费案例:上报初期使用,一段时间后不再使用埋点成本治理多场景策略|-场景2:降低无用埋点上报上报量(成本)使用情况(价值)离线查询实时分流UBA查询离线血缘建设实
4、时血缘建设各埋点价值&成本如何定义和筛选无用埋点:分析对比各埋点的价值&成本埋点成本治理多场景策略|-场景2:降低无用埋点上报通过平台下线埋点:在ByteIO平台筛选无用埋点,发起治理;确认下线后将不允许上报。埋点成本治理多场景策略在2021年节省成本近亿元|-场景3:按重要性区分埋点等级03按重要性区分埋点等级问题解决方案按重要性区分埋点等级,提供不同的运维保障埋点需要使用,但重要性不同重要性不同,资源无法优先保障高优数据案例:RD排查问题使用的埋点,不需要TTL/SLA保障埋点成本治理多场景策略|-场景3:按重要性区分埋点等级SDK上报日志采集服务实时消费离线数仓UBA/推荐/AB等下游元
5、数据服务埋点分级埋点增加分级标注数据治理实时ETL根据分级标注,区分SLA/TTL保障埋点成本治理多场景策略|-场景3:按重要性区分埋点等级event=a,priority=P0event=b,priority=P1event=c,priority=P2实时TopicP0任务P2任务P1任务P0分区P1分区P2分区离线埋点表不同任务保障不同的SLA不同分区保障不同的TTL埋点成本治理多场景策略P0 dumpP1 dumpP2 dump|-场景3:按重要性区分埋点等级通过平台区分等级:在ByteIO平台对埋点区分等级,不同等级将对应不同SLA/TTL保障。埋点成本治理多场景策略节省100+PB
6、HDFS存储|-场景4:支持采样上报04支持采样上报问题解决方案支持埋点采样上报埋点需要使用,但不需要全量不需要全量上报,有一定资源浪费案例:RD排查问题使用的埋点,可采样上报埋点成本治理多场景策略|-场景4:支持采样上报SDK上报日志采集服务实时消费离线数仓UBA/推荐/AB等下游元数据服务埋点采样埋点采样生效数据治理实时ETL埋点成本治理多场景策略埋点采样(规划中)埋点采样生效(规划中)|-场景4:支持采样上报通过平台区分采样:在ByteIO平台对埋点设置采样比例,SDK将按照采样比例上报埋点。埋点成本治理多场