1、网易云音乐智能监控探索与实践网易云音乐/宋东辉 浙江大学硕士毕业之后,加入支付宝,参与蚂蚁端稳定性 Sapienz 项目建设,数字内容治理项目核心成员,双12大促主要质量负责人之一。2021年加入网易云音乐,负责云音乐大数据质量和效能建设,发起并牵头多方共建DataOps项目和智能监控项目。网易云音乐/宋东辉资深测试开发工程师目目 录录Contents1 1、背景简介背景简介2 2、方案介绍、方案介绍3 3、落地效果、落地效果4 4、未来展望、未来展望1 1、背景简介、背景简介1.11.1、云音乐大数据治理现状、云音乐大数据治理现状大数据的框架大数据的框架 客户端 系统日志用户日志服务端 系统
2、日志用户日志开放平台 系统日志三方日志数据生产ODS层 DDBMySQL有数平台(网易数帆)数据库 DIM层DWD层 BI平台 机器学习平台 圈选平台 数据服务平台AB实验平台ADS层DWS层 业务主题域1明细事实表1明细事实表2明细事实表NDDBMySQL业务主题域N明细事实表1明细事实表2明细事实表N分析主题域1轻度汇总事实表1轻度汇总事实表2轻度汇总事实表N分析主题域1重度汇总事实表1重度汇总事实表2重度汇总事实表N数据集市1数据集市2数据集市3数据集市N数据消费大数据治理图大数据治理图需求侧新增埋点近100/月日常变更近100/日业务10+业务线A级以上活动现状治理平台侧资源有限70+
3、p存储4w+CU任务&表2.4w+表1.8w+任务生产侧感知数据异常、避免问题蔓延、保障数据正确性动作动作迭代规范重点项目100%接入dataOps“轻量”变更 巡检兜底,100%覆盖任务&表变更基线治理运行时间预测规范治理依赖、模型治理攻防演练潜在风险探测动作全方位感知异常,快速定位、止血、解决大数据生产侧治理的难点大数据生产侧治理的难点业务复杂10+业务线属性各异离线任务1.8w+任务5k+日常调度变更频繁各类变更繁杂指标表现1)突“增”型2)突“降”型3)频率变化型4)强“趋势”型5)强“周期”型6)“无序”型 检测难 误报高覆盖难收敛难 分析难检测难分析难 追踪难定位难人工监控2 2、
4、方案介绍、方案介绍2.12.1、智能监控选型、智能监控选型大数据异动感知大数据异动感知统计算法:绝对值,相对值,周期检测,假设检验分类模型:K-means、SVM等预测模型:LSTM、ptophet等单点环比均值比较周期比较K-means异动分类K-sigma指标数据?=1,2?指标均值和方差=?=1,=?=1?21K-sigma检测动态阈值?,+?K-means获取簇中心=?=1?2大数据异动感知大数据异动感知统计算法:绝对值,相对值,周期检测,假设检验分类模型:K-means、SVM等预测模型:LSTM、prophet等LSTM预测优点:预测结果准确,不需要标签数据缺点:需要大量数据、训练
5、困难、场景很难普适随机森林分类优点:预测结果准确,训练容易缺点:需要标签数据,容易过拟合prophet优点:训练容易,适应性强缺点:复杂场景精度差,需要大量数据大数据异动归因大数据异动归因统计算法:贝叶斯算法贝叶斯表达式:?|?=?|?*?/?B表示目标任务告警,A表示上游任务A告警根据样本数据表.1,得到p(B),p(A*),p(B/A*)的统计概率。分类算法:GBDT表达式:Y(x)=?=1(x)x为特征,Y为分类结果见样本数据表.1,y为人工打标标签上游任务其他特征是否告警是否强依赖目标任务是否告警yA1否否否0A2是否否0A3是是否0A1是是是1A2否否是0A3是是是0表.1 任务B的
6、告警记录字段级别血缘2.22.2、智能监控方案落地、智能监控方案落地大数据智能监控方案大数据智能监控方案 任务&表映射 表级血缘 字段级血缘 字段关系挖掘 历史告警数据标签贝叶斯余弦相似度K-sigmaK-means监督模型prophet指标数据数据预处理异动诊断结束否周期识别短周期诊断长周期诊断长周期预测统计诊断是无周期异常分类有周期表级归因字段级归因异步告警人工跟进可视化大盘样本处理模型优化短信popo历史数据标签数据血缘数据核心方案平台化旁路验证异动归因大数据智能监控平台化大数据智能监控平台化字段级别血缘历史数据人工监控 基础数据 旁路验证阶段 平台化阶段 门禁统计模型验证监督模型验证预