1、DataFunSummitDataFunSummit#20232023货拉拉大数据货拉拉大数据DorisDoris稳定性稳定性保障实践保障实践杨秋吉-货拉拉-OLAP负责人梁健聪-货拉拉-大数据工程师背景与挑战稳定性能力保障稳定性流程规范总结与规划目录目录 CONTENTCONTENTDataFunSummitDataFunSummit#202320230101背景与挑战货拉拉介绍货拉拉介绍360360国内城市6868万万月活司机950950万万月活用户8+8+业务线7+7+IDC1000+1000+机器数2020PB+PB+存储量20k+20k+日均任务数货拉拉货拉拉-大数据大数据大数据大数
2、据基础平台基础平台基础层基础层离线计算实时计算资源管理大数据存储OLAP计算基础元数据(Hivemeta)实时数据接入埋点数据接入数据对账数据链路监控离线数据接入数据数据接入接入平台平台接入层接入层数据门户数据门户权限权限中心中心个人个人中心中心内容内容管理管理知识库知识库建议建议反馈反馈数据门户数据门户权限中心个人中心内容管理知识库建议反馈门户首页平台层平台层&数仓数仓数据研发平台数据研发平台飞流实时开发BQ数据查询IDP数据集成开发数据仓库数据仓库DWDWB B基础整合层基础整合层DWDWT T明细数据层明细数据层数据湖接入(数据湖接入(T+1T+1、近实时、实时)、近实时、实时)DWSD
3、WS公共汇总服务层公共汇总服务层用户集市用户集市司机集市司机集市主数据库主数据库数据治理平台数据治理平台大数据安全管理元数据管理数据建表管理数据质量管理数据工具箱数据工具箱自助分析自助分析可视化大屏可视化大屏数据服务工具数据服务工具快捷分析快速报表数据智能支撑工具数据智能支撑工具服务层服务层预警/告警监控多维分析固定报表AB Test特征平台大数据分析平台大数据分析平台数据应用支撑服务工具数据应用支撑服务工具数据工具箱自助分析可视化指标库管理数据上报固定报表用户画像数据云服务大数据分析平台辅助决策类应用辅助决策类应用赋能业务类应用赋能业务类应用应用层应用层智能营销智能广告投放实时报表鹰眼监控经
4、营分析用户分析数据仓库数据仓库ODS贴源数据层DWS公共汇总服务层DIMDIMDWD明细数据层DWB明细数据整合层用户集市用户集市司机集市司机集市集市1集市2指标库AI平台货拉拉货拉拉-大数据大数据DorisDoris业务介绍业务介绍aaaAB 平 台01aaa用户画像人群圈选02aaa漏斗分析、归因诊断03aaa04关联海量埋点数据灵活多维分析云台(数据可视化平台)罗盘(增长分析决策平台)稳定性稳定性挑战挑战稳定性挑战业务对Doris服务稳定性要求高1.Doris已接入多个核心业务已成为大数据核心基础组件开源软件基本能力和生产需求之间的差距大1.Doris内核能力完善,但外围平台能力不足,例
5、如监控告警、运维管控2.Doris内核演进速度快,相应的Issue也较多版本数(2022-2023)Issue数(2022 2023)14Open:1438Closed:4112稳定性保障目标稳定性保障目标快发现快发现核心链路问题(主动发现)时间=9 99.459.45%(2次/年)快恢复快恢复P0核心链路恢复时间=5min5min;P1级(埋点相关指标,容忍度相对高)链路恢复时间 32)2、加强Doris变更规范管控与审批流程3、业务多租户隔离(进行中)稳定性稳定性案例案例案例三案例三数据数据质量问题质量问题场景:业务使用sparkload导入Unique模型表,查询结果不稳定原因:Uniq
6、ue模型表使用Sparkload导数时存在异常解法办法:1、将Unique模型改为Duplicate模型重建表2、将Unique模型使用注意事项加入准入规范及最佳实践进行宣讲第一次查询第二次查询稳定性稳定性案例案例案例四案例四版本升级问题版本升级问题场景:凌晨时间段 broker load任务和insert任务重合时间段,BE内存出现OOM被kill导致任务报错原因:升级1.2版本后的bitmap向量化读没有进行谓词下推,导致内存上涨解法办法:1、业务对SQL谓词下推的优化,如and和or的条件合并2、后续集群HA方案(因1.2无法直接回退1.1)稳定性稳定性案例案例案例五案例五业务变更问题业