1、OPPO数据湖仓技术演进演讲人:付庆午OPPO大数据平台架构师2023 OPPO大数据架构演进Shuttle2.0大数据计算引擎加速Glacier数据湖仓服务底座湖仓非结构化领域技术探索OPPO大数据架构演进OPPO大数据架构演进数据规模:300P+任务规模:30w+SLA准点率:85%存在众多稳定性问题例如:Shuffle不稳定元数据单点Dag调度任务编排Oflow接入层LivyHiveserverFlinkGateway计算引擎SparkHivePrestoFlink元数据HMSmysql存储HDFS资源调度YarnRouterYarnClusterHotOPPO大数据架构演进数据规模:数
2、据规模:EB级级任务规模:日均百万任务规模:日均百万SLA准点率:准点率:98%通过自研技术通过自研技术提升稳定性和效率提升稳定性和效率链路识别Oflow接入层计算引擎SparkTrinoFlinkWaggle dance元数据HMS group存储HDFS基线保障关键路径时间预测多引擎适配HBOSQL画像统一接入ShuttleshufflesortbroadcastHMS groupyarn超卖云数融合调度限售分级自愈K8SColdCubefs运维运维&诊断诊断集群管理成本账单元数据生命周期运维工具全表扫描数据倾斜存储健康计算健康实时健康Glacier秒级入湖布隆索引位图索引zorder倒排
3、索引TensorFlow存储训练加速OPPO大数据架构演进Shuttle2.0大数据计算引擎加速降低集群碎片读写降低集群碎片读写多种稳定性多种稳定性/正确性保障正确性保障主备集群主备集群online分布式存储底座分布式存储底座 Checksum校验校验Shuttle 1.0:Spark Remote Shuffle ServiceShuttle2.0大数据计算引擎加速指标名称指标名称下降幅度下降幅度平均E2E运行时间29.5%平均任务成本24%Task执行总时间22%平均Fetch fail task数68-0Shuttle 1.0:Spark Remote Shuffle Service上线
4、效果:线上40%的shuffle流量通过shuttle承接平均性能提升30%Shuttle2.0大数据计算引擎加速不局限Spark RSS:多引擎:Spark、Flink多功能计算辅助:分布式排序;Adaptive BroadcastShuttle 2.0:计算辅助系统Shuttle2.0大数据计算引擎加速Shuttle 2.0:计算辅助系统分布式排序SortMergeJoin:Reduce端排序Shuffle&Sort 流水线执行排序分布式化Shuttle2.0大数据计算引擎加速Shuttle 2.0:计算辅助系统1、多层排序介质,内存、磁盘、混合模式2、shuffle/排序流水线化,边写边
5、排序3、分布式排序,分片数据内部有序4、多路归并读,全局有序Shuttle2.0大数据计算引擎加速Shuttle 2.0:计算辅助系统类型类型E2e时间时间(s)Shuffle read时间时间Shuffle read磁盘溢写磁盘溢写原生spark2591331324GShuttle1.0215133890GShuttle2.0dis-sort165850任务input数据量、shuffle数据量都在1TB左右,3表join的任务。1T Tpch 22 个任务中,sorter相比rss平均性能提升11.68%,相比原生shuffle平均性能提升20.9%Shuttle2.0大数据计算引擎加速S
6、huttle 2.0:计算辅助系统-Adaptive BroadcastSpark3.x AQE 广播策略:广播表大小限制在10M(默认),限制广播机制的使用范围Driver端容易OOMSpark估算广播表大小不准Shuttle2.0大数据计算引擎加速Shuttle 2.0:计算辅助系统Adaptive Broadcast:广播表大小扩大到2-8G(根据Executor内存决定)解决Driver端OOM问题根据实际运行数据决定广播避免大数据量shuffle和排序Shuttle2.0大数据计算引擎加速Shuttle 2.0:计算辅助系统对于大表join小表(32G以内)场景,平均join时间降低