《3-1 云原生混合算力助力计算加速.pdf》由会员分享,可在线阅读,更多相关《3-1 云原生混合算力助力计算加速.pdf(23页珍藏版)》请在三个皮匠报告上搜索。
1、云原生大数据混合算力助力计算加速王华 腾讯高级工程师|01大数据资源使用现状02大数据混合算力部署方案03混合算力自动弹性能力04混合算力计算加速落地实践目录 CONTENT|企业大数据资源使用现状01|资源利用率问题|OS在线业务k8smaster在线业务其他业务k8s ClusterNodePodPodPodNodePodPodPodNodePodPodPodNodePodPodPodTez问题存算一体大数据架构问题资源冗余,尤其存储冗余。存储与计算比例不定,算力扩充的同时带来存储的冗余。为了应对未知资源增量及紧急需求,需提前规划,冗余部分buff资源潮汐现象集群整体资源使用率低资源占而不
2、用HiveFlinkYARNHDFS在线容器化应用资源利用问题|如何在控制成本的同时充分利用离在线资源进行计算加速Tez对象存储云HDFSPodPodPodNodePodPodPodNodePodPodPodNodePodPodPodNodePodPodPodNodePodPodPodNode在线业务其他业务K8S-Master离线EMR集群在线K8S集群HiveFlinkYARN大数据混合算力部署方案02|基于容器化的离在线混合部署|大数据业务存储类业务支持云原生的计算框架未支持云原生计算框架HADOOP生态兼容:以YARN作为容器化的基础,在容器中部署YARN-NM,兼容大数据业务中占比最
3、高的Spark,MapReduce等类型的作业。存储类业务例如HDFS,依赖硬件资源的稳定性,不适合部署在Pod中。在支持云原生的计算框架中,例如spark,presto,可充分利用容器资源进行计算未支持云原生的计算框架中,例如MapReduce,在大数据应用中占比较高离在线混合部署目标|在离线混合部署方案|l 开发部署YARN-Operator优势方案l 管理pod生命周期,创建/销毁podl 离线Pod最低优先级(BestEffort)l Operator高可用?Yarn-RMEMR-AgentnodeYarn-NMEMR-AgentCVMYarn-NMEMR-AgentCVMDefaul
4、t PartitionFixElasticityYarn-NMEMR-AgentCVMYarn-NMEMR-AgentCVMA PartitionFixElasticityYarn-NMEMR-AgentCVMYarn-NMEMR-AgentCVMB PartitionFixElasticity?Yarn-NMEMR-AgentPodElasticity?Yarn-NMEMR-AgentPodElasticityYarn-NMEMR-AgentPodElasticityDefault PartitionA PartitionB Partition异构资源计算加速任务稳定性|ResourceMa
5、nagerApplicationManagerResourceSchedulerNodeManagerMapTaskAMcontainercontainerNodeManagerMapTaskReduceTaskcontainercontainerClient1223,8455666777异构资源定义为什么需要进行改造(不可避免)离线集群资源CVM在线集群容器资源pod存在中枢进程AM(Application Master)宿主机负载达到阈值,优先级低的pod资源会被驱逐,若有AM在该pod上,整个任务全部挂掉YARN原生资源调度未考虑异构资源场景异构资源计算加速任务稳定性|RM中增加Node
6、Filter模块由AM自主选择存储介质存量集群升级更稳定ResourceManager改造轻量资源配置更灵活方案优势ResourceManager提升共享分区资源使用率|为什么要进行改造提升集群利用率,客户需要独占(Exclusive)分区的任务使用共享(Non-Exclusive)分区的资源。原生Yarn提交APP时只能指定单个标签,无法同时使用多个分区资源。原生Yarn只支持default分区的任务可以使用共享分区的资源,破坏资源分区隔离性。RM中增加标签解析器:扩展Yarn标签表达式语法RM中增加资源计算器:实时维护可用资源信息优势多标签动态分配资源方案保障资源隔离自由共享资源动态选择分