《汽车之家 邸星星-汽车之家大数据平台降本增效实践.pdf》由会员分享,可在线阅读,更多相关《汽车之家 邸星星-汽车之家大数据平台降本增效实践.pdf(32页珍藏版)》请在三个皮匠报告上搜索。
1、汽车之家大数据平台汽车之家大数据平台降本增效实践降本增效实践邸星星邸星星 大数据平台大数据平台个人简介个人简介 邸星星 汽车之家大数据平台 离线计算、实时计算、OLAP、机器学习、向量检索 致力于提供大规模、高效、稳定的计算与查询服务目录目录 概述 降本增效实践 未来规划内容概述内容概述 混部 离线在线混部 实时离线混部 Hadoop 计算引擎 Hadoop 存储 机器学习离线离线+实时架构实时架构资源调度服务存储节点HDFS元信息服务存储节点存储节点HDFS元信息服务资源调度服务实时计算节点任务任务存储节点HDFS数据权限管理用户队列管理混部队列调度队列动态伸缩K8S计算节点任务任务任务任务
2、离线计算节点任务任务存储节点HAHAHive SQL引擎Spark SQL引擎Flink 引擎IDE数据分析平台统一调度平台实时计算平台Presto引擎应用层引擎层机器学习平台计算层存储层混部背景混部背景 集群规模日益扩大 云原生时代容器成为开发、部署的标准基础设施 离线、在线业务没有错峰利用资源容器云容器云架构架构-可扩展、高可靠、高复用可扩展、高可靠、高复用离线在线混部架构离线在线混部架构YarnOperator负责NM POD的创建CronHPA controller实现潮汐调度ResourceController、KHAgent实现离线NM的动态资源分配YarnScaleControl
3、ler watch ResourceController,对离线任务进行动态调度ResourceControlerResourceControler&KH-Agent&KH-AgentResourceControllerResourceController 提供提供2 2个资个资源管理对象源管理对象RCS KHKHAgentKHAgent以Daemonset形式启动获取实际可用资源并上报根据资源阈值和容忍时间进行资源回收YarnYarn资源动态伸缩容方案资源动态伸缩容方案RMOffline-Pod(NM)YarnScaleController1.修改yarn配置文件,持久化节点资源量2.调用接
4、口通知RM节点资源变动信息1.更新节点及队列资源量,(缩减资源时停止新任务调度)2.判断是否需要强制回收资源1.心跳过程中通知NM资源量,NM修改资源信息2.重启或者重新注册时通知NM资源量Offline-Pod(NM)回收资源策略(假如窗口期x min,x y)):1.y min之内可用资源 0,不触发强制回收2.超过y min触发强制回收(直到可用资源0),回收规则(同一个队列按照时间排序):1)回收tongyong队列 2)回收dev,basic队列 3)回收core队列 4)回收AM资源 Agent DSResourceController 轮训获取资源变动信息 (节点,资源量,回收窗
5、口期)稳定性监控稳定性监控 混部与非混部在线应用性能 流量、平响、错误数(单应用、汇总)混部与非混部离线任务 Job平均运行数量、时间、错误(集市队列、任务级别)虚拟资源,物理资源的容量 已用(节点、在离线)、可用,组件可用性 混部离线调度 资源可用、已用、扩容状态、次数、处理时离在线混部收益离在线混部收益 资源错峰利用 在线节点CPU利用率:10%-50%实时离线资源混合部署,错峰分配算力实时离线资源混合部署,错峰分配算力NodeManagerNodeManagerNodeManagerNodeManager实时资源NodeManagerNodeManagerNodeManagerNodeM
6、anager离线资源实时队列离线队列混部队列资源调度插件用户队列绑定规则混部时间段调度规则混部任务量控制规则队列监控YARN资源调度服务Flink客户端IDE客户端调度客户端开发客户端Spark客户端实时任务VPA背景背景实时、离线分别使用独立的yarn集群实时计算业务增长迅猛方案方案实时:自研Flink伸缩容能力离线:开发混部队列资源调度插件,引入共享队列的能力,并提供灵活的离线任务调度策略收益收益错峰计算,充分利用服务器资源,CPU利用率从之前的29%提升至77%实时离线资源混合部署实时离线资源混合部署-Yarn-Yarn调度升级调度升级YarnYarn调度器:调度器:定制混部队列资源调度