1、开源云原生计算时代论坛专场嘉宾姓名 王雷博()本期议题:云原生批量计算平台Volcano的演进和落地实践HPC、大数据、AI 批量计算的发展历程和趋势2015 Tensorflow Caffe2 Pytorch2017 kubeflow Hadoop 1.0 HDFS20062008 Hive2012 YARN Impala2014 Spark Storm Flink2010 Hbase NOSQL2013 Tez2017 Spark on k8sK8s,framework,container20182010 Slurm199*LSF PBS SGE2005 Symphony SGE/UGE2
2、005 2008 Globus HPC for AIisc/vhpc Kubeflow kubecon2013长期课题:调度效率,资源利用率资 源 池:多个独立资源池 统一的大资源池业务类型:单一作业平台 在离线作业混部技 术 栈:自建底层技术栈 拥抱云原生底座云原生批量计算面临的关键挑战 作业管理缺失 调度策略局限Pod级别调度,无法感知上层应用缺少作业概念、缺少完善的生命周期的管理缺少任务依赖、作业依赖支持不支持Gang-Scheduling、Fairshaing scheduling不支持多场景的Resource reservation,backfill不支持CPU/IO topolog
3、y based scheduling 领域计算框架支持不足 资源规划复用、异构计算支持不足1:1的operator部署运维复杂不同框架对作业管理、并行计算等要求不同计算密集,资源波动大,需要高级调度能力缺少队列概念不支持集群资源的动态规划以及资源复用对异构资源支持不足Volcano 帮助批量计算面对云原生的各种挑战业界首个云原生批量计算平台2019年6月上海KubeCon正式开源2020年4月成为CNCF官方项目2021年3月发布1.2版本每3个月一个特性版本,最新版本v1.2.0社区活跃度:1.7k star,300+fork,150+贡献者5 Maintainer,8 Reviewer30
4、 家企业、科研机构Volcano 总体架构和优势WorkloadKubernetesAPI-SERVERETCD KUBELET级联队列调度缓存多集群调度Volcano作业分发资源隔离共享基于共享视图多调度器应用拓扑调度硬件拓扑调度联邦调度子系统 调度性能子系统资源规划子系统调度策略子系统Volcano Volcano 总体架构Volcano Volcano 优势 高性能:提供队列调度、优先级调度、抢占、装箱、资源预留、拓扑调度等丰富的调度策略,在多种场景下提升应用性能 智能混合调度:支持在线、离线混合部署调度,提高整体资源利用效率 应用感知:感知应用类型和特点,针对大数据、AI、HPC负载提
5、供完善的生命周期管理 集群联邦调度:支持多集群调度和作业分发,满足效率优先、成本优先等不同的场景诉求 大规模:支持大规模集群调度,单集群规模支持1w节点,100w容器 高扩展:插件化算法集成框架,提供两级插件扩展,方便二次开发,满足不同场景诉求 易运维:Volcano 作业提供统一接口,避免过多Operator带来的繁杂管理 社区成熟:CNCF首个批量计算平台,已支持众多的主流AI、大数据、高性能计算框架,众多用户已应用于生产环境分布式训练场景、大数据场景性能提升30%+分布式训练场景1分布式训练场景2大数据TPC-DS性能测试AI 分布式训练场景Gang-Scheduling:解决分布式训练
6、ps-worker忙等、死锁问题,性能提升30%。Task-topology/IO aware scheduling:最大程度降低传输时延,针对IO密集型应用,性能提升31%大数据场景minResource:解决高并发场景Spark driver和executor资源竞争问题,合理规划并行度,性能提升39.9%在线、离线混合调度、资源超卖Node1Node2大数据、AI、Web转码、AIK8s API Server转码WebtfjobSparkOBSSFS Turbo CacheENIENIENIAI任务大数据任务Volcano调度引擎WebtfjobENIENI微服务场景和诉求:不同业务部署