《2019年基于Kubernetes的58同城深度学习平台.pdf》由会员分享,可在线阅读,更多相关《2019年基于Kubernetes的58同城深度学习平台.pdf(43页珍藏版)》请在三个皮匠报告上搜索。
1、中国软件技术大会CHINA SOFTWARE TECHNOLOGY CONFERENCE基于Kubernetes的58同城深度学习平台关于我曾就职于计算所、腾讯地图现任58同城AI Lab后端架构师AI平台负责人智能问答机器人智能写稿机器人特征工程在线预测模型训练人工智能平台 WPAI深度学习机器学习智能语音机器人智能语音分析平台目录背景总体架构集群管理离线训练在线推理背景介绍58同城是包含多种业务的生活服务平台C端用户平台B端用户帖子帖子AI算法开发流程介绍特征工程模型训练在线预测特征工程模型训练&评价在线预测58人工智能平台(Wuba Platform of AI,WPAI)中台赋能业务,
2、构建统一的AI平台GPU资源统一调度模型统一管理提高算法开发效率功能传统机器学习&深度学习 支持特征工程、模型训练、在线预测58人工智能平台Spark MLlib/DMLC/机器学习DNN/CNN/RNN/深度学习LR/FM/XGBoost/TensorFlow/PyTorch/Caffe/特征工程模型训练在线预测推荐、搜索、广告传统算法图文、语音识别感知类AI算法智能客服、语音机器人认知类AI算法五八人工智能平台深度学习平台架构GPUCPUETCDCalicoDcokerNvidia-DockerKubernetesDNNCNNRNN镜像中心监控中心日志中心Web管理层算法层集群管理层Ten
3、sorFlowPyTorch资源申请任务管理模型管理在线推理服务硬件层自定义Memory文件系统K8S集群管理资源类型Online-GPUOnline-CPUOffline-GPUOffline-CPUK40P40T42080tikubectlMasterapiserverapiserverapi serverschedulercontrollermanagerschedulercontrollermanagerWEB UIETCDETCDETCDNodeKubeletKube-proxycontainercontainercontainerPODcontainercontainerconta
4、inerPODNodeNodeNodeInternet训练资源管理P40K40CPU内存部门私有资源P40K40CPU内存部门共有资源任务提交检查部门私有资源是否充足检查部门共有资源是否充足检查集群共有资源池资源充足:提交到部门私有资源池禁止提交排队任务不超过运行任务20%排除任务超过运行任务20%不充足禁止提交Kubernetes:ResourceQuota+PriorityClass不充足推理资源管理WEB后台Kubernetes Java ClientKubernetesAPI ServerDeployment模型部署/迭代Deployment创建/更新创建更新Node KubeletT
5、ensorflowServingTensorflowServingTensorflowServingTensorflowServingTensorflowServing自定义ServingNode.KubeletTensorflowServingTensorflowServingTensorflowServingTensorflowServingTensorflowServing自定义ServingNode KubeletTensorflowServingTensorflowServingTensorflowServingTensorflowServingTensorflowServing自定
6、义Serving创建/销毁创建/销毁创建/销毁用户线上资源申请资源申请审核亲和性调度集群资源监控-Prometheus+Grafana离线训练设计内存CPUP40K40调试环境训练环境KubernetesTensorFlow单机TensorFlow分布式PyTorch单机迭代训练模型评测tensorboardApt-proxyPypi-proxyTF/PyTorch+Jupyter代码编辑、调试、保存文件系统(WFS、HDFS、WOS)Web系统Jupyter Web任务管理POD资源监控tensorboard日志查看PyTorch分布式离线训练使用流程准备样本数据代码调试创建训练任务执行训练