《2-4 汇量科技智能决策基座 - mindalpha 高性能分布式机器学习平台.pdf》由会员分享,可在线阅读,更多相关《2-4 汇量科技智能决策基座 - mindalpha 高性能分布式机器学习平台.pdf(21页珍藏版)》请在三个皮匠报告上搜索。
1、汇量科技智能决策基座M I N D A L P H A 高 性 能分 布 式 机 器 学 习 平 台白悦辉 汇量科技 高级算法工程师|目目录录01 01 背景-广告业务现状0202 智能决策基座-MindAlpha0303 MLOps建设0404 机器学习平台发展之路|背景背景-广告业务现状广告业务现状0101|背景背景-广告技术现状广告技术现状|出价召回、排序隐私计算 反作弊智能决策背景背景-广告算法建模特点广告算法建模特点|大规模、离散化、稀疏数据背景背景-如何应对?如何应对?|数据大小:百GB请求数:亿级样本条数:亿级?训练时间:分钟级请求时延:毫秒级模型大小:百GB智能决策基座智能决策
2、基座-MindAlphaMindAlpha0202|训练平台要训练平台要做什么做什么|成本成本:算法人力成本算法人力成本资源占用资源占用服务器成本服务器成本效率效率:训练速度训练速度算法迭代开发周期算法迭代开发周期模型部署周期模型部署周期效果效果:模型训练和实际落地效果差异模型训练和实际落地效果差异专家经验依赖专家经验依赖MindAlpha-MindAlpha-psps简介简介|PS中的Roles:coordinator:协调器,负责分发角色server:装载模型pull模型参数worker:计算节点push参数思考:所有参数都要更新么?-设置kkt条件MindAlpha-MindAlpha-
3、ma on sparkma on spark|Spark提供了统一的解决方案:通用、易用、易扩展MindAlpha-MindAlpha-模型拆分模型拆分|dense:稠密网络稀疏数据进行表达计算时,必须要one-hot编码成矩阵sparse:稀疏网络稀疏数据能够数值化表示即可思考:连续型特征如何处理?-分桶MindAlpha-MindAlpha-maAPImaAPI支持支持数据读写数据读写kudu,csv,orc,txt模型源语load&save,fit&transform,export,.优化器优化器Adam,Ftrl,Lamb,embeddingembeddingsumContact,lo
4、okUp,sumRange,编辑标题编辑标题编辑内容文本,。内容文本,编辑内容文本,|MindAlphaMindAlpha-几个重点几个重点topictopic|同步&异步计算串行&并行-数据并行-模型并行同步异步示意图思考:异步计算下模型参数不一致一定会导致效果变差么?-类比非凸优化问题MindAlpha-MindAlpha-几个重点几个重点topictopic|判断你的系统瓶颈判断你的系统瓶颈cpu&gpucpu:适合i/o密集型、内存随机访问作业,有较强的逻辑计算能力,适合调度、管理gpu:适合计算密集型、核数多、浮点运算快、并行能力强MLOpsMLOps建设建设0303|ideide建设建设|使用jupyter轻松完成代码调试云原生云原生&ci&ci建设建设|yarn(pyenv)k8s image(x86,arm)Git Tag+汇量计算平台架构汇量计算平台架构|机器学习平台机器学习平台发展之路发展之路0404|模型裁剪模型裁剪|AutoMLAutoML|