《2017年机器学习系统和工程方面的优化方向.pdf》由会员分享,可在线阅读,更多相关《2017年机器学习系统和工程方面的优化方向.pdf(40页珍藏版)》请在三个皮匠报告上搜索。
1、2017年 8月5日大规模机器学习平台的技术实现AI Works差异化定价实时风控电商推荐计算广告精准营销授信审批智能客服内容推荐智能产品推荐精细:对个性化和微观业务场景的分析和预测能力要求早已远超传统企业的想象有意愿的用户无意愿的用户传统客户触达:用少量特征将用户较为粗放的划分到少量类别中,每个类别中的用户被认为有相似的属性和相同的意愿,丢失了对每个用户的个性化描绘,准确性有限。同时也无法覆盖到部分客群中的个性化用户大数据机器学习模型:基于日益丰富的海量数据样本,和千万以上量级数据特征,将用户细分到微观粒度,对每个用户做精细的个性化描述,直接定位到每个有意愿的用户,更精准,更全面传统客户触达
2、AI客户触达有意愿的用户无意愿的用户历史数据机器学习数据模型现实样本预测系统预测结果实际结果反馈模型训练模型自动基于新样本数据更新,模型自学习,自适应,自优化。支持批量自学习、增量自学习、在线自学习传统的决策规则政策迭代周期:数月、半年甚至一年以上互联网的决策规则政策迭代周期:每天、每小时甚至只需每分钟智能:要求企业能够适应不断变化的内外部环境,实现数据价值古代驿站传书时代传统IT信息化时代现代书信时代移动互联网时代数据时效:十天半月以上预测和响应决策能力:依赖人工,吞吐量低数据时效:数天预测和响应决策能力:依赖人工,吞吐量低数据时效:T+1预测和响应决策能力:人工+系统有限数据规模下快速响应
3、数据时效:T+几分钟/几秒钟预测和响应决策能力:系统自动大数据环境下的高速吞吐能力响应速度和决策吞吐能力不断增强数据时效性不断提高高效:企业需建立实时或准实时的数据采集传输、模型预测和响应决策能力大数据人工智能输入输出机器学习KGS我们认为的AI是什么?BBig data大数据AAlgorithm算法IInfrastructure计算资源NNeeds需求RResponse外部反馈构建商业AI能力的五个要素问题:假设我是一个点餐Pad提供商,已经收集了食客的点餐数据,如何为每一位食客每次就餐提供AI一键点餐,以同时提升餐馆翻台率与食客满意度?现实与理想的距离因素现实理想特征工程建模人员进行少量特
4、征工程探索庞大的AI团队进行大规模特征工程探索模型规模几十到几千维度几千万到数十亿维度模型算法采用神经网络反复炼丹,通过模型变化适应场景采用大规模机器学习算法,通过特征工程适应场景模型除错经常出现穿越、过拟合等问题,线下建模效果很好,上线之后失望老司机利用经验带领团队排除掉建模过程中的各种风险如何使数据工程师变成AI专家?特征工程:使数据工程师能够有效探索出足够有效的特征集模型规模:引入一套支撑超高维模型训练的机器学习系统模型算法:使数据工程师能够训练出足够有效的模型模型除错:使数据工程师能够快速了解到模型是否有错误并加以排除先知平台 敏捷AI应用构建平台采集数据10%数据处理20%特征工程2
5、0%模型调参20%模型评估10%模型上线20%BEFORE采集数据65%数据处理5%特征工程10%模型调参10%模型评估5%模型上AFTERProphetWeb化操作界面构建工业标准AI应用图形机器学习操作界面-Lamma算子区DAG操作区参数配置区计划操作区Prophet 简化数据预处理过程Prophet 简化特征工程特征组合函数离散特征编码支持两种特征编码方法:连续值特征和离散值特征支持多种高维特征处理方法:Log/Floor/Lineartrans等数值处理Year/Hour/Minute/Second/Datediff/Timediff日期处理Eliminatechar/Split/M
6、apping/SplitbyKey等字符串处理Combine(组合)/Wordseg(切词)/Top(排序)特征处理支持嵌套,例如:Y=top(int(splitbykey(age,;,),2)Prophet 简化特征工程Prophet 特征重要性分析,防止穿越Prophet 自动特征组合discrete_feature_36_26=discrete(combine(duration,pdays,previous)#duration previous pdaysProphet 自动参数探索Prophet 模型评估报告Prophet 预估服务发布先知:平台化的机器学习架构支撑机器学习全流程平台模