1、MTSC2020中国互联网测试开发大会深圳站TESTING SUMMITCONFERENCE CHINA 20202020.11.20-21一中国深圳宝立方国际酒店主办方:TesterHeme#page#中国互联网测试开发大会。MTSC深圳站ESTING SUMMIT CONFERENCE CHINA2020从0到1,机器学习产品的精益质量艾辉机器学习测试入门与实践作者主办方:TesterHame#page#MTSC中国互联网测试开发大会1.机器学习基础知识的概述2.机器学习产品的测试痛点3.机器学习测试方法的演进CONTENTS4.机器学习测试技术的实践5测试开发技术的转型升级主办方:Tes
2、terHeme#page#MTSC中国互联网测试开发大会1.1A的主要应用场景人工智能的主要应用领线人工智能应用的三要素智能投顾、智能客服智能导购和客户、仓储物流大数据风控、智能营销智能监控、金融电商安保机器人PDA语音助理、家庭管家人工0智能陪护机器人常求照数据处理数动技术商业智能医疗健康的监测诊断变现据能力智能汽车、快递场景工业机器人智能评测、个性化辅导、儿童陪护主办方:TesterHeme#page#1.2机器学习的常见名词解释(一)MTSC中国互联网测试开发大会过拟合:一味追求对训练数据的预测模型:抽象数据,描述客观世界规律的数学模型能力,模型复杂度高于真实模型,泛通过数据分析,找到了
3、其中规律,此规律即是模型化能力差。训练:从数据中分析得到模型的过程。训练的目的:不仅对已知数据而且对未知数据都有很好的预测能力。S1mn()x+xg+xg+g泛化能力:算法对未知数据的预测能力。样本数据:划分为训练集与测试集。欠拟合:模型没有很好的捕捉到数据特征,不能很好的拟合数据。训练误差/经验误差:模型在训练集上的误差。测试误差:在测试集上的误差。Siae泛化误差:在新样本上的误差Size(欠拟合)e+ex+O0+Bx主办方:TesterHeme#page#1.3机器学习的常见名词解释(二)MTSC中国互联网测试开发大会指数据的特定实例:X。样本分为两类,有标签样本、无标签输入变量,即简单
4、线性回归我们要预测的事物,即简单样本。中的x变量。以垃圾邮件检测线性回归中的y变量。如:样本有标签样本同时包含特征和标签,无标签特征举例,特征可能包括,发件小麦未来的价格,图片中的标签样本只包含特征人的地址,发送电子邮件的动物品种等等。使用有标签样本训练模型之后,基于时段等。该模型来预测无标签样本的标签。数据特征将数据转化成机器能够学习的属性数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已主办方:TesterHeme#page#1.4什么是建模?打一个比喻*中国互联网测试开发大会MTSC不同的模型逻辑回归循环直到满意训练模型神经网络随机森林让模型输出调整参数奖惩输入信息目标函数
5、结果不同的动物循环直到满意训练动物小狗大象让动物做出预期与实际调整动作给出口令奖惩海豹动作作对比主办方:TesterHeme#page#1.5从特征挖掘到模型预测MTSC中国互联网测试开发大会开始数据分析数据采集对定量特征采样数据清洗值二化对定性特征特征提取缺失值计算无量纲化呼编码降维特征选择数据变换训练结束评估预测主办方:TesterHeme#page#1.6机器学习算法和模型,能区分清楚吗?*MTSC中国互联网测试开发大会AlgorithmData模型是一个数学公式,xo.xxn是算法实现的结果。Input toatical formula可以修改模型的参数来训练模型,以获得Type an
6、dModel更好的结果。functiony=Woxo+Wx1+WnXn+bOutputof模型代表了机器学习mathematicalformula系统从训练数据中学到的东西。Prediction主办方:TesterHame#page#MTSC中国互联网测试开发大会1.7机器学习算法与解决问题的映射关系基本问题机器学习经典算法支持向量机最大摘模型分类Adaboost回归有监督学习分类回归树随机森林排序GBDTGBRank聚类K-Means结构标注隐马尔科夫模型无监督学习条件随机场主办方:TesterHeme#page#1.8一个典型的机器学习系统架构中国互联网测试开发大会MTSC福型评分型性能道