《中国人工智能学会:2015年中国机器学习白皮书(70页).pdf》由会员分享,可在线阅读,更多相关《中国人工智能学会:2015年中国机器学习白皮书(70页).pdf(70页珍藏版)》请在三个皮匠报告上搜索。
1、中国机器学习白皮书中国机器学习白皮书中国人工智能学会中国人工智能学会二二一五年十一月一五年十一月1中国人工智能系列白皮书编委会中国人工智能系列白皮书编委会主任:李德毅执行主任:王国胤副 主 任:杨放春谭铁牛黄河燕焦李成马少平刘宏蒋昌俊任福继杨强委员:陈杰董振江杜军平桂卫华韩力群何清黄心汉贾英民李斌刘民刘成林刘增良鲁华祥马华东马世龙苗夺谦朴松昊乔俊飞任友群孙富春孙长银王轩王飞跃王捍贫王万森王卫宁王小捷王亚杰王志良吴朝晖吴晓蓓夏桂华严新平杨春燕余凯余有成张学工赵春江周志华祝烈煌庄越挺中国机器学习白皮书编写组中国机器学习白皮书编写组组长:陈松灿高阳组员:黄圣君李武军薛晖俞扬余志文詹德川詹志辉张利军张
2、敏灵庄福振2目录第 1 章 引言.1第 2 章 主流机器学习技术进展.32.1 度量学习.32.2 多核学习.72.3 多视图学习.102.4 集成学习.142.5 主动学习.182.6 强化学习.22第 3 章 新兴机器学习技术选介. 273.1 迁移学习.273.2 深度学习.313.3 统计关系学习.343.4 演化学习.36第 4 章 大数据时代的机器学习. 414.1 并行机器学习.414.2 哈希学习.464.3 在线学习.48第 5 章 结束语.521第 1 章 引言“机器学习” (Machine Learning)是人工智能的核心研究领域之一, 其最初的研究动机是为了让计算机系
3、统具有人的学习能力以便实现人工智能1。 机器学习领域奠基人之一、 美国工程院院士 T. Mitchell教授在其经典教材Machine Learning中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”2。一般而言,经验对应于历史数据(如互联网数据、科学实验数据等) ,系统对应于数据模型(如决策树、支持向量机等) ,而性能则是模型对新数据的处理能力(如分类和预测性能等) 。因此,机器学习的根本任务是数据的智能分析与建模。随着信息技术不断向网络化、 低成本方向发展, 人们在社会生活、科学研究等各个领域中的数据正以前所未有的速度产生并被广泛收集、存储。如何实现数据的智能化处理从而充
4、分利用数据中蕴含的知识与价值,已成为当前学术界与产业界的共识。正是在这样的大趋势下,机器学习作为一种主流的智能数据处理技术,其作用日渐重要并受到了广泛关注。例如,美国科学院、工程院两院院士 T. J. Sejnowski 等人 2009年在Science上撰文指出,机器学习正成为发展新的学科的基础之一3;美国政府 2012 年公布的大数据研究发展计划中,将机器学习作为核心支撑技术;在我国制定的国家中长期科学和技术发展规划纲要(2006-2020 年)中,以机器学习为核心的“智能”关键词在目录中 6 次出现。特别值得一提的是,计算机界最高奖图灵奖在 2010年与 2011 年连续两年授予机器学习
5、领域的两位杰出学者 (L. Valiant,2010 年度;J. Pearl,2011 年度) ,这标志着机器学习经过 30 余年的蓬勃发展,现已成为计算机科学中最重要和最活跃的研究分支之一。本白皮书旨在简要阐述当前机器学习领域的研究和应用现状, 主2要包括三方面内容: 第 2 章对机器学习领域主流学习技术的研究进展进行了介绍,包括度量学习、多核学习、多视图学习、集成学习、主动学习以及强化学习;第 3 章对近年来新兴的机器学习技术做了选介,包括迁移学习、深度学习、统计关系学习以及演化学习;第 4 章对大数据时代一些重要机器学习技术进行了介绍,包括并行机器学习、哈希学习以及在线学习。在内容组织上
6、,各章节主要包括背景介绍以及相关技术进展, 并在必要时对所涉及的产业应用及未来可能的研究方向进行了讨论。3第 2 章 主流机器学习技术进展2.1 度量学习度量是计量的准则。脱离度量,收集的数据、分析的结果也就丧失了物理意义和现实指征。 而距离的度量对众多机器学习方法的性能都起到了决定性作用:例如在分类方法中,K 近邻分类器、使用了高斯核的核方法;在聚类方法中,K 均值聚类、谱聚类方法都与距离度量密切相关。一般来说,对于任意样本 x, y, z 而言,距离度量函数需要满足自反(任意样本到自身的距离为 0) 、对称(x 到 y 的距离等于 y 到 x 的距离) 、非负(任意样本对之间的距离大于等于