1、大数据分析及工具应用大数据分析及工具应用 目录目录 概述概述 数据分析框架数据分析框架 数据分析方法数据分析方法 数据理解数据理解&数据准备数据准备 数据分析支撑工具数据分析支撑工具 关联分析关联分析 聚类分析聚类分析 分类与回归分类与回归 时序模型时序模型 结构优化结构优化 数据分析即从数据、信息到知识的过程,数据分析需要数学数据分析即从数据、信息到知识的过程,数据分析需要数学理论、行业经验以及计算机工具三者结合理论、行业经验以及计算机工具三者结合 分析分析误区误区 数据数据挖掘挖掘 行业经验 传统传统 分析分析 机器机器 学习学习 数学数学&统计学知识统计学知识 数据分析的基础,将整理、描
2、述、预测数据的手段、过程抽象为数学模型的理论知识 工具支撑工具支撑 各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求。行业经验行业经验 行业经验可在数据分析前确定分析需求,分析中检验方法是否合理,以及分析后指导应用,但行业特征不同,其应用也不同,因此本文不展开介绍 传统分析传统分析 在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛,本文不展开介绍 分析误区分析误区 不了解分析模型的数学原理,会导致错误的使用模型,而得出错误的分析结论,影响业务决策,因此在选用分析模型时,要深入
3、了解该模型的原理和使用限制 机器学习机器学习 不需要人过多干预,通过计算机自动学习,发现数据规律,但结论不易控制。数据挖掘数据挖掘 数据挖掘是挖掘数据背后隐藏的知识的重要手段 随着计算机技术发展和数据分析理论的更新,当前的数据分随着计算机技术发展和数据分析理论的更新,当前的数据分析逐步成为机器语言、统计知识两个学科的交集析逐步成为机器语言、统计知识两个学科的交集(备选)(备选)数据数据 挖掘挖掘 业务数据 数据挖掘数据挖掘 就是充分利用了统计学和人工智能技术的应用程序,并把这些高深复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题。信息处理信息处理
4、 信息处理信息处理 信息处理基于查询,可以发现有用的信息。但是这种查询的回答反映的是直接存放在数据库中的信息。它们不反映复杂的模式,或隐藏在数据库中的规律。传统分析传统分析 数据分析数据分析 工具工具 传统分析传统分析 在数据量较少时,传统的数据分析已能够发现数据中包含的知识,包括结构分析、杜邦分析等模型,方法成熟,应用广泛,本文不展开介绍 数据分析工具数据分析工具 各种厂商开发了数据分析的工具、模块,将分析模型封装,使不了解技术的人也能够快捷的实现数学建模,快速响应分析需求。随着计算机科学的进步,数据挖掘、商务智能、大数据等概随着计算机科学的进步,数据挖掘、商务智能、大数据等概念的出现,数据
5、分析的手段和方法更加丰富念的出现,数据分析的手段和方法更加丰富 一系列以事实为支持,辅助商业决策的技术和方法,曾用名包括专家系统、智能决策等 一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成 对数据分析的体系化管理,数据分析的主体依然是数据挖掘 结构分析 分组分析 杜邦分析 预警分析 常规分析常规分析 揭示数据之间的静态关系 分析过程滞后 对数据质量要求高 商务智能商务智能 数据挖掘数据挖掘 大数据技术大数据技术 数据可视化数据可视化 统计学和计算机技术等多学科的结合 揭示数据之间隐藏的关系 将数据分析的范围从“已知”扩展到“未知”,从“过去”推向“将来”从多种类型的数据中,快
6、速获取知识的能力 数据挖掘技术的衍生 大数据时代,展示数据可以更好辅助理解数据、演绎数据 本文在描述数据分析的流程后,重点介绍通用的数据分析方法和主流的应用工具、软件。随着数据量的不断扩大,数据分析理论正处于飞速发展期,因此本文的方法侧重于基础原理介绍。数据数据 分析分析 目录目录 概述概述 数据分析框架数据分析框架 数据分析方法数据分析方法 数据理解数据理解&数据准备数据准备 数据分析支撑工具数据分析支撑工具 关联分析关联分析 聚类分析聚类分析 分类与回归分类与回归 时序模型时序模型 结构优化结构优化 1.1.业务理解业务理解(business understanding(business