1.结构化数据
结构化数据(Structure
Data)就是行数据,也就是可以通过传统的关系型数据库(RDBMS)进行存储以及管理,可以使用二维表格的方式对数据的结构和数据本身进行形式化的定义和使用,也就是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式和长度规范,结构化查询语言(SQL)允许在关系数据库(RDBMS)中查询该类型的结构化数据。

结构化数据的特点:
(1)数据结构相对固定,结构定义不易改变,数据长度有限制,但是能够很容易通过二维表结构实现数据的逻辑化表达。
(2)数据类型相对简单,能够支持大部分的传统行业应用,但是随着大数据的崛起,越来越多的数据呈现非结构化,因此,非结构化数据的存储和分析变得越来越重要。
2.非结构化数据
非结构化数据(Unstructured
Data)就是数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据。简单意义上来说,无法或者不方便使用二维的数据逻辑思维存储和表达的数据都可以定义为非结构化数据,因此非结构化数据涵盖了现有的所有文件数据类型,包括国土GIS数据、所有格式的办公文档、文本、图片、照片、XML、HTML、各类报表、图像、音频、视频信息等等多种类型。
非结构化数据的特点:
(1)在现有的互联网应用中,存储在海量的复杂类型数据结构,使用传统的关系型数据库将无法满足业务和应用的快速响应需求。数据用户不仅仅需要采用计算工作的分析,而且还要走动从其本身的社会活动和用户决策中学习。自然语言处理(NLP)、模式感知和分类以及数据挖掘就是最生动的案例。
(2)尽管存储海量数据的设备成本近几年有大幅度的下降,但是非结构化数据的体量与多样性却指数级上升。相对于传统的结构化数据,非结构化数据的分析和利用将需要更多的数据工程师和高级分析师,毕竟结构化的数据将相当于一分简洁的数据清单,而非结构化数据更像是种类繁多的杂货店。
(3)非结构化数据在任何地方都可以比较容易得到,可以在公司内部的邮件信息、与别人的聊天记录以及通过搜集得到的各种调查结果中获得非结构化数据,还有可以从个人在网站上的一些评论、在客户关系管理系统中的某些评论,以及从大家使用的个人应用程序中得到的一些文本字段。当然还有在公司外部的社会媒体、论坛、一些人们感兴趣的话题的评论语言等等。
(4)非结构化的大量数据中存在着巨大的商业价值,非结构化的数据可以通过各种各样的途径获得,通过利用可视化的数据分析工具能够帮助企业全面的了解市场和用户需求,定位企业发展的不平衡点,显著的降低企业的运营风险。
以上梳理了结构化数据、非结构化数据的定义及特点,希望对你有所帮助,如果你想了解更多相关内容,敬请关注三个皮匠报告的行业知识栏目。
推荐阅读:
爱分析:中国非结构化数据中台实践白皮书(55页).pdf
爱分析:非结构化数据中台实践白皮书V2(65页).pdf
中国电子技术标准化研究院:非结构化数据管理解决方案白皮书(2020 版)(57页).pdf