1、001 评估方法 1.1 评估指标体系 1.2 数据采集分析方法 1.3 指数计算方法 指数分析 2.1 数据数量 2.2 数据质量 2.3 数据规范 2.4 开放范围003003006006008008009012017请参照以下规范:复旦大学数字与移动治理实验室 . 地方开放数林指数分析报告 数据层 _ 浙江(2020 上半年)R/OL. (2020-07-22) 引用日期,格式为YYYY-MM-DD. http:/ 地方开放数林指数分析报告 数据层 _ 浙江(2020 上半年).pdf.0020031.1 评估指标体系评估指标体系共包括准备度、 平台层、 数据层、 利用层四个维度及下属多
2、级指标 (见图1-1、图 1-2):准备度是“数根”,是数据开放的基础,包括法规政策效力与内容、组织与实施、标准规范制定等三个一级指标。平台层是 “数干” , 是数据开放的枢纽, 包括数据发现、 数据获取、 成果提交展示、 互动反馈、用户体验等五个一级指标。数据层是“数叶”,是数据开放的核心,包括数据数量、数据质量、数据规范、开放范围等四个一级指标。利用层是“数果”,是数据开放的成效,包括利用促进、有效成果数量、成果质量、利用多样性等四个一级指标。一、评估方法004 图 1-1 评估指标体系005 图 1-2 数据层评估指标0061.2 数据采集分析方法数据层评估主要通过机器自动抓取浙江省数据
3、开放平台上的数据,结合人工观察采集相关信息,然后对数据进行了描述性统计分析、交叉分析、文本分析和空间分析。数据采集截止时间为 2020 年 4 月,对“动态更新”这一指标的评测时段为 2020 年 1 月 1 日至 2020 年3 月 31 日。1.3 指数计算方法基于浙江省在各项评估指标上的实际表现从低到高按照 0-5 分共 6 档分值进行评分,其中 5 分为最高分,相应数据缺失或完全不符合标准则分值为 0。对于连续型统计数值类数据则使用极差归一法将各地统计数据结果换算为 0-5 分之间的数值作为该项得分。报告对应各项评估指标,以处于全国前 10%、前 25%、前 40%、前 70% 和后
4、30% 五个等级来展示浙江省在该项指标上所处的位置。007008浙江在数据层各项指标上的得分如图 2 所示。二、指数分析 图 2 浙江在数据层各项指标上的得分情况2.1 数据数量数据数量是指平台上开放的有效数据集的数量和容量。009 浙江在该项指标上在全国所处的位置 浙江在该项指标上在全国所处的位置2.1.1 有效数据集总数有效数据集总数是指平台上开放的真实有效的数据集的数量,不包括空白数据集、虚假数据集和重复数据集。浙江目前在该项指标上的排名居于在评地区的前 70%。2.1.2 有效数据容量有效数据容量是指将一个平台上可下载的、结构化的有效数据集的字段数(列数)乘以条数(行数)后得出的数据量
5、。浙江目前在该项指标上的排名居于在评地区的前 10%。2.2 数据质量数据质量是指平台上开放的数据集的完整性、颗粒度、时效性和可获取性。0102.2.1 优质数据集数量优质数据集数量是指平台上数据容量大、社会需求高的数据集的数量。报告对在评地区平台上所有可下载的数据集按照数据容量进行排序,在数据容量相同的情况下再按照下载量排序,最终选出排名居于前 1% 的数据集作为优质数据集。浙江目前在该项指标上的排名居于在评地区的前 10%。浙江省平台有三个优质数据集进入在评地区优质数据集的前十名(如表 1)。 浙江在该项指标上在全国所处的位置 表 1 浙江平台上开放的优质数据集0112.2.2 无质量问题
6、无质量问题是指平台上存在高缺失、碎片化、低容量、生硬格式转化、限制型 API、标题缺失或不清等质量问题的数据集较少或没有。其中,高缺失数据集是指数据集中有 60% 以上的空缺数据 ; 碎片化数据集是指按照时间、行政区划、政府部门等被人为分割的数据集 ; 低容量数据集是指因数据量本身稀少或颗粒度过大等原因造成的数据条数在三行或三行以内的数据集 ; 生硬格式转化是指平台将非结构化的 DOC、PDF 等文件生硬地转化成 XLS、CSV、XML 等可机读格式。浙江目前在该项指标上的排名居于在评地区的前 25%。2.2.3 数据持续性数据持续性是指平台能够持续增加