四川省大数据产业白皮书(2023)四川省大数据产业联合会2023 年 12 月四川省大数据产业白皮书(2023)导 读大数据产业是以数据生成、采集、存储、加工、分析、服务为主的战略性新兴产业,是激活数.
践行深度用云政务数据之道白皮书编写单位及作者P R E P A R A T I O N C O M M I T T E E编 写 单 位编制委员会安徽省大数据中心华为云计算技术有限公司编委主任:钱 海.
关于构建数据要素市场体系的几点思考关于构建数据要素市场体系的几点思考王闯 博士中国软件评测中心数据治理中心副主任2023.11.20目目 录录0101对数字经济时代本质的思考0202对数据要素市场发展的认识0303对数据要素市场发展的建议数字数字经济时代的本质经济时代的本质生产力生产力“数化万物、智化生存数化万物、智化生存”的数字经济时代,由数据所构建的数字空间,为人类认识和改造世界提供了颠覆性手段的数字经济时代,由数据所构建的数字空间,为人类认识和改造世界提供了颠覆性手段数字数字经济时代的本质经济时代的本质生产力生产力物理空间物理空间社会空间社会空间认认识识世世界界改改造造世世界界知识(数据)知识(数据)数据治理数字孪生认识世界改造世界数化世界治理世界“数化万物、智化生存数化万物、智化生存”的数字经济时代,由数据所构建的数字空间,为人类认识和改造世界提供了颠覆性手段的数字经济时代,由数据所构建的数字空间,为人类认识和改造世界提供了颠覆性手段将劳动、土地、资本、技术、管理、知识将劳动、土地、资本、技术、管理、知识等各类要素数字化及数据化,发挥数据对等各类要素数字化及数据化,发挥数据对提高生产效率的提高生产效率的乘数倍增作用乘数倍增作用文明之初:文明之初:结绳记事结绳记事文字诞生:文字诞生:文以载道文以载道信息时代:信息时代:数据建模数据建模数字时代:数字时代:智能决策智能决策企业数字化转型的本质企业数字化转型的本质数字化转型就是使用先进的数字技术或解决方案来转变业务的模式、流程、人员和运营数字化转型就是使用先进的数字技术或解决方案来转变业务的模式、流程、人员和运营 ,优,优化资源配置效率,构建企业新型竞争优势,进而为企业创造新的价值。化资源配置效率,构建企业新型竞争优势,进而为企业创造新的价值。核心:为企业创造价值核心:为企业创造价值提质增效提质增效提升生产效率优化设备管理提高企业产能完善质量管理节本降耗节本降耗节约生产成本降低企业库存降低物流成本降低能耗水平生态体系生态体系新技术新技术新产品新产品新模式新模式新业态新业态数字数字经济时代的本质经济时代的本质生产力生产力数字数字经济时代的本质经济时代的本质生产力生产力平台平台(数据数据加工方加工方)以组织内部数据共享交换和分析使用为主的内循环以组织内部数据共享交换和分析使用为主的内循环 以运营加工和交易流通为主的外循环以运营加工和交易流通为主的外循环数据数据提供方提供方数据数据使用方使用方交易流通交易流通(二级)(二级)数据汇聚数据汇聚(一级)税收要素供给市场市场监管方监管方销售收入采采集集汇汇聚聚治治理理融融合合加加工工应应用用产品供给要素收入产品供给成本 支出要素需求消费支出产品需求 内循环内循环外循环外循环监管 数据管理能力数据管理能力 即即 数据从业者数据从业者 使用使用 数据技术数据技术 管理和应用管理和应用 数据要素数据要素 的能力的能力数据从业者数据技术数据要素数据生产力数字数字经济时代的本质经济时代的本质生产关系生产关系价值再分配场景依赖性风险不可控数据要素市场发展的阻力和问题数据要素市场发展的阻力和问题数字数字经济时代的本质经济时代的本质生产关系生产关系管理体系与制度体系管理体系与制度体系国办国办发改委发改委网信办网信办其他行业其他行业主管部门主管部门工信部工信部公安部公安部数字数字经济时代的本质经济时代的本质生产关系生产关系管理体系与制度体系管理体系与制度体系我们的赛道在哪里?我们的赛道在哪里?运营生产流通汇聚使用 淘金者?服务者?监管者?规则制定者?咨询解决方案产品监管部门主管部门数字数字经济时代的本质经济时代的本质产业生态产业生态数字数字经济时代的本质经济时代的本质产业生态产业生态政府合规监管数据合规可信检测平台数据合规符合性诊断数据合规风险识别与评估数据合规管理体系认证个人信息保护影响评估DCMM评估DSMM评估数据安全风险评估信息安全等级保护测评商用密码应用安全性评估数据合规风险审查数据合规审计APP隐私合规检测政务APP安全可规检测数据质量测试数据资产价值评估数据产品合规审查数据系统测试数据安全合规测评数据治理工具测评隐私计算产品测试知识体系标准规范技术产品应用场景市场经济守门人信用评级机构律师事务所会计师事务所评估认证机构司法合规监督产业合规发展数据全生命周期收集传输存储加工使用退役目目 录录0101对数字经济时代本质的思考0202对数据要素市场发展的认识0303对数据要素市场发展的建议数据要素与数据要素市场的特点数据要素与数据要素市场的特点数据要素市场存在的四类典型经营主体数据要素市场存在的四类典型经营主体数据要素市场面临的问题数据要素市场面临的问题供需问题流通问题合规问题数据要素市场的建设思路数据要素市场的建设思路以公共数据运营为例以公共数据运营为例数据要素市场的建设思路数据要素市场的建设思路以公共数据运营为例以公共数据运营为例数据要素市场的建设思路数据要素市场的建设思路以公共数据运营为例以公共数据运营为例数据资源持有数据资源持有数据加工使用数据加工使用打造数据产品打造数据产品数据产品经营数据产品经营数据产品价值数据产品价值交通事故报警数据交通事故现场数据交通事故裁定数据数据清洗数据脱敏标准接口数据授权第一现场通知反欺诈报告院内首勘院内追踪理赔调解费用解决伤残预评跑赢黄牛提升满意度降低诉讼率精细理赔服务实现降赔减损车辆碰撞报警数据人伤紧急救援数据伤情数据公共数据公共数据企业数据企业数据第一现场第一现场eFNOLeFNOL合规数据合规数据 最佳实践最佳实践数据产品运营数据产品运营数据产品营销数据产品营销财险公司财险公司数据化平台能力本地化服务运营数据产品推广数据产品宣传数据产品销售 数据要素的合规可信流通数据要素的合规可信流通数据要素市场的发展前景数据要素市场的发展前景产业重构创新应用新兴业态目目 录录0101对数字经济时代本质的思考0202对数据要素市场发展的认识0303对数据要素市场发展的建议措施建议措施建议数据合规可信综合服务体系数据合规可信综合服务体系数据合规可信综合服务体系数据合规可信综合服务体系数据合规可信综合服务体系数据合规可信综合服务体系政府合规监管数据合规可信检测平台数据合规符合性诊断数据合规风险识别与评估数据合规管理体系认证个人信息保护影响评估DCMM评估DSMM评估数据安全风险评估信息安全等级保护测评商用密码应用安全性评估数据合规风险审查数据合规审计APP隐私合规检测政务APP安全可规检测数据质量测试数据资产价值评估数据产品合规审查数据系统测试数据安全合规测评数据治理工具测评隐私计算产品测试知识体系标准规范技术产品应用场景市场经济守门人信用评级机构律师事务所会计师事务所评估认证机构司法合规监督产业合规发展数据全生命周期收集传输存储加工使用退役数据合规可信综合服务体系数据合规可信综合服务体系
数据交易 PDCA 模型 The PDCA Model for Data Transactions 版权声明 本报告版权属上海数据交易所有限公司所有,并受法律保护。转载、编撰或其他方式使用本报告文字或观点,应注明来源数据交易 PDCA 模型。违反上述声明者,将追究其相关法律责任。数据交易 PDCA 模型 The PDCA Model for Data Transactions 编写组(排名不分先后)刘业政、姜元春、蔡浴泓、薛德、柴栋、孙、孙春华、袁昆、钱洋、宗兰芳、周芦娟、。编写单位(排名不分先后)合肥业学 上海数据交易所 数据交易 PDCA 模型 The PDCA Model for Data Transactions 录 Contents 报告要点.?、前.?.?数据要素流通交易中建信任机制的意义.?.?国内外数据要素流通交易信任机制的研究现状.?、数据要素流通交易中的信任理论及概念.?.?信任的本质及相关理论.?.?数据要素流通交易过程中信任关系的形成机制.?三、数据要素流通交易中的可信险识别.?.?业务命周期视的主体可信险分析.?.?数据命周期视的客体可信险分析.?.?流通使环境视的环境可信险分析.?四、基于 PDCA 的数据要素可信流通交易评估指标和测度体系.?.?“PDCA”信任模型.?.?评估指标体系.?.?指标测度体系.?五、基于全国数据交易链的 PDCA 模型实现路径.?.?全国数据交易链.?.?向场景的数据要素安全交易体系设计.?.?向数据要素流通全过程的追溯体系设计.?六、基于 PDCA 模型的保障体系.?.?向制度与规范约束的 PDCA 监管策略分析.?数据交易 PDCA 模型 The PDCA Model for Data Transactions?.?向理论与技术撑的 PDCA 监管策略分析.?.?管理与技术协同的数据要素可信流通机制.?参考献.?数据交易 PDCA 模型 The PDCA Model for Data Transactions 1 报告要点 数据作为数字经济的核心生产要素和创新动力源泉,蕴含着事物的关联性及其发展规律,对提升国家安全管理能力、社会治理能力、经济发展质量等各方面具有重要的价值。然而,数据要素流通使用环境复杂,承载多方主体利益,流通使用过程环节众多,容易引发多重安全风险和隐私泄露问题,威胁个人隐私、商业秘密、国家安全以及各参与主体的合法权益,严重制约数据要素大规模流通使用。近年来,政府组织、学术界和产业界围绕数据要素在产权分配、数据治理和数据资产等方面的问题,很少有研究在中观或者微观层面关注数据流通交易、数据市场可持续发展的基础条件市场信任。由于数据要素市场的双向信息不对称性,供需双方存在信任壁垒问题一方面导致了供需双方对另一方道德风险和资质风险的感知,降低其市场参与的信心,另一方面导致参与主体间高昂的信任沟通成本,降低了市场运行效率。建立数据要素市场可信生态,构建诚实、守信和公平的营商环境不仅可以避免“劣币驱逐良币”,还可以促进数据要素市场的可持续发展。因此,构建数据要素流通使用的信任理论基础,建立数据要素流通使用全过程合规信任机制,对破解数据要素市场信任壁垒,促进数据要素高效流通使用、推动数据要素市场化配置、健全完善数据要素市场、加快数据要素价值释放具有重要意义。本报告以数据要素如何高效可信流通使用为主线,综述了数据要素可信流通使用理论与方法。首先辨析了信任的概念和相关理论,界定了数据要素可流通交易信任的概念,并通过文献调研,对数据要素流通交易中的关键主体、关键客体和流通环境进行风险识别分析。综上,本报告面向数据要素流通交易过程涉及道德关键主体和客体,提出了 PDCA可信模型,即主体可信(Participant)、数据可信(Data)、合约可信(Contract)和算法可信(Algorithm)。其依据数据要素流通交易全流程可信的要求,即事前审查阶段需要保障主体资质可信、数据质量可信和合约内容可信,在事中监控阶段要保障主体行为和算法行为可信,在事后审计阶段,要对数据流通使用过程进行追溯,更新主体和数据的信用评估。此外,本报告还给出了基于PDCA 模型的数据可信流通交易评估指标和测度体系,以及数据交易 PDCA 可信模型的实现路径和保障体系。数据交易 PDCA 模型 The PDCA Model for Data Transactions 2、前 近年来,随着我国一系列政策的出台,数据要素市场建设已经取得了重要进展,也受到了国内外学者和业界的广泛关注。这些关注主要是在产权分配、数据治理和数据资产等方面,很少有研究在中观或者微观层面关注数据流通交易、数据市场可持续发展的基础条件市场信任。1.1 数据要素流通交易中建信任机制的意义 数据要素的可信流通使用是数字经济可持续发展的客观要求。数字经济即将进入创新发展阶段,促进高质量数据要素供给、流通以及开发利用,实现数据要素流通和利用的制度创新是数字经济高质量发展的内在要求1。数据作为新型生产要素,只有经过市场可信流通,才能彰显数据要素的价值,实现数据产品化2。另外,推动数据要素在国际上的可信流通,可以进一步引领全球化数字经济的发展3。数据要素的可信流通使用是破解主体间信任壁垒,提高市场运行效率的重要举措。在数据要素市场,供需双方存在信任壁垒问题,深层次的原因在于:供需双方对数据价值的双向不确定性,在传统商品中,一般来讲产品的价值决定了产品的价格,但是数据产品的价值检验和产品使用是重叠的,供需双方都无法确定数据产品相对于对方的价值4。现有研究关注较多的另一个问题是数据使用过程中的不可证实性,数据供方无法得知自己的数据将被如何使用以及数据需方是否具有数据保护的能力,数据需方也很难向第三方证实自己是否滥用了供方数据5。这种信息不对称性和不可证实性所导致的问题是供需双方对对方道德风险和资质风险的感知,一方面降低了其市场参与的信心,另一方面参与主体间存在高昂的信任沟通成本,降低了市场运行效率。数据要素的可信流通使用是促进数字产业与传统产业融合的有效途径。数据要素作为一种新兴生产要素,只有与传统要素相结合才能更好的发挥价值6。而当前主要存在的问题是除了传统企业在进行数字化转型方面的动力不足,数据要素的供给和流通还缺乏成熟的服务生态。一方面,数据要素市场缺乏成熟的数商生态,同时传统的中小企业很少具备专业的数据治理能力和数据管理意识。因此,数据资源向数据产品转化成本较高,市场供给动力不足。另一方面,第三方数据交易机构与传统企业在发展中的协调程度不高,中小企业对数据价值认知不足,无法准确描述数据产品需求,亟需数据交易平台搭建双边市场,提供智能匹配和数据推荐服务。通过专业的数据处理服务、精准的供需匹配和细心的数据管理辅导等方式实现数据产品的可信流通使用,才能促进传统产业与数字产业的深入结合以及协同创新。数据要素的可信流通使用是合规高效释放数据要素潜在价值的核心引擎。数据要素的可信流通并不是单方面保证数据流通使用的安全,而是兼顾隐私保护、数据安全和数据流通使用效率。随着算法技术的不断发展,不断衍生出更多种类、更加智能的数据加工及处理服务,以透过数据发现知识。但是算法本身是一个“黑匣子”,很难检测算法是否安全合规、公平透明。目前学术界已经致力于解决 AI算法的治理问题,例如关于算法的安全性7、公平性8和可解释性9等算法要求受到国内外学者越来越多的关注。因此,实现数据要素的可信使用才能促进释放数据要素价值,推动产业数据流通。数据交易 PDCA 模型 The PDCA Model for Data Transactions 3 1.2 国内外数据要素流通交易信任机制的研究现状 2022 年我国数据产量达 8.1ZB,同比增长 22.7%,数据要素市场的交易规模得到明显提升,构建数据要素的可信流通交易体系已经成为数据要素市场未来发展的方向。面向数据要素流通的关键节点,构建数据要素流通使用的可信模型及评估方法,为建立数据要素可信生态体系提供理论基础,是当前数据治理研究中的重点目标。然而数据要素市场涉及多级数据产品、多元市场主体以及多种交易方式对我们认识数据要素可信流通的本质特征和内在逻辑带来了巨大的挑战。不同区域、不同机构的数据管理制度、数据交易规范和数据治理技术相互割裂,对实现全国一体化的数据要素可信流通带来挑战。因为数据要素易复制、易传播和难确权等特征,数据窃取、数据泄露等安全事件频发,为解决数据要素价值挖掘和风险防范之间存在的天然矛盾,实现数据要素的“可信流通”,成为学术界、产业界和政府组织关注的热点问题。1.2.1 政府组织 近年来,国内外数据要素流通使用领域涌现大量意见和战略(如图 1),在国内,2022 年 12 月,中共中央、国务院印发的关于构建数据基础制度更好发挥数据要素作用的意见(以下简称“数据二十条”)中,多次强调要促进数据可信流通。例如,在基本原则部分提出“建立数据可信流通体系,增强数据的可用、可信、可流通、可追溯水平”。在建立流通和交易制度部分提出“有序发展数据跨境流通和交易,建立数据来源可确认、使用范围可界定、流通过程可追溯、安全风险可防范的数据可信流通体系”,2023 年,围绕“数据二十条”各地各部门纷纷出台了数据要素流通交易的相关细则,例如北京市委政府印发了关于更好发挥数据要素作用进一步加快发展数字经济的实施意见的通知(以下简称意见),意见中提出了关于加强分类分级、数据安全和治理、数据监管模式创新等一系列措施和政策,被称为北京版“数据二十条”。2023 年 2月中共中央 国务院印发数字中国建设整体布局规划,明确了强化数字中国的关键能力,包括构筑自立自强的数字技术创新体系和筑牢可信可控的数字安全屏障两大方面。随之在 2023 年 3 月,中共中央、国务院印发了党和国家机构改革方案,提出组建国家数据局。在 2023 年 10 月,国家数据局正式揭牌,国家数据局的成立有助于规范数据要素市场交易;有助于加强数据安全和隐私保护,降低数据滥用、数据泄露的风险,从近年来有关数据要素国家政策和法律法规的颁布,可以看出“国家安全”仍是数字中国发展的主线。在国际上,2018年 5月欧盟正式推出通用数据保护条例(GDPR)用于保护欧盟公民个人数据。2018年德国成立国际数据空间协会(IDSA)1致力于建立一个开放、安全、可信赖的数据生态系统,目前IDSA 在全球范围内拥有来自 28 个国家和地区的 140 多个会员单位。2019 年德国和法国又相继联合推出基于身份识别和可信认证的数据基础设施信任平台:GAIAX项目。2019年日本首次提出“基于信任的数据自由流动体系”(DFFT),提倡在保护个人隐私的基础上,打造安全、共享、互信的数据自由流动空间,试图打造美欧日数字流通圈。英国在 2021年和新加坡启动了数字贸易协议的谈判,致力于促进数据要素自由和可信的跨境数据流动。同年日本发布了综合数据战略,以“可用、可控、可信、互联”与“共创价值”为指导方针挖掘数据价值。2022 年 4 月欧洲议会通过了数据治理法希望可以通过可信的数据中介机构打破信任壁垒,促进欧 1 国际数据空间协会官站 https:/internationaldataspaces.org/数据交易 PDCA 模型 The PDCA Model for Data Transactions 4 洲数据高效流通共享。不同于欧盟宏观数字战略的制度导向模式,美国则是选择市场导向模式,在美国的数据交易流程中,主要是通过数据经纪人(Data Broker)作为可信第三方,构建一种“信用许可”体系进行数据交易。如同电商平台,当交易双方不具备可交易的信赖关系时,数据经纪人作为可信第三方,为双边履约提供了“担保”,从而纾解了双边数据交易的信任困境问题。图 1 关于数据的政策布局 1.2.2 产业界 产业界也正在积极从技术支撑和规范管理入手,探索数据要素的可信流通交易范式,帮助数据要素市场建立可信生态。在可信环境技术研究上,北京国际大数据交易所结合隐私计算、区块链及智能合约技术、数据确权标识技术、测试沙盒等技术构建数据交易系统,为数据供需双方提供可信的数据融合计算环境。华为和中信银行为促进金融数据的可信流通提出了由数据可信流通管控中心、具有安全可信执行环境的可信数据空间连接器、安全存储资源池、以及安全的数据流通网络构成的金融数据可信流通解决方案2。在数据可信计算研究上,华控清交3推出了 PrivPy 多方安全计算平台,允许多个数据所有者在互不信任的情况下进行协同计算,输出计算结果。蚂蚁集团基于多方安全计算、联邦学习、可信执行环境、区块链等技术构建了蚂蚁链摩斯隐私计算平台4,通过计算前分级授权、计算中算法 规则双重保护,计算后日志审计,解决了数据流通使用过程中的数据安全和隐私保护问题。在数据可信学习技术研究上,腾讯基于联邦学习框架推出了“腾讯神盾沙箱”,能够让联邦学习各参与方在不披露底层数据和底层数据加密(混淆)形态的前提下,通过交换加密的机器学习中间结果,保证数据不出本地即可完成联合建模,最大化各个合作企业的数据价值。BaseBit.ai 自主研发了联邦学习框架 XFL5,XFL 不仅运用多种加密计算技术保护用户的原始数据不泄露,还使用了安全通信协议保护通信安全,实现人工智能模型的安全开发。在数据可信交付研究技术上,中国信息通信研究院则提出根据合约需求构建可信数据空间的框架,面向数据流通协议确认、履行和维护,解决多方 2 融数据可信流通技术书,中信银和华为技术有限公司.3 https:/ https:/ 5 https:/www.basebit.me/sys-nd/21.html 数据交易 PDCA 模型 The PDCA Model for Data Transactions 5 主体之间的信任问题。上海数据交易所面向数据要素流通的全过程,研究构建数据可信交付框架,以构建内生安全的数据交易可信平台。数据要素流通中的风险更多的来自参与者的机会主义行为,因此仅依靠可信流通技术还不足以保障数据要素市场的长期稳定,还需要管理规定来规范交易流程。在 2021年上海数据交易所发布了数据交易配套制度,并确立了“不合规不挂牌,无场景不交易”的基本原则。北京国际大数据交易所也相继发布了北京数据交易服务指南,并积极探索建立监管沙盒、市场风险防控、交易规则等政策体系。贵阳大数据交易所在2022 年发布了包括数据交易安全评估指南在内的数据交易规则体系,主要从交易主体登记、交易标的上架、交易场所运营、交易流程实施和监督管理保障五个方面进行了规定,以规范数据交易市场秩序。截止目前数据交易机构已有 60家,随着各地数据交易机构在科学技术上的研发和管理制度上的创新,数据要素市场正在向诚信、互信和可信的数据交易生态有序发展,如图 2 所示。图 2 数据要素市场生态 1.2.3 学术界 数据要素可信流通也在学术界引起广泛关注,在市场制度建设方面,文献10从政府层面研究了政府数据资产管理的要素框架和运行模式,提出可信数据生态,但缺乏对企业数据、个人数据可信管理的探讨。文献11基于场内交易视角,从制度层面构建数据事前可信交易体系,重点关注交易前的合规审查与合法性确认,交易过程透明等问题。黄京磊等人12提出一种新型可信的数据流转模式数据信托,通过设计数据信托运行机制和相关制度,提出数据信托的组织结构、特征、功能和监管方案等,有效隔离参与者的市场风险,从而增进数据要素市场的可信性。包晓丽和杜万里13从场内交易视角,构建数据要素可信流通制度体系,重点回答数据进场交易的功能意义、交易前的合规审查与合法性确认、交易过程的公示公信等问题。林镇阳等人14提出从“数据要素、数据业务主体和制度规范”三个维度,构建包括“数据流业务流信任流”在内的价值驱动的可信数据要素市场化生态系统,并从生态系统视角构建数据运营平台的监管体系,动态持续监管整个数据生命周期,保障数据进行长期保存、组织、维护、利用等。在业务管理制度层面,相关研究主要围绕数据流通使用的业务环节制度设计展开。例如在交易申请环节,范文仲15指出,一个合规可信的交易模式,需要实现“上市有审核、采买有资质”,建立数据源的合法性审核制度和售后管理制度等。在交易磋商环节,Rohn等人16提出,数据交易平台不仅要构建资产交易的撮合、交割和清算机制,还要能够为数据供方和数据需方数据交易 PDCA 模型 The PDCA Model for Data Transactions 6 创造价值并实现价值交付或分配。在交易实施环节,很多研究者提出通过安全计算技术实现数据的流通交易和价值释放。窦悦等人17指出不同的隐私计算平台的算法原理和系统设计不一致,使得异构平台间难以进行信息的交互,容易形成数据壁垒,如何构建异构隐私计算平台间的互联互通方案亟待进一步的研究。在交易结束环节,安全审计作为一种监督手段,有效迎合了数据要素市场合规可信的管控需求,面对数据要素流通安全风险的复杂性,需要建立一套成熟的交易安全审计策略18。在数据要素可信流通的影响因素研究方面,文献19面向主体可信进行了讨论,认为不同主体在交易中扮演的角色、市场能力、交易行为以及他们之间的相互作用是影响数据要素可信流通使用的关键因素,但缺乏对市场其他要素可信的探讨,如数据可信。文献20认为不可信数据带来的风险会在数据价值链中所有关键环节传播,强调了数据可信的重要性,但是缺乏对数据可信属性的进一步研究。综上所述,虽然学术界围绕数据要素流通使用的可信问题,在管理制度、技术体系等方面已经开展了大量研究,取得了丰富的研究成果。但现有对管理制度与支撑技术的研究是两条独立的研究路径,也多是从主体可信或数据可信单方面讨论数据要素的可信流通问题,缺乏对数据要素可信流通使用整体的刻画。数据要素流通与其他传统商品流通具有显著差异,且数据要素流通使用过程涉及参与主体多元、数据类型多样、交易合约复杂、使用算法多变等特点,有关不同类型可信因素间的相互联系,以及不可信因素对数据要素可信流通使用的作用机制需要开展深入研究,以建立数据要素流通使用的可信模型,揭示数据要素流通使用的可信机制。数据交易 PDCA 模型 The PDCA Model for Data Transactions 7、数据要素流通交易中的信任理论及概念 2.1 信任的本质及相关理论 2.1.1 信任的本质 数据要素市场一直以来存在双向信息不对称问题,即在数据交易前买方无法掌握数据质量、数据来源等信息,相比数据卖方,买方处于信息劣势地位。在数据交易中后期,数据卖方则无法得知买方的数据使用行为、是否转卖等信息,此时卖方处于信息劣势地位。数据要素市场的双向信息不对称会带来道德风险、数据泄露风险等问题,影响数据安全、人民隐私安全,甚至国家总体安全,这些问题在现实中往往表现为信任问题。信任作为行为学、心理学、管理学和经济学等多个领域共同关注的话题,学者们也从多个角度给出了信任的不同定义。心理学家从认知、情感、经历和人格特征等因素出发,认为信任是一种期待心理或预期行为的个人化反应21。经济学家则是将信任看作个体在风险与收益之间博弈的一种理性选择22。在行为学领域普遍认为信任是基于对对方表现出行为的预期,而愿意处于受对方行动影响的薄弱状态23。而在管理学领域中更多的是用参与、控制、制度及合约等内容去建构信任的涵义24。Rousseau 等人25整合了不同学科的观点,将信任定义为一种自愿将自己放在易被伤害地位的心理状态,这种状态是基于个体对他人意图和行为的一种积极期望。在数据要素流通交易情境下,即期望被信方的交易意图和交易行为不会损害信任方的利益。2.1.2 信任理论 随着信任理论的不断发展,学者们将信任根据不同的标准将信任划分成多种类型。我们对信任理论进行了简要的梳理,并识别出数据要素流通交易中的信任应当包括哪几种类型。Zucker 根据信任的来源不同,将信任分为三类:经验信任、特征信任和制度信任26。经验信任是主体根据以往交易历史,对市场其他主体有初步的了解,从而建立起来的信任关系。特征信任是指个体之间的信任建立在对对方具备特定特征或属性的信念之上,这种信任也可以是来源于群体规范,因为规范对成员行为的约束作用,从而不同的群体在市场上具有不同的可信度。制度信任则是在给定制度下,主体迫于制度惩罚带来的违约成本,不得不采取守信的决策行为。在社会学领域,Luhmann 的社会系统理论将信任分为人际信任与系统信任,人际信任则表示信任个体与被信个体之间的信任关系,而系统信任则是主体对群体、机构、市场或者是制度的信任,Luhmann 认为系统信任取代人际信任是市场不断发展的必然结果27。Sako28研究了在买卖活动过程中的信任关系,提出了合同信任、能力信任和声誉信任。合同信任来源于对另一方道德水准的依赖,相信对方会信守既定的协议,无论是这个协议是口头协议还是书面协议;能力信任是指一个人在对他人或者某个系统的信任中,主要基于对其能力和技能的评估和信赖,能力信任建立在认为对方具备足够的知识、经验、技能和资源来完成某个任务或者达成某个目标的基础上。声誉信任是指在与他人互动时,基于对其良好意图和善良行为的信任和依赖,这种信任是建立在我们认为对方有良好动机和诚实行为的基础上。数据交易 PDCA 模型 The PDCA Model for Data Transactions 8 2.2 数据要素流通交易过程中信任关系的形成机制 信任在数据要素流通交易中起着重要的作用,普遍认为,信任可以降低数据评估成本、简化交易流程,是数据要素市场得以良好运行的润滑剂,但是数据交易的盲目信任不仅会给企业带来经济损失,严重的还会危害国家安全。虽然信任在各个学科中已经得到了充分的研究,但对数据要素流通交易框架下的信任问题还缺乏系统性的探讨。本报告将通过对已有的信任理论与数据要素市场的信任困境相结合,阐述数据要素可信流通交易过程中信任关系的形成机制。Zucker26认为信任来源于:经验、特征和制度。数据要素市场的经验信任来源于过去双方的交流和交易,由经验建立起来的信任关系往往是有限的,尤其对于首次参与数据交易的主体。特征信任则是在对方客观事实基础上的一种主观认知,在数据要素市场,不同类型主体的可信任特征有所不同,例如数据需方可能基于以下几方面对数据供方的可信任特征做出评价:数据供方的资质条件、数据处理水平、沟通服务能力等,但是数据供方可能是基于另外几个方面对数据需方的可信任特征做出评价:数据保护能力、行为可靠性、合同的履行等。其中由于制度产生的信任来源于对公开透明、有公信力的社会规章制度的信赖,如资质证书、信用证明和各种法律法规的保证产生的信任。Sztompka29认为信任的重要基础是强制性的监督和惩罚机制。但我国包括数据产权制度、数据要素流通和交易制度、数据要素收益分配制度等内容在内的数据基础制度体系还有待建设。Sako28则从企业采购与销售活动中的信任关系出发,提出了三种新的信任来源:合同信任、能力信任和信誉信任。在数据要素流通使用中充满数据滥用、数据泄露和攻击等诸多风险的情况下,签订合约是预防双方机会主义行为的有力手段。因为合约可以起到约束行为的作用,可以降低主体数据交易的不确定性,提高交易的可信任水平。但是由于风险的不可预测性,交易双方无法通过合同对所有风险做出详尽的约定。进而提出了能力信任,一般会通过观察或企业履约能力测评认证证书获取对方履约能力和技能的信息,以建立能力信任关系。在数据要素流通交易的场景中,数据供方普遍会关注数据需方是否具有良好的数据保护能力以应对外部攻击风险,而数据需方可能会更加关注供方的数据采集、数据处理等能力以降低数据质量风险。声誉信任来源于对方履约动机的评估,是一种相信对方会履行约定、不会侵犯和泄露隐私的善意信任。声誉可以分为基于过去双方长期交往或交易的直接声誉和基于信用评价和信息传递的间接声誉,Bohnet 和 Huck30通过实证研究发现这两种声誉都对市场的信任水平和可信水平产生积极影响。数据要素市场作为一个双向信息不对称的市场,声誉机制的引入(如资质评估、交易评价等)可以有有效缓解市场中的道德风险问题。Lucy31从博弈的角度提出了策略信任。策略信任主要指数据供方只有在需方通过数据交易产生的价值大于违约带来的风险收益,或者交易违约成本大于数据滥用、转卖的收益时,才会选择建立信任关系,是一种通过理性博弈后形成的信任。从上述对数据要素市场中信任关系的分析,建立数据要素可信流通交易机制不仅需要明确的惩罚机制以约束不可信的行为,还需要建立信用体系提高整个市场的可信水平,使诚实、守信和公平交易成为数据要素市场参与主体的行为准则。数据交易 PDCA 模型 The PDCA Model for Data Transactions 9 三、数据要素流通交易中的可信险识别 数据要素流通使用环境复杂,参与主体类型多、交易过程环节多。如何有效识别数据要素流通使用中存在的可信风险?本报告从主体(业务生命周期)、客体(数据生命周期)和环境(流通使用技术)视角,对可信风险进行了系统识别。3.1 业务命周期视的主体可信险分析 业务生命周期指数据要素流通使用的全过程,本报告根据文献32将数据要素业务生命周期划分为交易申请、交易磋商、交易实施和交易结束四个阶段。交易申请阶段的安全风险可归纳为交易主体资质安全风险、数据准入安全风险和产品质量风险。数据要素流通使用过程涉及供方、需方、交易服务机构等多方主体,主体资质直接关系到数据来源和流通使用的合法合规性33,肖建华等人认为不同交易主体应有不同的资质审核要求,对于法人主体,交易平台需要审核其法人信息、营业执照、税务信息等;对于个人主体,交易平台需要审核其身份信息、交易目的、数据使用范围等34,确保数据交易参与主体不存在法律、法规禁止或限制的任何情形;数据是流通与使用的标的物,如果出现不合规的数据流入市场有可能严重影响个人隐私安全、商业安全和国家安全,数据准入安全风险需重点关注数据产品是否包括禁止交易数据、未授权的个人数据、商业机密数据等;参与流通使用的数据要素除需满足准入的安全要求外,还要考虑数据质量风险。若因审核不严而使伪造或错误的数据上线,可能导致基于数据的分析结果无效,给需方造成巨大损失。交易磋商阶段主要存在供需匹配风险、交易公平风险和交易透明风险。在供需匹配上,数据市场中充斥着大量的数据,面对丰富的、不同规模、不同重点的数据供给,如何找到最适合需求的数据非常困难,匹配在时间和质量上能否契合成为供需匹配的最大风险;在交易公平性上,由于大多数的数据流通使用通过既充当交易的组织者又充当裁判的数据交易平台进行,如果出现平台与买方或卖方合谋,交易的公平性将难以保证,此外,由于数据产品边际成本接近于 0,使得卖家具备了实施价格歧视的更大弹性;在交易透明性上,供方往往面临着数据如何出售、哪些数据更有价值的挑战,需方无法获得数据的透明访问,了解原始数据的真实性;供需双方在支付细节、上市、数据发现和存储等方面缺乏透明度保证。交易实施阶段的安全风险主要体现在权限分配、定价和交易清结算方面。在数据交易中,交易的不仅是数据本身,更是与之相关的各项权限,数据产品交割后所有参与者主张的排他性权限能否得到保障,关系到数据要素流通交易能否顺利进行。数据作为一类特殊产品,相较于传统商品,在成本上以及消费单位、聚合性、消费方式、再利用和转售上存在着巨大的差异,导致了在定价原则和方法上的不同考虑,版本控制成为设计和定价数据要素的常用机制,不同版本的价格可以与不同客户群体的价值相关联。这对数据要素的定价提出了一系列新要求,其中包括公平性35、无套利36、真实性37、隐私保护38以及计算效率39等要求;与此同时,数据要素定价还面临着与传统市场类似的操纵风险,即恶意打压或哄抬价格等。在交易清结算时,供需双方均可能面临交易违约风险,需方付款后所收到数据的真实性、时效性和完整性是否与供方声称的一致,供方是否会因为需方发生拒不交付、抵赖等行为导致其无法得到约定的款项。交易结束阶段违规使用、转卖、再识别等安全风险。在交易结束阶段,安全风险主要来自于需求方。当数据交付给需方后,面临着不诚实的数据需方没有按照约定而是超范围地使用数据,从而侵犯供方的合法权数据交易 PDCA 模型 The PDCA Model for Data Transactions 10 益,甚至威胁多方安全,面临着需方将其购买的数据产品进行二次流转、转卖的风险。尽管在数据交易前,已对涉及用户身份信息的数据进行清洗、加密、匿名化等操作,但是随着公开资料的不断增多和互联网信息技术的不断发展,经过匿名化处理的数据都有可能被再识别。3.2 数据命周期视的客体可信险分析 数据生命周期指数据从产生或获取到销毁的全过程。本文按照数据要素流通使用的相关操作流程,将数据生命周期划分为采集存储、交付传输、加工使用、备份销毁四个阶段。采集存储的安全风险主要有采集安全风险、侵权风险和存储安全风险。数据采集的质量标准会影响整个链路的数据质量,原始数据的真实性、完整性、可靠性直接关系着后续的数据挖掘和分析工作40;如果采集的原始数据无法反映客观真实的情况,在此基础上的模型预测结果就会出现偏差,影响数据产品的可用性41。数据采集时还需要严格遵守用户知情同意和最小必要等相关法律原则,但在实际中不少智能设备厂商和app公司为了精准营销,得到更准确的用户画像,而过度收集用户个人信息,甚至“监听”用户的智能设备,使用户在网络空间中变为透明人,严重侵犯了个人知情权、隐私权等。数据一般存储在云端或分布式文件系统中,云端直接加密会带来巨大计算开销,增加密钥管理风险,而分布式存储中一个节点或多个节点遭受攻击,可能直接影响计算结果。交付传输的安全风险主要源自网络硬件风险和外部攻击风险。数据在长距离网络传输过程中,面临着网络不稳定导致的数据包丢失风险、网络带宽不足导致的传输时效风险,特别是面临大规模数据传输时网络硬件风险将更加突出;数据在多路径中快速集群和转发,容易遭受病毒植入和攻击,大规模数据的汇集与传输会降低外部攻击成本,提高单次攻击的收益,从而引起黑客的攻击,用户与服务器间共享和生成密钥是数据传输中的重要风险点,社会工程已经成为外部攻击和窃取数据的一种重要手段。加工使用的安全风险突出表现在隐私泄露风险、安全攻击风险和数据滥用风险。从原始数据得到可流通交易的脱敏数据、模型化数据,必须借助大数据技术进行脱敏、分析、测试等加工操作39,但大数据技术在学习训练过程中面临着两类隐私泄露风险,即非授权用户直接获取数据的隐私泄露风险和攻击者通过一定方式推断数据集中敏感信息的隐私泄露风险。在数据加工使用时,还容易遭受来自多方面的攻击,如伪造数据或修改数据、攻击模型参数、恶意攻击服务器等。由于数据要素的使用用途和用量难以监控和衡量,受利益驱动,在数据使用过程中往往存在超权限使用现象,甚至滋生出非法数据交易产业链,对个人隐私、国家安全造成严重危害。备份销毁的安全风险有备份审计安全风险和销毁安全风险。数据流通交易结束后需要生成相关交易日志并进行备份,但备份过程可能存在未经授权擅自更改或删除、异机备份等情况,无法为交易过程的查询、分析、审计和争议仲裁等提供可靠依据。数据销毁安全是指在监管业务和服务所涉及的系统及设备中清除数据时,通过建立针对数据的删除、销毁、净化机制,防止数据被恢复而采取的一系列防控措施。不及时、不彻底的销毁给内部人员和黑客提供可乘之机,可能产生数据泄露、个人信息重新识别、数据二次转售等恶性影响,特别是当数据存储在云端时,云服务商可能拒绝按照用户的删除指令销毁数据,而是恶意保留数据,从而使其面临被泄露的风险。数据交易 PDCA 模型 The PDCA Model for Data Transactions 11 3.3 流通使环境视的环境可信险分析 流通使用环境是指数据要素在流通使用的整个业务生命周期中所涉及的环境。具体而言,可分为流通交易平台、软件环境、硬件环境三大部分。数据要素流通使用过程中,从交易申请到交易结束的全过程都在流通交易平台中完成,检测、脱敏、挖掘等各个具体操作都依赖于流通交易平台的大环境实现;同时,数据要素的汇集整理、建模分析等计算操作是依靠软件环境的相关算法实现的;而软件中算法的运行需要硬件基础设施提供算力资源才能完成。流通交易平台的安全风险主要表现在访问控制能力、环境应变能力、运行能力和内容交换控制能力。访问控制能力是指有益用户都应能访问系统,而有害用户都应被拒绝,体现了平台的可扩展性和安全性;环境应变能力是指平台对内外部变化应具有的灵活性和可靠性,一方面体现了平台可以在不同的环境下运行,另一方面体现了平台内部结构的相对稳定性;运行能力是指平台有效实现数据要素流通利用的性能,有用性体现了平台的事务处理能力,易用性是指实现业务功能时占用最小系统资源的能力从而保证系统的运行性能,如访问速度快、操作方便等;内容交换控制能力是指平台的连通性和隐私性,要求既能够保障正常内容的交换,又能保护隐私内容。软件环境的安全风险体现在系统软件风险和应用软件风险。数据要素流通使用过程中需要各类系统软件和应用软件的支撑,这些软件存在着各种各样的漏洞甚至隐含着恶意代码,而检测此类软件中存在的恶意代码非常困难,给数据要素流通使用带来了巨大的潜在风险。算法是数据要素流通应用中的一类特殊应用程序,随着各类深度学习模型、协同学习模型的应用,算法的计算逻辑、交互逻辑日益复杂和多样化,使得算法结果的可解释性差强人意,算法自身的安全性也难以控制,此外很多算法的设计基于某种安全假设,例如,假设多个参与方之间均遵守指定规则及协议流程且不存在同谋等,这额外地增加了一种安全假设风险,即当算法的安全假设不能被满足时,算法结果可能会难以预料6。硬件环境安全风险指数据存储、运行等所需要的关键信息基础设施安全风险,主要分为计算机物理安全和计算机网络安全。计算机物理安全风险包括计算机的异常损毁、被盗、非法使用等;计算机网络安全风险包括对计算机网络设备、计算机网络系统、数据库等的攻击行为。此外,供应和搭建硬件环境的厂商是否可信任、是否曾发生未经允许自动读取设备信息和产品质量不合格事件、设备是否存在故障、传输是否存在延迟、是否存在硬件木马等都是与硬件环境相关的安全风险。如果硬件设备易遭受攻击、频频出现故障,将严重影响数据要素相关产业的健康发展。6 云程发轫,精耕致远 中国隐私计算业研究报告C/.艾瑞咨询系列研究报告(2022 年第 3 期),2022:1026-1110.数据交易 PDCA 模型 The PDCA Model for Data Transactions 12 四、基于 PDCA 的数据要素可信流通交易评估指标和测度体系 4.1“PDCA”信任模型 本报告依据数据要素流通交易全流程可信的要求,即事前审查阶段需要保障主体资质可信、数据质量可信和合约内容可信,在事中监控阶段要保障主体行为和算法行为可信,在事后审计阶段,要对数据流通使用过程进行追溯,更新主体和数据的信用评估。本报告面向数据要素流通交易过程涉及道德关键主体和客体,提出了 PDCA可信模型,即主体可信(Participant)、数据可信(Data)、合约可信(Contract)和算法可信(Algorithm)。(如图 3 所示)图 3 数据要素可信流通使用体系(1)主体可信(1)主体可信 主体是数据要素市场运行的引擎,包含了个人、企业和政府等多元主体,各主体之间的信任关系和相互合作构成了数据要素可信流通的底层逻辑。不同主体在交易中扮演的角色、市场能力、交易行为以及他们之间的相互作用是影响数据要素可信流通使用的关键因素。不可信主体可能会造成数据要素市场的瘫痪,加大市场的数据质量风险、交易道德风险和违约风险。例如,由于数据要素具有易复制性的特点,不可信的数据供方可能会转售他人数据,侵害数据实际拥有者的合法权益;而不可信数据需方可能滥用数据,包括未经授权的数据访问、数据滥用、数据泄露等行为。因此,拥有数据的企业出于对其他主体道德风险的感知,为维护自身的利益,往往不愿意甚至不敢将数据出售给其他企业,极大阻碍了数据要素价值的释放。此外,由于数据要素在流通使用过程中数据供方无法得知自己的数据将被如何使用以及数据需方是否具有数据保护的能力,数据需方也很难向第三方证实自己是否滥用了供方数据。这种信息不对称性和不可证实性造成了主体间的信任壁垒问题。因此,保障主体可信可以降低主体间信任沟通的成本,提高数据要素流通的效率。(2)数据可信(2)数据可信 数据交易 PDCA 模型 The PDCA Model for Data Transactions 13 数据是数据要素市场发展的血液。可信的数据供给可以促进数据跨区域、跨行业配置,降低企业的数据获取和科技创新的边际成本,提升数字经济产业链供应链的质量。数据是数据驱动分析和预测的基础,低质量的数据可能会导致错误的业务判断和预测,损害企业的利益,可能造成“劣币驱逐良币”的现象。此外,不规范的数据可能存在数据泄露和安全威胁的风险,甚至危害国家总体安全。另一方面,由于数据要素具有易复制和可分割等特征,不合规数据带来的风险会在数据价值链中所有关键环节传播,例如数据产品化过程中的不合规风险会传播到数据服务、数据应用的开发过程中。此外,数据要素还具有确权难、难估值的特征,来源不真实的数据可能会损害数据拥有者的合法权益,从而损害数据要素市场可持续发展的动力。可信数据的流通可以提高数据利用效率、提升数据要素价值,扩大市场需求,实现数据要素市场发展的正向反馈。(3)合约可信(3)合约可信 合约是数据要素市场稳定的保障。虽然数据要素市场的交易机制具有多样性,但是供需双方签订合约可以就数据的使用量和使用方式、数据所有权和使用权及个性化数据服务等内容做出约定,规范数据交易流程,保障数据要素流通使用的可信可控。不可信的合约往往难以有效约束市场参与主体的交易行为,例如。因为数据要素市场存在反向信息不对称问题,在数据交易过程中是由买方占据信息优势,买方比卖方则是掌握更多关于数据用途、未来收益和风险程度等信息,此时卖家可能会减少出售数据,甚至不出售,进而导致从供给侧引起市场失灵,导致“有数无市,有市无数”的现象。由于数据具有非竞争性的特点,同一数据可以同时被其他主体使用,这意味着即使合约中规定了数据禁止转售、重复利用等条款,也无法完全让数据供方相信,因为数据需方一旦购买数据,就可以不依赖数据供方自由支配数据用途。可信的合约可以为数据交易合作的双方带来互惠和双赢,例如在合作初始阶段建立信任关系,降低双方的交易成本。根据关系契约理论,交易合约考虑的是双方在将来某个时刻进行某种行动所许下的承诺,由于无法预见数据使用过程的各种风险,再加上不能完全预测到签订合约时可以预见的全部信息,所以需要一份可信的交易合约使双方可以更好的应对数据泄露、数据滥用等各类风险。同时也增加了双方连续合作的可能,从而形成良性循环。(4)算法可信(4)算法可信 算法是数据要素价值释放的工具。任何学习算法没有绝对的安全,算法协议安全和算法性能优化是数据价值挖掘面临的两大挑战。例如,联邦学习虽然只需要较少的性能开销,但是在传递梯度信息过程中,可以根据梯度信息推测出原始数据,存在数据泄露的风险。因此,不可信的算法可能存在安全和隐私风险,对个人隐私造成威胁。其次,不可信的算法可能会带来算法公平性问题,由于训练数据或者特征选择的偏差,算法决策可能会存在歧视或偏见,例如在招聘、贷款审批等领域,因性别、种族等敏感属性特征产生不公平的结果。最后,不可信的算法即使耗费了大量的算力和数据资源,也有可能提供错误的数据处理结果,进而导致错误的决策。因此,算法可信可以更好的解决数据要素流通使用过程中隐私保护和价值挖掘之间的矛盾,让数字经济的安全和发展可以并驾齐驱。4.2 评估指标体系 结合上述分析,本报告从构成数据要素可信流通使用的关键要素,即主体可信、数据可信、合约可信和算法可信 4 个方面来构建数据要素可信流通使用的评价指标体系。如图 4 所示。数据交易 PDCA 模型 The PDCA Model for Data Transactions 14 图 4 数据要素可信流通使用评估指标体系(1)主体可信指标的选取(1)主体可信指标的选取 主体可信(Trusted Participant,TP)是衡量数据要素流通使用过程中各类参与主体(数据供给方,数据需求方和第三方数据服务商等)的身份资质、交易行为、履约能力等各项指标的可信度,参与主体具备一定的可信度是参与场内数据供给、数据使用和数据服务的前提。国家标准企业信用评价指标GB/T 237942023 在履约意愿、履约能力和履约行为三个方面规定了企业信用的评估的基本指标,履约意愿指的是企业的价值理念与品牌形象等内容,主体的身份信息与标准规定的企业履约等内容息息相关。依据国家标准,结合数据要素流通使用领域对可信主体的普适要求,可以将主体可信的指标分为三类:身份可信、行为可信和能力可信(如表 1 所示)。表 1 主体可信评价指标 一级指标 二级指标 指标描述 主体可信(TP)身份 主体资质的合法性、真实性、有效性。行为 流通使用历史行为中的合规合法水平,履约成功率、履约效率、履约质量等。能力 采集存储、交付传输、加工使用、备份销毁及数据保护等技术能力,健全的内部管理制度及作业流程。(2)数据可信指标的选取(2)数据可信指标的选取 数据可信(Trusted Data,TD)是指在数据要素市场流通使用的数据集在形式规范、内容完整、内容准确等各项指标的可信度,数据作为数据要素市场交易标的物,保障数据的真实可信是数据要素市场可持续发展的基础。从数据产品使用者角度来看,使用者更加关注数据量是否丰富、数据来源是否权威、数据准确性、数据一致性、数据时效性以及元数据信息等。从监管者的角度来看,监管者更加关注数据内容的合规性、可溯源性和明确的应用场景。数据可信的评估是一个多维度的概念,既有不因场景和消费者的差别影响评价的客观方面(如准确性、及时性),也有与使用数据的决策者的感知有关的情景方面(如相关性和可用性)。例如,对于图片数据更加关注对比度、清晰度、亮度等质量特征,对于文本数据可能更加关注准确性、完整性等质量特征。基于先前的交易实践,对数据质量的要求可以分为内容要求和形式要求,因为本报告将内容可信和形式可信作为评价数据可信的二级指标(如表 2 所示)。数据交易 PDCA 模型 The PDCA Model for Data Transactions 15 表 2 数据可信评价指标 一级指标 二级指标 指标描述 数据可信(TD)内容(1)合规性:数据来源真实程度、敏感数据去标识化程度。(2)完整性:数据的属性、数据项、时空覆盖率等数据内容的完整程度。(3)准确性:数据准确表示其所描述的真实实体的程度。形式 数据的属性覆盖率、数据项完整度、时空覆盖率等 (3)合约可信指标的选取(3)合约可信指标的选取 合约可信(Trusted Contract)是指数据要素市场参与主体之间建立的契约或合同的合法性、完整性等指标的可信度,确保合约可信可以有效约束市场主体的交易行为,减少违法违规数据交易事件的发生,促进数据要素市场健康发展。合约作为一种完全契约机制,基础要求是就双方的权力和义务做出约定。合约一个明确的、可约束的、保证实施的约定,内容包括明确合理的监督与奖惩机制,即合约要保证完整性,除此之外,合约作为具有法律约束力的两方或多方之间的书面协议,需要保证内容的合法性。现有的合同治理策略是从合同条款的明确性、适应性和履行的严格性三个维度进行评估。合约是否被严格履行与可约的可追溯性密切相关,合约的适应性也反映了合约的可执行性。基于此,本报告从合约的合法性、完整性、可执行性和可追溯性 4 个指标作为合约可信的评价指标。(如表 3 所示)表 3 合约可信评价指标 一级指标 二级指标 指标描述 合约可信(TC)合法性 合同是否具有法律约束力,是否符合相关法律法规的要求。完整性 明确界定了合约双方的责任、权利、义务,特别是数据交付、使用范围以及隐私条款和保护措施。可执行性 是否考虑了价值约束、风险约束和成本约束。可追溯性 可以跟踪合约履行过程并能进行有效核验。(4)算法可信指标的选取(4)算法可信指标的选取 算法可信(Trusted Algorithm)从算法价值的角度,算法的应用应该促进数据流通和使用,带来技术上的变革和管理效率上的提升。同时从算法伦理的角度,算法应该在社会伦理的约束下被开发以及被使用。在学术界和商界已经有了很多关于可信 AI、可信模型的讨论,有学者提出了公平性、隐私性、可解释性、可问责性和可接受性 5 项可信 AI 的要求,也有学者从算法的可解释性、公平性和透明性等指标讨论了用户对互联网平台算法的信任。本报告从法律方面的合规信任、技术使用方面的功能信任和社会价值方面的伦理信任定义了算法可信。合规信任包括安全可靠、过程可控、责任明确等影响因素;功能信任包括功能适用、性能效率、准确稳健等影响因素;伦理信任包括公平性、可解释性和鲁棒性等影响因素。基于此,本报告选取了代表算法合规信任的安全性、算法功能信任的高效性和伦理信任的公平性作为算法可信的评价指标,如表 4所示。数据交易 PDCA 模型 The PDCA Model for Data Transactions 16 表 4 算法可信评价指标 一级指标 二级指标 指标描述 算法可信(TA)高效 算法执行过程中的资源占用、计算效率、计算结果的准确性等。安全 算法输入鲁棒性及抗攻击鲁棒性。公平 算法决策的无偏向性、无套利性、可解释性。4.3 指标测度体系 客观全面的评价是建立数据要素可信流通体系的关键,为构建数据要素可信流通体系,应设计相应的可信度量方法。本文从国家政策制度、国家标准和国内外文献获取到数据要素可信流通使用的关键指标测度方法,如表 5 所示。表 5 数据要素可信流通使用的关键指标测度方法 一级指标 二级指标 审查对象 测度方法 主体可信 身份(TP1)注册登记、营业执照、资质证书、有无违法记录等 人工查验 行为(TP2)履约效率、数据服务质量、数据交易客户评价等 主题分析 能力(TP3)专利、技术报告、年度报告等涉及到的数据保护技术、数据处理技术等 主题分析 数据可信 内容(TD1)数据来源、敏感数据、数据实体、数据域、数据引用和数据定义等 基于学习的数据评估 形式(TD2)数据项命名、数据格式、数据类型、数据长度和数据结构等 基于规则的数据评估 合约可信 合法性(TC1)合约条款是否符合数据出境安全、人民信息保护安全等 法律知识图谱 完整性(TC2)数据内容、数据用途、交付质量、交付方式和参与方安全责任、保密条款 合同信息抽取技术 可执行性(TC3)经济价值范围、风险的分担和责任的规定、成本的限制等 合同信息抽取技术 可追溯性(TC4)关键追溯点(CTPs)关键追溯点的数量 算法可信 高效(TA1)准确性、精确度、召回率、F1 评分、时间复杂度和空间复杂度等 算 法 执 行 时间、CPU GPU占用率、准确度等 安全(TA2)异常输入、数据偏差、噪声容忍度、对抗攻击等 鲁棒性测试方法 公平(TA3)算法预测或分类的结果在不同群体中的差异 差异影响、人口均等、机会均等、个体公平等 数据交易 PDCA 模型 The PDCA Model for Data Transactions 17(1)主体可信指标测度(1)主体可信指标测度 对于主体的身份可信,可以根据国家标准信息安全技术-数据交易服务安全要求对数据供需方和平台的要求,对主体的资质进行一一查验,例如一年内无重大数据类违法违规记录的合法组织机构,以及具备相应的数据安全保障能力等内容,但是标准中并未指出主体数据保护能力的测度方法。对于行为可信和能力可信可以采用基于动态主题模型方法,将主体的所有历史交易评价数据看作一个文档,通过动态主题模型训练得出服务态度、履约效率和数据质量等文档主题的分布,根据主题出现的概率测度主体的行为可信。同理,可对主体的专利、技术报告、年度报告等文档进行主题分析得到主体的管理能力、数据保护能力等相关主题的概率分布,使用不同能力主题的概率分布测度主体能力可信水平。(2)数据可信指标测度(2)数据可信指标测度 数据内容可信测度,依据数据内容与数据交易标准规范的契合度评估数据的合规性,可以考虑采用区块链溯源技术度量数据来源的真实程度,还可以使用敏感数据识别技术检测敏感数据去标识化的程度。在数据完整性上,从数据的属性覆盖率、一致性、可获取性等维度测度数据内容的完整性。国家标准数据质量 第8 部分:信息和数据质量:概念和测量从数据的实体、引用、域和用户定义的完整性四个维度度量。在数据形式的可信指标测度方面,可以从数据项命名、数据格式、数据类型、数据长度和数据结构是否符合既定规范来度量数据的语用质量。(3)合约可信指标测度(3)合约可信指标测度 在合约合法性测度方面,应依据数据安全法、网络安全法和个人信息保护法等法律法规,审查合约内容是否符合数据出境安全、人民信息保护安全等要求。在合约完整性测度方面,需要根据国家标准信息安全技术-数据交易服务安全要求审查主体之间签订的三方合同是否涵盖了数据内容、数据用途、交付质量、交付方式和参与方安全责任、保密条款等内容。使用人工一一审查合约条款的合法性,不仅效率低下,还增大了合约评估的成本,可以考虑采用法律知识图谱审查合同的相关条约,对合约条款给予合法性测度。因此,在智能合约撮合过程中,推荐算法成本约束、价值约束和风险约束的权重占比可以用来测度合约的可执行性。合同的可追溯性指的是能够准确地追溯和回溯合同的履行过程和相关事项,可根据合约中规定的关键追溯点(CTPs)的数量来测度合约的可追溯性。(4)算法可信指标测度(4)算法可信指标测度 算法的高效性即包括算法的性能评估,还包括资源的占用情况。常见的性能测度包括准确性(Accuracy)、精确度(Precision)、召回率(Recall)和 F1 评分,在资源占用方面常见的测度包括算法的时间复杂度和空间复杂度。在算法安全性方面,Katzir 等人42提出了一种模型鲁棒性评分测度方法,该方法是通过量化应用于网络安全的各种机器学习分类器的弹性来评估算法的鲁棒性。还可以通过设计测试用例的方法测度算法的输入鲁棒性,如异常输入测试、噪声容忍度测试、数据偏差测试等。文献43介绍了在预测任务中算法公平性的测度:差异影响(disparate impact),该测度表示阳性预测的比例在不同群体中应该是相似的,如果一个阳性的预测结果表示贷款批准,那么被批准的贷款人的比例在不同的群体中应该是相似的。差异影响测度的计算方式见式(1)。数据交易 PDCA 模型 The PDCA Model for Data Transactions 18!#$=1(1*!#$=1 (=1*1 -(1)其中,(=1表示受保护属性的特权组,(1表示非特权组,#$=1表示预测结果是积极的,差异影响的值越大表示算法越公平。与差异影响相似的公平性测度还有分类任务中的人口均等(demographic parity),但是判断的标准是两类群体预测概率的差值,而不是比率。除此之外,算法公平性的常见测度还包括监督学习任务中的机会均等(Equal opportunity)、个体公平(Individual fairness)等。值得注意的是,在算法设计过程中,算法公平性安全性的提升会带来算法高效性的下降,无法实现多目标同时优化。因此,可信算法需要在多个评估指标中取得平衡。数据交易 PDCA 模型 The PDCA Model for Data Transactions 19 五、基于全国数据交易链的 PDCA 模型实现路径 5.1 全国数据交易链 全国数据交易链是指基于区块链技术的一种数据交易平台。它通过将数据商品化,实现数据的交易和流通,从而推动数据资源的优化配置和价值挖掘。全国数据交易链的核心理念是利用区块链技术的去中心化、安全、可追溯等特点,构建一个公平、透明、可信的数据交易环境。具体而言,各地业务系统将各种业务数据传递、存储到地方数据中心,通过数据交易链,数据流转于区域数据交易所、行业数据交易所、数据资产交易中心以及上海市数据交易所等区域节点和行业节点,数据提供商在数交所平台登记确权,对数据进行链上授权,数据需求方在数交所平台通过链上查询进行数据交易。打造“平等互信、可信交易、自主可控、安全高效、监管追溯、绿色交易”的数据产品智能交易服务市场新模式。全国数据交易链的主要应用场景包括数据确权、数据交易、数据安全等方面。通过区块链技术的应用,全国数据交易链能够解决数据交易中的信任问题,降低数据交易的成本,提高数据交易效率,保护数据所有者的权益,推动数据资源的流通和共享。总体而言,全国数据交易链是我国在区块链技术应用方面的一次重要尝试,规划以数据交易所为枢纽的标准化全国数据产品智能交易服务新市场,有助于推动我国数据资源的发展,提升我国在全球数据交易市场的影响力。图 7 全国数据交易链 5.2 向场景的数据要素安全交易体系设计 2022 年 12 月 19 日,中共中央、国务院发布关于构建数据基础制度更好发挥数据要素作用的意见(“数据二十条”),要求建立数据可信流通体系,增强数据的可用、可信、可流通、可追溯水平,实现数据流通全过程动态管理,在合规流通使用中激活数据价值。为了响应国家对于数据要素价值释放的要求,数据要素信任交易体系由智能撮合中心和安全学习与计算算法资源池两部分组成。其中,数据要素智能撮合中心在数据要素市场信息异质不对称性限制下实现供需双数据交易 PDCA 模型 The PDCA Model for Data Transactions 20 方最优匹配,提升买卖双方合约订立的可信性。安全学习与计算中心为数据要素的合约履行提供攻击鲁棒性、防窃取能力和结果公平性的多方安全学习与计算方法支撑。(1)撮合数据要素的提供方和潜在需求方是实现数据市场价值的重要途径。(1)撮合数据要素的提供方和潜在需求方是实现数据市场价值的重要途径。图 8 数据交易平台智能撮合中心框架 不同于传统商品要素,数据要素具有情景性、多态性、动态性以及内部结构复杂等特点,这些特点的交织导致数据价值评估难。随着数据交易体系的不断完善,互联网以及大数据技术的不断发展,以数据价值评估、数据风险评估、数据供需匹配以及数据选择与推荐方法等为代表的一系列相关理论与方法已经在数据智能撮合中得到了应用,极大提高了数据流通效率,促进了数据共享与数据价值发挥。基于此,智能撮合中心由数据价值评估中心、数据风险评估中心、数据供需匹配器和数据选择与推荐系统构成,提高数据要素流通撮合效率,促进数据共享与数据价值发挥。数据价值评估中心提供场景驱动的多数据聚合的价值适应性评估功能,是数据匹配和推荐的基础。在不同场景下数据价值具有相对性,各项数据之间的交互和耦合关系将影响数据聚合价值。考虑离散数据、文本数据、图结构数据和图像数据等复杂异构数据之间的相关性和冲突性,识别不同数据集特征之间的交互和耦合关系。基于特征之间交互和耦合关系,实现多视角学习的多数据集可解释性表征。通过识别数据之间的共识信息和互补信息,提供面向场景的数据聚合价值适用性评估功能。针对交易场景中平台提供样本数据少等问题,提供针对性的小样本场景下多数据特征组合价值映射评估功能。总体实现基于多数据集聚合的数据价值形成、数据价值实现、数据价值评估等数据价值化路径。数据风险评估中心提供多数据集聚合时风险涌现及风险传导现象评估功能,能够有效预警隐私泄露等问题,切实保障数据聚合的准确性、高效性和稳定性。针对多数据集聚合时各属性之间的互补式协同交互,识别产生隐私泄露风险、商业秘密风险及国家安全风险等的致因属性微观交互机制与宏观风险涌现间的关联关系,提供多数据特征组合数据风险诱因识别方法。针对同领域交易和跨领域交易情境下多数据集聚合时多类型风险耦合性和外溢性,提供基于解耦学习的多数据集聚合的风险传导评估。考虑数据风险的动态特征,从短时性风险和持续性风险视角,识别多数据集聚合产生的多元数据的风险演化规律,评估和管控“数据化合反应”产生的潜在风险。数据交易 PDCA 模型 The PDCA Model for Data Transactions 21 数据供需匹配器实现考虑供需双方效用的数据要素供需智能匹配,促进供需双方交易撮合。数据交易平台中存在海量的数据集以及各种类型的需求者,而平台的目标是为需方匹配满足其需求的数据集。利用供方数据集的元数据、标题、描述、在线评论等以及需方需求描述等文本信息,从语义层、表示层以及情景应用层三个维度提取数据集和需方的表征,达成预算和风险控制边界约束下的数据要素供需匹配。其中,考虑供需双方信息时变性的特点,动态评估需方数据需求与供方服务能力,提供最大化价值、最小化成本、最小化聚合风险多元目标组合约束情景下数据要素智能匹配优化功能。数据选择与推荐系统针对买方数据需求不确定或模糊的情形,提供多元目标约束下的数据精准推荐功能,是提高买卖双方交易意愿的重要数据交易服务。考虑数据产品各维度属性的价格、需求方预算约束、供给方风险约束、以及需求方的偏好,提供基于需方偏好和数据组合的数据精准推荐框架。具体包括,面向需方偏好预测,基于需方和数据交易平台之间查询、点击和购买等多类型交互行为数据以及数据产品的元数据、标题、描述等信息,提炼需方多维度偏好的知识图谱表示,分析需方感兴趣的数据类型、属性以及规模等。面向属性组合推荐,结合数据要素各属性的价值、风险、价格特征,基于群组变量选择方法,提供不同成本和风险边界范围内的数据属性组合与表示功能,联合需方偏好表征与数据属性表征的属性组合推荐功能。面向样本组合推荐,考虑数据样本的多样性、代表性、价值性、风险性,利用高阶关联和迭代寻优等策略,提供不同成本和风险边界范围内的数据子集选择和表示功能,联合需方偏好表征与数据子集表征的样本组合推荐功能。(2)数据要素使用过程中的安全学习与计算是激活数据价值的关键手段。(2)数据要素使用过程中的安全学习与计算是激活数据价值的关键手段。图 9 安全学习与计算算法资源池 数据要素流通涉及的场景复杂,常面临有效数据样本不足以及参与主体非法攻击、窃取与合谋等情景,引发准确性、安全性、隐私性和公平性等方面的严重缺陷,从而为数据要素的可信流通带来极大挑战。按照“无场景不交易”和“数据可用不可见”的现实要求,以联邦学习、多方安全计算为代表的隐私计算技术是一类数据交易 PDCA 模型 The PDCA Model for Data Transactions 22 能够保障数据要素隐私和安全,实现数据要素流通使用的典型技术。因此,具有攻击鲁棒性、防窃取能力、公平性的安全学习与计算算法资源池是保护数据安全学习与计算的技术基石。具有攻击鲁棒性的多方安全学习与计算方法保障了算法的安全性。数据要素流通的过程中涉及多方主体参与,参与学习的恶意主体可能通过对学习模型或是计算过程发起对抗性的攻击,导致学习模型的性能下降。在应对不法参与主体的攻击时,大多数多方安全学习与计算方法针对某一种特定攻击方法进行防御,而在真实数据交易场景中,非法参与主体的攻击行为通常是未知的且不同参与主体的行为、数据及模型可能均有差异,这可能导致防御方法无法同时保障参与主体应对各种可能攻击的鲁棒性。针对投毒攻击、后门攻击、拜占庭攻击等不同攻击形式及攻击强度对模型完整性的影响,提供基于参数偏差效应的样本级多方安全学习与计算方法的鲁棒认证半径,划分多方安全学习与计算方法的安全边界。利用客户端参与多方学习和计算的历史行为数据,基于生成式对抗网络分析历史梯度特征,基于融合同态哈希函数映射与梯度相似度识别恶意客户端。基于鲁棒认证半径与客户端恶意水平,提供不同客户端模型梯度在服务端的聚合策略,包括权重更新策略、梯度压缩策略和噪声引入策略,同时基于非法攻击在模型参数中的累积效应,确定模型梯度的最优迭代策略和最佳聚合时机。具有防窃取能力的多方安全学习与计算方法提升了算法的隐私保护能力。在数据要素流通的过程中,在交易实施环节,好奇的参与主体可能发动隐私窃取攻击,通过逆向工程等手段获取数据要素的信息或是模型的参数等敏感信息,导致数据交易参与主体的利益损失。利用多方安全学习与计算主要通过多轮交互收集的模型参数数据的特点,推理出拟窃取的机密信息的攻击策略,基于训练样本的统计特征、分布规律、样本规模等与模型参数之间的关系,归结模型参数规模及交互次数对样本统计特征、分布规律的推理能力的影响。以此为突破口,从模型参数和训练样本两个视角提供有效的防窃取策略。一是面向模型参数的防窃取策略,选择模型参数的压缩策略以减少交互参数的规模,采用最优训练策略以降低参数交互的次数,优化模型参数的分配策略以控制客户端对全部参数的访问,利用基于差分隐私技术的参数扰动方法以减少真实参数信息的泄露。二是面向训练样本的防窃取策略,寻找数据样本和数据属性的最优分割策略,以降低恶意方分析数据分布、数据统计特征的能力,基于不同样本和属性分割策略,提供本地迭代与多方迭代的优化功能,减少客户端之间的交互次数。输出结果公平的多方安全学习与计算方法实现了数据要素交易公平性。在数据要素可信流通过程中,由于大多数的数据流通使用通过既充当交易的组织者又充当裁判的数据交易平台进行,如果出现平台与买方或卖方合谋,交易的公平性将难以保证。针对算法歧视与合谋套利等危害交易公平性的行为,现有方法主要考虑到数据要素本身作为一种特殊的商品具有易复制性和易追踪性等特点,通过因果关系、人机协同、贡献度量等方法实现决策无歧视和算法无套利,然而忽视了数据持有方的数据成本和模型可解释的问题,从而制约了数据要素流通场景下交易公平性的保障效果。针对算法的黑箱性以及算法决策结果可能存在的不公平性,提供有效的决策结果无歧视策略、数据交易无套利策略和决策结果透明化策略,增强了买卖双方互信程度。根据模型结构与训练数据对决策结果有偏性的影响机制,提供人机协同的模型参数分发、预测结果重标定策略,实现最小决策偏差的迭代优化。针对数据要素交易中的算法恶意合谋套利问题,最小化多方安全学习与计算方法的合谋机制、潜在套利类型及风险,提供有效控制合谋的算法参数约束策略,并进行典型套利威胁数据交易 PDCA 模型 The PDCA Model for Data Transactions 23 下的算法选择与优化。针对多方安全学习与计算方法的透明性问题,结合注意力机制、生成式对抗网络、反事实推断学习等技术,实现可解释性及事后可解释性的多方安全学习与计算方法。5.3 向数据要素流通全过程的追溯体系设计 图 10 数据要素流通全过程追溯体系 2021 年 3 月发布的“十四五”规划和 2035 年远景目标纲要中明确提出,要培育规范的数据交易平台和市场主体,发展数据资产评估、登记结算、交易撮合、争议仲裁等市场运营体系。然而,随着数据要素市场化发展提速,数据要素呈现形态多源异构、流转链条增长、参与主体多样等特点,叠加自身的可复制性、非排他性等属性,带来了数据来源难确认、数据流向难追踪、使用范围难控制、流通互信难保障等可信流通问题。对数据要素可信流通全过程进行有效审查、监督、跟踪、追溯,成为保障各参与主体合法权益、激发数据要素市场活力的关键。面向数据要素可信流通全过程的追溯体系包括事前审查中心、事中检测器和事后审计追溯网。事前审查中心提供入场交易的主体身份认证、数据可溯管理、算法安全评估三大功能,确保进入市场的主体、数据、算法安全合规。面向主体审查,针对参与主体身份多元和资质参差等特点,利用“数字 生物”主体身份认证技术和社会信用体系,提供“机器审查 人工复核”的双重协同主体安全审查,保障入场主体可信。面向数据审查,能够基于去标识化与敏感属性识别技术管控敏感数据,基于数据标识技术实现多源异构数据产品互认连通,提供数据产品质量动态管理能力,确保数据产品的合规性、完整性、可追溯。面向算法审查,根据算法本体、设计过程和决策结果等维度,评估面向全生命周期过程的算法影响,提供基于逻辑分析与仿真测试多路协同的算法审计功能,确保算法产品的合规性、高效性和负责任。事中检测器能够有效监控合约签订与履行中的失信行为,确保数据要素流通使用过程安全可信。对于数据买方,存在非法滥用和越权访问数据等风险。针对数据非法复制、窃取、备份等数据滥用行为,提供面向计算资源用量异常检测的自动感知功能,实时监控数据再次流转。针对买方二次转卖、共享数据等数据越权访问行为,根据数据访问权限范围,实现身份认证和智能访问控制相耦合的交易主体访问权限管理。对于数据卖方,存在异常供给数据的风险。针对卖方在履行合约时可能提供低质量数据、污染数据,甚至恶意窃取其他参与方数据等行为,提供数据质量和算法训练过程智能化监控功能,具体包括首先利用数据标识技术等数据交易 PDCA 模型 The PDCA Model for Data Transactions 24 数据溯源方法验证数据真实性,随后根据“各方日志审计-每轮攻击检测-交付性能验证”路径实现全方位算法训练安全性实时检测。交易合约作为约束买卖双方的重要凭证,合约履行监控是保障交易合规安全的关键,提供基于计算日志与资源用量协同的计算用量异常检测,利用计算合约自动审核执行,实时感知计算全流程数据流通态势。事后审计追溯网能够定位异常节点,为数据要素流通使用全过程提供溯源凭证,确保交易完成后的不可抵赖性。以全国数据交易链为核心,提供面向事前审查和事中检测的数字存证策略,实现基于数字存证技术的数据要素可信流通事后审计与追溯。对于过程审计,面向数据流通事前审查、事中检测等全过程日志信息,提供基于区块链的数字存证策略,利用存证信息审计主体、数据、合约和算法安全合规。对于数据追溯,面向流通数据本体,实现基于数据标识和关联技术的数据溯源追踪,应用数据水印、数据血缘追踪等技术对数据二次流通、转卖等侵权行为进行查验取证。对于主体追溯,面向交易主体信用行为,结合社会信用体系与区块链技术,实现市场主体交易行为信用评价的链上存证,提供数据信用综合评估服务,确保交易主体信用等级信息可追溯。数据交易 PDCA 模型 The PDCA Model for Data Transactions 25 六、基于 PDCA 模型的保障体系 数字经济逐渐进入高质量发展时期,数据要素市场对数据安全愈加重视。数据要素在入场前的合规审查、流通使用过程中的用途用量控制、流通使用后的争议解决等问题,对数据要素的安全治理和安全保护提出更高要求。因此,本文从“事前审查事中监控事后审计”的视角,对国内外现有数据要素可信流通监督监管策略的制度与政策和理论与技术进行总结梳理。目前国内外相关工作主要集中在制度与规范建设和理论与技术保障两个方面:一方面通过政策、制度、标准制定明确数据流通使用安全风险管理要求,另一方面通过理论与技术手段解决数据流通使用安全风险管控问题。6.1 向制度与规范约束的 PDCA 监管策略分析 近年来,我国数据要素市场发展态势十分迅猛,市场规模迅速扩大。中国数据要素市场发展报告(2021-2022)7表明,2021 年我国数据要素市场规模达 815 亿元,预计“十四五”期间市场规模复合增速将超过 25%。为防范数据要素市场安全风险事件,国家出台一系列政策文件和规章制度统筹数据要素安全风险管理。2021年 3月发布的国民经济和社会发展第十四个五年规划和 2035年远景目标纲要8中明确提出,要培育规范的数据交易平台和市场主体,发展数据资产评估、登记结算、交易撮合、争议仲裁等市场运营体系;2021 年11 月,工业和信息化部发布的“十四五”大数据产业发展规划9中不仅再次提到了有关数据要素市场建设的内容,还围绕加快培育数据要素市场、发挥大数据特性优势、夯实产业发展基础、构建稳定高效产业链、打造繁荣有序产业生态、筑牢数据安全保障防线六个方面提出了重点任务;2022 年 12 月 2日,中国中央 国务院印发关于构建数据基础制度 更好发挥数据要素作用的意见,强调完善数据全流程合规与监管规则体系,从全流程治理与创新监管机制等方面入手,提出底线可守的数据要素安全治理制度。6.1.1 事前审查 事前审查是数据要素流通使用安全风险管控的前提,主要是指市场或市场管理者在交易前对数据交易市场的参与者和数据产品依照相关的法律法规进行审查,实现数据“上市有审核,采买有资质”。在国家层面,数据安全法中明确规定了数据交易服务机构应审核交易双方的身份、交易数据内容、数据安全风险,并留存审核、交易记录。在地方层面,天津市出台了天津市数据交易管理暂行办法,其中第二章和第三章分别对数据交易主体和交易数据做出一系列明确要求。在行业内部,通过制定措施保证数据来源合规可信、数据质量安全可控,例如,贵阳大数据交易所发布的数据交易规则体系10,就包含了数据交易合规性审查指南、数据交易安全评估指南、数据商准入及运行管理指南等,以保障数据要素流通使用过程中交易主体、交易对象可信可控。但在数据分级分类管理、数据确权授权等方面的法律制度有待进一步完善。例 7 国家业信息安全发展研究中,北京学光华管理学院,苏州业园区管理委员会,上海数据交易所,中国数据要素市场发展报告(2021-2022),2022 年 11 25 发布 8 中华共和国国经济和社会发展第四个五年规划和 2035 年远景标纲要,2021.3.11,http:/ 2023.2.7 9 国家业和信息化部(信部规2021179 号),“四五”数据产业发展规划,2021.11.15 10 贵州全国发数据交易规则体系,2022 年 5 27,http:/ 2023.2.18 数据交易 PDCA 模型 The PDCA Model for Data Transactions 26 如,数据安全法虽然明确提出国家将对数据实行分级分类保护,但仅作出了一般性规定,缺乏详细的分级分类体系和相关的实施细则,不同区域、不同部门不统一的程序标准容易导致数据准入与监管产生冲突;在立法层面数据安全法和个人信息保护法虽然解决了数据的国家主权和人格权的问题,但是数据的财产权问题尚未在法律层面有明确定义,其中数据要素的可复制性、不确定性等独特特征是数据产权制度体系建立的难点,使对参与交易的数据源的审查带来了操作上的困难。6.1.2 事中监控 事中监控是数据要素流通使用安全风险管控的基础,目的是对数据使用的用途、用量加以控制,约束交易主体行为,监督交易订单合规履行。在中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见中,提出要建立合规高效的数据要素流通和交易制度,完善数据全流程合规和监管规则体系,建设规范的数据交易市场。各地方政府已陆续出台相关政策,促进数据要素安全可信流通。北京发布北京市数字经济促进条例11,要求完善数据分级分类、安全风险评估和安全保障措施,建立数据治理和合规运营制度,结合应用场景对匿名化、去标识化技术进行安全评估,开展数据安全方面的标准认证。上海市出台上海市数据条例12,支持数据交易服务机构有序发展,要求数据交易服务机构应当建立规范透明、安全可控、可追溯的数据交易服务环境,制定交易服务流程、内部管理制度,并采取有效措施保护数据安全。贵阳大数据交易所发布的数据交易合规性审查指南也包含了对交易合同内容、交付方式进行合规审查,同时还提供了数据产品成本评估指引 1.0、数据产品交易价格评估指引 1.0、数据资产价值评估指引 1.0,为数据交易提供价值评估和价格依据。但在定价机制、数据交易立法上还存在明显的欠缺。目前不同的数据交易平台的价格机制不透明,例如,某平台“省级业务平台数据服务”标价 351.56 万元/次,而“算力资源服务(云计算服务)”标价 0.01元/次。因此,需要完善、统一数据流通定价规则,规范数据消费单位和消费方式,防止定价过于随意。在立法方面,有关数据要素流通使用的法律散落在民法典 个人信息保护法数据安全法 网络安全法 反垄断法 反不正当竞争法,还没有一部关于数据要素流通交易的法律,相比之下,美国 2014 年就通过了数据经纪商问责制和透明度法案,2019 年通过了2019 年数据经纪商法案,要求数据经纪商明确数据来源和类型,使用、保存和分发数据的方式,允许消费者访问和修改数据的范围,消费者退出数据销售或共享的方式等。6.1.3 事后审计 事后审计是数据要素流通使用安全风险管控的关键,目的是解决交易后的争议问题。中共中央 国务院印发关于构建数据基础制度 更好发挥数据要素作用的意见中就数据要素市场的信用体系,提出需要配套建设交易仲裁机制,对数据交易主体的信用进行管理和评价,在数据要素市场形成诚信、互信、可信的交易生 11 北京市数字经济促进条例,2022 年 11 25 北京市第五届代表会常务委员会第四五次会议通过,http:/ 2023.2.7 12 上海市数据条例,2021 年 11 25 上海市第五届代表会常务委员会第三七次会议通过,https:/ 2023.2.7 数据交易 PDCA 模型 The PDCA Model for Data Transactions 27 态。在企业内部,北京国际大数据交易所发布北京数据交易服务指南13,推行数据交易保护义务衍生的原则,就交易中规定的使用范围和禁止用途进行保障,并设立数据要素产权知识保护体系,建立买卖双方争议解决机制。贵阳大数据交易所发布的数据交易合规性审查指南也包括交易后对场景应用、新增衍生数据产品进行合规审查。但在数据泄露通知制度、数据监管权限方面还需持续完善。虽然网络安全法制定了数据泄露通知制度的相关要求,但是需要向用户告知的特定情形、告知用户的时限和方式、数据泄露的补救和惩戒措施、制度适用的主体范围等制度要素没有做出明确规定,缺乏一定的可操作性。在我国,数据监管由网信部统筹,行业各部门分别监管,但实践中各数据监管部门、纠纷仲裁机构权责划分不明确、责任互相推诿的问题屡见不鲜,应完善数据监管、纠纷仲裁相关制度,明确相关权力与职责,形成行业自律与政府监管双重安全保障。6.2 向理论与技术撑的 PDCA 监管策略分析 6.2.1 事前审查 在参与者资格审核方面,通常使用身份认证与控制技术保障交易主体的资质安全,确保数据供方和需方提供的身份信息真实可靠。传统的身份认证主要有基于标记识别的身份认证、基于生物特征的身份认证和基于密钥的身份认证等方式,但存在着密码泄露、伪造生物特征等风险。近年来,区块链技术开始应用于身份认证领域,区块链具有去中心化、不可篡改的优势,可为主体资质安全提供技术支撑。例如,在物联网数据市场,利用区块链、分散标识符(Decentralized Identifier,DID)进行主体验证,其中每个主体持有一个独特的 DID,通过在客户端验证 DID,确保平台上的交易主体身份得到认定;在权限访问控制上,TID-MOP 安全体系框架44在技术保障方面实施数据交易申请的安全管控,通过集中监控运维和访问权限管理重点关注交易主体合规资质的评估。在审核数据要素的合法性、合规性、真实性方面,去标识化技术、敏感数据探测技术、完整性技术为数据产品的安全准入提供了技术保障。去标识化技术通过对原始数据进行去标识化处理,降低数据集中的信息与信息主体的关联程度,主要包括数据统计技术、抑制技术、匿名化技术、假名化技术、泛化技术、随机化技术等,不同的去标识化技术具有不同的特点,数据供方可以根据不同交易数据的特点、保密级别,选择合适的数据去标识化技术,从而确保数据产品可以进入数据要素市场。针对数据产品中包含敏感信息的问题,采用面向结构化数据集的敏感属性自动化识别与分级算法,利用信息熵定义属性敏感度,通过对任意结构化数据集的敏感属性进行识别和敏感度量化,可以实现敏感属性的分级分类。针对数据质量问题,数据完整性技术一方面可以保障参与交易的数据质量,另一方面可以保障数据不被恶意篡改,其中密码学技术和数据副本策略是两种传统的数据完整性技术。密码学技术利用消息认证码和哈希树等生成数据签名信息,防止数据被伪造;数据副本策略则是通过损失存储空间来保障数据完整性。实践中,一般综合利用两种方法确保数据质量安全。13 北京国际数据交易联盟,北京数据交易服务指南,2021.3.31 数据交易 PDCA 模型 The PDCA Model for Data Transactions 28 6.2.2 事中监控 区块链技术和隐私计算技术体系是保障数据流通使用过程中计算环境安全、算法安全和数据隐私的有力手段,也是监控交易撮合可信的可行技术。例如,在监控交易撮合可信方面,Tan等人45提出了一种考虑信用管理的基于区块链的分布式交易机制,只有当用户的信用评分不低于阈值时,才能允许用户参与分布式交易;Gupta 等人46提出了一个新的区块链框架 TrailChain,该框架使用水印生成可信交易跟踪,通过建立检测市场内和市场间任何未经授权的数据转售的机制,实现对跨越多个分散市场的数据所有权的溯源跟踪。在保障计算环境安全方面,可信执行环境(Trusted execution environment,TEE)可将敏感计算与其他进程(包括操作系统、BIOS 和 hypervisor)隔离开来,通过芯片等硬件技术并与上层软件协同对数据进行保护,且同时保留与系统运行环境之间的算力共享,主要代表性产品有 Intel 的 SGX、ARM 的 TrustZone 等;基于可信执行环境和区块链技术,Dai 等人47构建了一种新的数据交易生态系统,其中数据代理和需方都无法访问供方的原始数据,而只能访问所需的分析结果,安全执行环境起着保护数据处理、源数据和分析结果的作用。在算法安全及隐私保护方面,已经取得了丰富的研究成果,例如,区块链中可以采用同态加密、零知识证明等技术对隐私数据进行加密以达到保护隐私数据的目的;Zheng 等人48针对供应链金融信用体系中的征信数据隐私保护问题,提出了一种基于区块链的共享交易信息访问控制和管理模型,通过共识机制,实现了共享数据链的访问控制和可追溯性管理;Zhang等人49提出了一种基于移动边缘计算的联邦学习框架FedMEC,将模型划分技术和差分隐私技术集成在一起,防止局部模型参数的隐私泄露;郑婷一等人50还提出了一个由监管体系、核心技术和模式创新三部分组成的保障平台数据与算法安全的技术生态体系架构。6.2.3 事后审计 事后审计主要包括交易信用审计和交易安全审计。交易信用审计主要对是否存在侵权和违规行为进行认定、追责,并建立一种有效的信用评价机制。例如,可以利用区块链可溯源、抗抵赖等技术特性,提出参与者向智能合约支付一定数量的押金作为对潜在违约者的惩罚和对被违约者的补偿,在规定期限后,由智能合约根据合约履行情况执行交易结算,并根据参与者本次的表现自动刷新其信用评分。还可以利用边合约机制,建立一种基于区块链技术的交易纠纷仲裁机制,不仅可以解决交易双方的合同争议问题,还能验证、追溯交易数据的完整性和价值。可以设计一种信誉机制设计方案,以鼓励供方尽可能多地降低机会主义,防止交易对需方没有价值的数据产品。区块链技术的应用不仅能保障每笔交易的记录安全,还为交易安全审计提供了便利。例如,Kefeng等人51设计了一个基于区块链的云数据审计方案,提出了一个分散的审计框架来消除对第三方审计者的依赖,保障了数据审计的稳定性、安全性和可追溯性的同时,还能更好地协助用户以验证云数据的完整性。表 6 简要汇总了国内外数据要素流通使用安全风险及其主要应对策略。数据交易 PDCA 模型 The PDCA Model for Data Transactions 29 表 6 数据要素流通交易使用安全风险应对策略 业务周期 应对策略 交易申请 交易磋商 交易实施 交易结束 政策、制度 交 易 主 体 资 质 审核、数据产品合规性审查 交易合同审核 交易环境安全风险评估、算法安全风险评估、交易服务管理制度 登记结算、争议仲裁 理论、技术 身份认证技术、数据去标识化技术、敏 感 数 据 探 测 技术、数据完整性技术 区块链智能合约、分布式交易机制 P2P 网络技术、区块链、智能合约、安全多方计算、差分隐私、可信执行环境、联邦学习 分布式交易机制、云数据审计、边合同机制 6.3 管理与技术协同的数据要素可信流通机制 图 11展示了本文提出的事前事中事后全链路数据要素流通使用安全风险应对策略框架,从数据要素流通使用全过程视角,针对事前、事中、事后三个不同阶段,分别制定事前审查体系、事中监控体系和事后审计体系,规范数据安全有序流通使用。图 11 事前事中事后全链路数据要素流通使用安全风险应对策略流程图 6.3.1 事前事中事后全链路监管机制(1)基于人机协同的事前审查体系(1)基于人机协同的事前审查体系 事前审查的目的是期望在交易申请阶段能够确保参与交易的主体可信、数据可信、合约可信等,如图 12所示。交易主体审查旨在审查数据流通使用主体资质的安全风险和合规性,构建交易主体账户注册登记流程,设计面向账户登记信息真实性的机器审核与人工复核配套验证方案,保证交易平台、流通交易过程中的经手方以及机构或个人等市场主体信息可追溯,实现交易主体可信。交易数据和算法审查即检验采集存储的数据要素安全风险,包括数据完整性、真实性、可交易性,数据获取渠道的合法性,以及数据是否对个人信息进行去标识化处理,保障数据的可交易以及合法合规。交易合约审查目的在于审查数据要素的使用场景、数据交易 PDCA 模型 The PDCA Model for Data Transactions 30 数据质量、数据价值、可定价要求和数据更新能力,需要面向不同应用场景制定禁止交易数据目录,建立数据产品上架交易标准规范,构建规范化的交易合约上架流程和合规审查流程,实现交易合约可信。图 12 事前人机协同审查体系(2)基于智能监控管理的事中监控体系(2)基于智能监控管理的事中监控体系 事中监控的目的是保障数据要素流通交易在磋商阶段和实施阶段安全可信,包括交易主体监控管理、合约磋商监控管理、算法行为监控管理和订单履行监控管理,如图 13所示。交易主体监控管理聚焦于交易主体识别管理,通过设计基于智能识别技术的交易主体身份与合约核验机制,确保合约双方的签名信息、合约内容的哈希值信息、私钥管理信息等合约信息的可追溯,实现数据使用者可控。合约磋商监控管理,基于公平交易原则、供需匹配效率最大化原则,通过设计具有隐私保护的自动匹配技术和智能合约技术,保障交易双方的合约符合市场预期和国家相关政策法规。算法行为监控管理,通过构建模型算法评估体系,设计算法行为监控方案,确保数据导入、数据预处理、模型训练、结果发布等流程规范可信、使用过程可追溯、资源消耗可度量,实现数据用途、用量与合约一致,保障数据加工使用安全风险可控。订单履行监控管理,建立数据传输接口备案制度,通过动态监控交易主体履约行为,包括感知监控数据流转、验证数据完整性和一致性、资金流审核,保证订单完全履行,并能对订单信息、供需方及交易平台信息、交付结算信息等履约过程产生的数据信息的可追溯。数据交易 PDCA 模型 The PDCA Model for Data Transactions 31 图 13 事中智能监控管理体系(3)基于区块链存证的事后审计体系(3)基于区块链存证的事后审计体系 事后审计是防止数据在交易结束后可能面临的安全风险,集中在防止数据滥用、数据侵权和主体失信三个方面,如图 14所示。在防止数据滥用方面,设计基于数据链上存储信息的交易审计机制,以交易结束后链上存储的合约信息和交易信息为基础,构建智能交易审计核验指标测算体系,设计链上资源滥用情况的监控和识别方案;制定数据销毁审查机制,杜绝数据产品倒卖风险,保证交易数量、异常交易用户、异常合约部署、数据销毁过程等审计信息可追溯。在防止数据侵权方面,制定数据交易侵权行为的举证流程机制,基于数据侵权行为链上链下线索搜寻,构建数据侵权的链上链下查验体系,保证对侵权行为信息来源的可追溯。在防止主体失信方面,建立数据交易结束后的链上存储信息的信用管理机制,构建基于数据市场主体的信用评价指标体系,设计市场主体交易行为信用评价的链上存证方案,保证对数据供方、数据需方、交易平台等数据市场主体信用等级信息的可追溯。图 14 事后区块链存证审计体系 6.3.2 管理与技术协同的监管体系 支持数据要素安全有序流通使用需要构建一个全流程合规可信体系,其建设过程是一个复杂的系统工程,实现路径有赖于管理制度与技术支撑的相互保障和综合作用。图 11展示了本文提出的管理与技术相互协同的数据要素流通使用合规可信体系及实现路径。图 15中,表示交易申请阶段参与主体注册及对应的管理机制、技术支撑。类似地,表示交易撮合阶段,表示交易实施阶段,表示交易结束阶段,以及各自对应的管理机制和技术支撑。数据交易 PDCA 模型 The PDCA Model for Data Transactions 32 图 15 管理与技术相互协同的数据要素流通使用合规可信体系及实现路径(1)管理制度与技术支撑相互协同的数据要素流通使用全流程合规可信体系(1)管理制度与技术支撑相互协同的数据要素流通使用全流程合规可信体系 管理制度与技术支撑相互保障的数据要素流通使用全流程合规可信体系包括合规可信制度体系、合规可信技术体系以及管理制度与支撑技术协同方案。数据要素可信流通使用制度体系包括事前审查制度、事中监控制度、事后审计制度等;技术体系包括数据交易系统技术、区块链系统技术、跨隐私平台的联邦学习系统技术以及可信执行环境技术等;图 15中标记的展示了数据要素流通使用不同阶段的管理制度和技术支撑的协同方案。具体而言,在数据流通使用的事前审查阶段,制定针对交易主体、交易数据和交易合约的审查制度,应对参与主体和数据采集安全风险;在技术上采用“机器审查 人工核验”方式保证审查流程合规可信,即对于资质信息、数据质量、交易条目等标准信息,如企业法人信息、营业执照、数据规模与量级、禁止交易数据清单等,采用基于机器学习算法进行自动审查与人工抽验方法;对于交易目的、数据来源等主观性较大的数据属性,采用人工核验方法。在数据流通使用的事中监控阶段,针对流通使用涉及的平台系统及软硬件、数据、云、网、端等环节制定安全保障制度,构建交易主体监控管理体系、算法行为监控管理体系和订单履行监控管理体系;在技术上设计基于智能算法支撑的保障体系,如基于智能识别技术的参与主体身份认证,保证参与主体可信;基于标识技术的数据权限管理方法,实现交付数据访问可控;面向数据用量异常检测的自动感知技术,监控数据合规加工使用;基于区块链技术的数据流通使用过程信息存证,保证数据流通使用全过程可追溯。在数据流通使用的事后审计阶段,制定数据滥用审计制度、数据侵权审计制度、主体失信审计制度,旨在确保数据流通使用全过程合规、争议可裁决、权益可保障;在技术上设计基于区块链存证信息的再审计体系,对数据流通使用全过程进行安全审计;基于数据标识和关联技术的数据追踪体系,对数据二次流通、转卖等侵权行为进行查验取证;融合交易主体信用评估制度体系与区块链可追溯技术,构建数据信用综合评估服务,推动数据流通市场公正可信发展。(2)数据要素流通使用全流程合规可信体系建设方案(2)数据要素流通使用全流程合规可信体系建设方案 脠窗筰箞孿颂跷颏裤述谸捹曀椬蓌整蚕捹曀舨樥刘晭忌莪啐螬迯媊箥箞螭媵辆莪盔六枕搞吼箥龆践P2P枈暼荟忌輈嶐筬惢椬蓌整蚕媵螬蹒鲸龆鳍脠窗筰箞孿颂跷颏舨樥刘晭忌莪螬媵辆莪怢敝颦蹒鲸呕媵螬捹曀媵螬荖潻捹曀媵逇颦常椬枈掷虹蹒鲸让掷虹焱列掷虹梁圞爺槁霁蹸葯卫轰冬廢嚶嬾壔箙闲媵螬惾厐捹曀媵叼颦淋敦椹痵勥为歮銺窿必誊箁澢终壋姎歮掎窿弊虹蓖胆靠梯嬄箙虮对輙龆践常椬常菨螬龆鳍梯嬄箙虮惾厐践掾槁霁疬铨掷虹重筬践掾媵翟嘂壋惾践掾螬晥暋触盌践掾 螬暱鲔蹾訊塟产聋重筬践掾盎聋对輙龆践 媵剞颊忌践掾媵盅椽壋惾践掾媵抽壋姎践掾 螬尐呕臂终虮蹾訊塟产柄壋煜践掾盎螬詵厐龆践螬媵重纏践掾螬勃胆縍緟筰盅践掾 螬嘕篸蹾訊产讲重践掾盎敦串鳍哞龆践数据交易 PDCA 模型 The PDCA Model for Data Transactions 33 数据要素流通使用全流程合规可信制度体系既有指导全国一体化实施数据要素流通使用的宏观基础制度,又有地方政府指导本地区实施数据要素流通使用的中观制度,同时还有数据要素交易机构实施数据要素流通使用的微观制度。在国家和地方层级的宏观制度、中观制度建设方案上,采用“自顶向下”的思路构建数据要素流通交易全流程合规可信基础制度体系。在地方和交易机构的微观制度、中观制度建设方案上,采用“自底向上”的思路,构建数据要素流通交易全流程合规可信运营制度体系。在安全可信制度的实施保障上,制定数据要素流通使用全流程合规可信制度体系培训政策、落实保障政策以及制度执行的监管政策,保障数据要素流通交易全流程合规可信制度有效落地。数据要素流通使用全流程合规可信技术体系既包括国家支撑数据要素流通交易的全国一体化基础设施,又包括各类数据交易机构支持数据要素可信可控可计量流通交易的基础设施。在全国一体化基础设施建设上,基于“东数西算”等国家基础实施建设战略,厘清全国一体化数据中心、算力中心、算法中心、安全中心等安全可信基础设施与流通环境的建设需求,提出相应的建设方案,为数据要素流通使用提供安全可信流通环境、共性公共服务、绿色高效的算力保障。在数据交易机构基础设施建设上,构建面向集合运算、联合建模及风险防控等功能的隐私协同计算平台,设计面向交易主体互信、数据登记互联、失信名单互通的跨链协同交易平台,为数据要素安全可信流通使用提供安全可信技术保障。在安全可信技术建设保障与互联互通上,建议国家开展相关技术攻关、基础理论探索等重点工程项目与专项行为计划立项工作,以重点工程项目与专项行动计划为牵引,建立国家、地方政府与交易机构共同投资建设的协同机制以及各类基础设施互联互通机制,建立安全可信、集约高效的全国一体化数据要素流通使用环境。数据交易 PDCA 模型 The PDCA Model for Data Transactions 34 参考献 1欧阳日辉 and 荆文君,数字经济发展的“中国路径”:典型事实、内在逻辑与策略选择J.改革,2023(08):26-41.2曹明星,数字经济下的数据要素治理与数字税收改革基于“信用价值集聚生产”创新经济理论的初步探讨J.税务研究,2022(11):36-42.3洪永淼,张明 and 刘颖,推动跨境数据安全有序流动 引领数字经济全球化发展J.中国科学院院刊,2022.37(10):1418-1425.4Turow J.,Hennessy M.and Bleakley A.,Consumers understanding of privacy rules in the marketplaceJ.Journal of consumer affairs,2008.42(3):411-424.5Kole S.R.,Measuring managerial equity ownership:a comparison of sources of ownership dataJ.Journal of corporate finance,1995.1(3-4):413-435.6徐翔 and 赵墨非,数据资本与经济增长路径J.经济研究,2020.55(10):38-54.7Kallus N.,Mao X.and Zhou A.,Assessing algorithmic fairness with unobserved protected class using data combinationJ.Management Science,2022.68(3):1959-1981.8Liu B.,Pavlou P.A.and Cheng X.,Achieving a balance between privacy protection and data collection:A field experimental examination of a theory-driven information technology solutionJ.Information Systems Research,2022.33(1):203-223.9Monga V.,Li Y.and Eldar Y.C.,Algorithm unrolling:Interpretable,efficient deep learning for signal and image processingJ.IEEE Signal Processing Magazine,2021.38(2):18-44.10夏义堃 and 管茜,政府数据资产管理的内涵、要素框架与运行模式J.电子政务,2022(01):2-13.11曾铮 and 王磊,数据要素市场基础性制度:突出问题与构建思路J.宏观经济研究,2021(03):85-101.12黄京磊,李金璞 and 汤珂,数据信托:可信的数据流通模式J.大数据,2023.9(02):67-78.13包晓丽 and 杜万里,数据可信交易体系的制度构建基于场内交易视角J.电子政务,2023(06):38-50.14林镇阳,侯智军,赵蓉,et al.,数据要素生态系统视角下数据运营平台的服务类型与监管体系构建J.电子政务,2022(08):89-99.15范文仲,完善数据要素基本制度 加快数据要素市场建设J.中国金融,2022(S1):14-17.16Rohn D.,Bican P.M.,Brem A.,et al.,Digital platform-based business modelsAn exploration of critical success factorsJ.Journal of Engineering and Technology Management,2021.60:101625.17窦悦,易成岐,黄倩倩,et al.,打造面向全国统一数据要素市场体系的国家数据要素流通共性基础设施平台构建国家“数联网”根服务体系的技术路径与若干思考J.数据分析与知识发现,2022.6(01):2-12.数据交易 PDCA 模型 The PDCA Model for Data Transactions 35 18王会金 and 刘国城,大数据时代电子政务云安全审计策略构建研究J.审计与经济研究,2021.36(04):1-9.19宋方青 and 邱子键,数据要素市场治理法治化:主体、权属与路径J.上海经济研究,2022(04):13-22.20黄科满 and 杜小勇,数据治理价值链模型与数据基础制度分析J.大数据,2022.8(04):3-16.21Robinson S.L.,Trust and breach of the psychological contractJ.Administrative science quarterly,1996:574-599.22Burt R.S.and Knez M.,Kinds of third-party effects on trustJ.Rationality and society,1995.7(3):255-292.23Mayer R.C.,Davis J.H.and Schoorman F.D.,An integrative model of organizational trustJ.Academy of management review,1995.20(3):709-734.24周怡,信任模式与市场经济秩序制度主义的解释路径J.社会科学,2013(06):58-69.25Rousseau D.M.,Sitkin S.B.,Burt R.S.,et al.,Not so different after all:A cross-discipline view of trustJ.Academy of management review,1998.23(3):393-404.26Zucker L.G.,Production of trust:Institutional sources of economic structure,18401920J.Research in organizational behavior,1986.27Luhmann N.,Trust and power.2018:John Wiley&Sons.28Sako M.,Price,quality and trust:Inter-firm relations in Britain and Japan.1992:Cambridge University Press.29Sztompka P.,Trust:A sociological theory.1999:Cambridge university press.30Bohnet I.and Huck S.,Repetition and reputation:Implications for trust and trustworthiness when institutions changeJ.American economic review,2004.94(2):362-366.31Gilson L.,Trust and the development of health care as a social institutionJ.Social science&medicine,2003.56(7):1453-1468.32全国信息标准化技术委员会,信息安全技术-数据交易服务安全要求.2019,中国标准出版社:北京.33Hutchings A.and Holt T.J.,The online stolen data market:disruption and intervention approachesJ.Global Crime,2017.18(1):11-30.34肖建华 and 柴芳墨,论数据权利与交易规制J.中国高校社会科学,2019(01):83-93 157-158.35Agarwal A.,Dahleh M.and Sarkar T.A marketplace for data:An algorithmic solution.in Proceedings of the 2019 ACM Conference on Economics and Computation.2019.36Li C.,Li D.Y.,Miklau G.,et al.,A theory of pricing private dataJ.ACM Transactions on Database Systems(TODS),2014.39(4):1-28.37刘小霞,张嘉熙,王申,et al.,基于多方计算技术的 数据交易机制研究J.Big Data Research(2096-0271),2022.8(3).38Acquisti A.,Taylor C.and Wagman L.,The economics of privacyJ.Journal of economic Literature,2016.54(2):442-492.数据交易 PDCA 模型 The PDCA Model for Data Transactions 36 39Balazinska M.,Howe B.and Suciu D.,Data markets in the cloud:An opportunity for the database communityJ.Proceedings of the VLDB Endowment,2011.4(12):1482-1485.40Kourid A.and Chikhi S.,A comparative study of recent advances in big data for security and privacyJ.Networking Communication and Data Knowledge Engineering:Volume 2,2018:249-259.41Goel P.,Patel R.,Garg D.,et al.A review on big data:privacy and security challenges.in 2021 3rd International Conference on Signal Processing and Communication(ICPSC).2021.IEEE.42Katzir Z.and Elovici Y.,Quantifying the resilience of machine learning classifiers used for cyber securityJ.Expert Systems with Applications,2018.92:419-429.43Feldman M.,Friedler S.A.,Moeller J.,et al.Certifying and removing disparate impact.in proceedings of the 21th ACM SIGKDD international conference on knowledge discovery and data mining.2015.44杜自然,窦悦,易成岐,et al.,TID-MOP:面向数据交易所场景下的安全管控综合框架J.数据分析与知识发现,2022.6(01):13-21.45Tan W.,Li L.,Zhou Z.,et al.,Blockchain-based distributed power transaction mechanism considering credit managementJ.Energy Reports,2022.8:565-572.46Gupta P.,Dedeoglu V.,Kanhere S.S.,et al.,TrailChain:Traceability of data ownership across blockchain-enabled multiple marketplacesJ.Journal of Network and Computer Applications,2022.203:103389.47Dai W.,Dai C.,Choo K.-K.R.,et al.,SDTE:A secure blockchain-based data trading ecosystemJ.IEEE Transactions on Information Forensics and Security,2019.15:725-737.48Zheng K.,Zheng L.J.,Gauthier J.,et al.,Blockchain technology for enterprise credit information sharing in supply chain financeJ.Journal of Innovation&Knowledge,2022.7(4):100256.49Zhang J.,Zhao Y.,Wang J.,et al.,FedMEC:improving efficiency of differentially private federated learning via mobile edge computingJ.Mobile Networks and Applications,2020.25(6):2421-2433.50郑婷一,庞亮 and 靳小龙,平台经济中的数据与算法安全J.大数据,2022.8(04):56-66.51Kefeng F.,Fei L.,Haiyang Y.,et al.,A BlockchainBased Flexible Data Auditing Scheme for the Cloud ServiceJ.Chinese Journal of Electronics,2021.30(6):1159-1166.
数据要素市场发展指数 Data Factor Market Development Index 版权声明 本报告版权属上海数据交易所有限公司所有,并受法律保护。转载、编撰或其他方式使用本报告文字或观点,应注明来源数据要素市场发展指数。违反上述声明者,将追究其相关法律责任。数据要素市场发展指数 Data Factor Market Development Index 编写员(排名不分先后)夏、沈婧怡、卢勇、陈淑真、陈紫 编写单位(排名不分先后)数据流通与交易技术国家程实验室 上海数据交易所有限公司 数据要素市场发展指数 Data Factor Market Development Index 录 Contents 报告要点.?、数据要素市场城市?指数.?.编制背景.?.编制案.?.?城市选择.?.?计算指标设计法.?.?指数计算.?.?指数样本调整.?.?指数发布与更新.?.观察结果.?.?综合引领型城市:线领跑,新线.?.?加速成型城市:起步较晚,加速赶超.?.?机会潜型城市:产业基础薄弱,发展潜较强.?.数据要素分项发展现状.?.?数据要素治理.?.?数据要素供给.?.?数据要素流通.?.?数据要素保障.?.结语.?、数据要素市场景指数.?.编制案.?数据要素市场发展指数 Data Factor Market Development Index?.?景指数计算法.?.?景指数样本选择法.?.?景指数解读.?.?景指数更新和调整.?.数据要素市场景状况(?第?季度).?附录:问卷调查表.?数据要素市场发展指数 Data Factor Market Development Index 1 报告要点“数据要素市场发展指数”由“数据要素市场城市 30 指数”与“数据要素市场景气指数”组成。“数据要素市场城市 30 指数”以“数据二十条”为编制指导,从“数据要素治理”、“数据要素流通”、“数据要素供给”、“数据要素保障”四个维度,聚焦城市数据要素市场发展成熟度。“数据要素市场景气指数”以 200家数据要素型企业为对象,利用季度问卷调查的方法,从业务、需求、价格、人员、利润、研发、预期等维度动态监测数据要素行业景气度,致力于打造数据要素领域的晴雨表。数据要素市场发展指数 Data Factor Market Development Index 2、数据要素市场城市 30 指数 1.编制背景 自 2022年关于构建数据基础制度更好发挥数据要素作用的意见(简称“数据二十条”),确立了数据要素市场作为国家重点培育对象的地位,2022 年被视为数据要素市场化元年。2023 年 2 月,国务院发布数字中国建设整体布局规划,为数据要素市场的顶层设计定调。数据要素市场的制度建设、地方实践高楼渐起,成果初现。与中央政策要求呼应,各地积极落实设定数据要素市场发展目标。2023 年 7 月,北京市印发关于更好发挥数据要素作用进一步加快发展数字经济的实施意见,提出力争到2030 年数据要素市场规模达到2,000亿元,基本完成国家数据基础制度先行先试工作,形成数据服务产业集聚区;2023 年 8 月,上海市人民政府办公厅印发立足数字经济新赛道推动数据要素产业创新发展行动方案(2023-2025 年),提出到2025 年,数据要素市场体系基本建成,数据要素产业动能全面释放,数据产业规模达 5,000 亿元,年均复合增长率达15%。“数据二十条”提出从数据产权、流通交易、收益分配、安全治理等方面构建数据基础制度的发展方向,各地区政府纷纷响应号召,加快数据要素市场建设的步伐。为对比中国各主要城市在数据要素市场的发展状况,指数编制组发布数据要素市场城市 30 指数(以下简称城市 30 指数),以“数据二十条”为评价标准,建立数据要素市场科学的指标体系。本报告根据各样本城市的指数,将三十个样本城市划分为综合引领型城市、加速成长型城市及机会潜力型城市三种类型,并对各类型城市的数据要素市场发展现状进行分析。2.编制案 2.1 城市选择 综合对比不同城市的经济发展水平,数据要素市场发展的自由度,本指数编制方案以中国境内(不含港、澳、台)主要城市为分析样本。直辖市和省会城市是我国大部分地区发展引擎,是各地区内经济发展水平的最高代表、经济社会活动最活跃的城市,企业产生的数据资源越丰富,越有可能形成数据生产要素。但部分省份经济发展相对落后,数据要素市场仍属于发展初期,因此本次指数编制选择直辖市和东部、中部、西部三个区域内经济水平发展较高的省会城市为样本,最终上海、北京、广州、杭州、南京、武汉、天津、贵阳、成都、合肥、重庆、南宁、济南、兰州、福州、长沙、海口、郑州、南昌、呼和浩特、昆明入选。此外,补充苏州、无锡、珠海、汕头四个经济发展潜力型城市。较高的发展自由度有利于推动数据要素市场加速发展。计划单列市有更大的决策自主权,可以获得更多政策和资金支持,因此补充深圳、宁波、青岛、大连、厦门五个计划单列市为入围城市。数据要素市场发展指数 Data Factor Market Development Index 3 2.2 计算指标设计法 综合考虑国家对数据要素市场的发展思路,本方案依据“数据二十条”中对数据要素市场四大基础制度的建设要求,设计了三层指标体系,包含 4 项一级维度指标、15 项二级维度指标、34 项三级细分衡量指标。通过分层拆解一、二级评价维度,保证对城市数据要素市场发展的评价全面性与科学性;对三级衡量指标分类汇总,平衡指数呈现结果清晰度与易理解程度。表 1 “城市 30 指数”指标体系#一级维度 一级维度 指标 指标#二级维度 二级维度 指标 指标#三级细分衡量指标 三级细分衡量指标 1 数据要素治理 1.1 政府数据治理 1.1.1 是否出台涉及数据流通监管机制的相关政策 1.1.2 是否出台涉及建立数据治理体系的相关政策 1.2 企业数据治理 1.2.1 提及要求企业进行数据治理的政策数量 1.2.2 提出建立数据要素登记及披露的政策数量 1.2.3 是否组建大数据产业联盟 1.2.4 是否组建数据相关协会 2 数据要素供给 2.1 数据权属保护 2.1.1 提及数据产权保护的政策数量 2.1.2 是否正在推动数据立法 2.2 公共数据供给 2.2.1 是否建立公共数据开放平台 2.2.2 是否形成了公共数据管理办法 2.2.3 是否形成公共/政务数据分类分级指南 2.2.4 是否开展公共数据授权运营探索 2.3 企业数据供给 2.3.1 是否建立数据采集/质量评估标准 2.3.2 提及数据交易/资产化/数字化转型的政策数量 2.3.3 大数据企业 50 强数量 2.3.4 数据相关赛道独角兽企业数量 2.4 个人数据供给 2.4.1 提及个人数据的政策数量 3 数据要素 流通 3.1 数据合规 3.1.1 数据合规管理办法数量 3.2 交易场所 3.2.1 是否形成数据交易场所标准/管理实施办法 3.2.2 是否设立数据交易机构 3.3 流通生态 3.3.1 是否有数据要素交易/流通利用激励性政策 3.3.2 是否进行数据生态探索(如建立生态样板区/建立生态产业链)数据要素市场发展指数 Data Factor Market Development Index 4 2.3 指数计算 城市 30 指数对 34 个三级细分衡量指标根据各城市发展差异从低到高进行 0 至 3 分打分。三级细分衡量指标具体包含进行“是/否判断”、“数量比较”两种类型。其中,对进行“是/否判断”的衡量指标根据“是”得 3 分,“否”得 0 分的标准赋分。对进行“数量比较”的衡量指标根据该城市表现与样本三分位数大小关系进行赋分。三分位数根据以下公式进行计算:样本三分位数=最小值 三分位点!#最大值 最小值%例如:第一三分位数=最小值 !#最大值 最小值%若“该城市表现第二三分位数”,赋3 分;若“第一三分位数该城市表现第二三分位数”,赋2 分;若“最小值该城市表现第一三分位数”,赋 1 分;若“该城市表现=最小值”,赋 0 分。二级衡量指标根据其对应的三级衡量指标分值加总形成:二级衡量指标分值=(其下属三级指标分值)一级衡量指标根据其对应的二级衡量指标分值加总,并调整为 0 至 100 分区间形成,以提高受众对一级指标的理解程度:一级衡量指标分值=其下属二级衡量指标分值加总其下属二级衡量指标满分 100 3.4 跨境流通 3.4.1 是否进行数据跨境流通探索 3.5 收益分配 3.5.1 提及数据定价相关的政策数量 3.5.2 提及数据资产评估相关的政策数量 3.5.3 提及政府对数据收益进行调节的政策数量 4 数据要素 市场 保障体系 4.1 组织建设 4.1.1 是否设有大数据管理局/大数据中心/数据集团 4.1.2 是否试验首席数据官制度 4.2 财政支持 4.2.1 是否有财政专项资金支撑数据发展 4.2.2 数据应用激励/补贴政策数量 4.2.3 是否有数字经济相关财政金融扶持政策 4.3 创新探索 4.3.1 是否建立数据创新示范区 4.4 理论/立法研究 4.4.1 是否设有国家级大数据实验室 4.4.2 数据研究机构数量 数据要素市场发展指数 Data Factor Market Development Index 5 最终,城市数据要素市场发展指数根据对应城市的一级衡量指标计算算数平均数形成:城市 30 指数=(一级指标分值)&2.4 指数样本调整 方案建议根据指数编制的不同阶段,阶梯型优化运营机制,并同步进行指数样本调整。伴随指数编制工作逐步成熟运行,城市 30指数将每年对中国境内城市进行筛选,基于前述样本选取方法筛选、更新合适指数的样本城市,并适当考虑扩充样本数量以提高指数对中国境内城市的整体覆盖范围。2.5 指数发布与更新 城市 30指数每年计算、更新并发布。更新依据各样本城市在各三级细分衡量指标的最新表现,综合考虑该城市相关政策出台、探索运营、激励补贴等情况计算。数据要素市场发展指数 Data Factor Market Development Index 6 3.观察结果 本期样本城市的数据要素市场发展指数分值集中在 40-100 分之间,呈现为综合引领型(大于 75 分)、加速成长型(60-75 分)、机会潜力型(小于 60 分)三个梯队:第一梯队:综合引领型(大于 75 分)上海、深圳、北京、广州、杭州、珠海、苏州、宁波、南京;第二梯队:加速成长型(60-75 分)武汉、天津、汕头、贵阳、成都、无锡、合肥、重庆、南宁、济南、青岛;第三梯队:机会潜力型(小于 60 分)厦门、兰州、福州、长沙、海口、郑州、大连、南昌、呼和浩特、昆明。表 2 城市 30 指数排名及总得分 排名 排名 城市 城市 总积分 总积分 排名 排名 城市 城市 总分 总分 1 1 上海 96.8 16 合肥 68.9 2 2 深圳 90.7 17 重庆 66.9 3 3 北京 88.3 18 南宁 66.7 4 4 广州 85.7 19 济南 62.7 5 5 杭州 81.6 20 青岛 60.4 6 6 珠海 81.2 21 厦门 58.4 7 7 苏州 78.9 22 兰州 58.3 8 8 宁波 77.7 23 福州 57.6 8 8 南京 77.7 24 长沙 57.3 10 10 武汉 74.4 25 海口 57.2 10 10 天津 74.4 26 郑州 53.5 12 12 汕头 73.5 27 大连 50.1 13 13 贵阳 71.8 28 南昌 46.0 14 14 成都 71.0 29 呼和浩特 45.7 15 15 无锡 69.3 30 昆明 42.5 数据要素市场发展指数 Data Factor Market Development Index 7 图 1 城市 30 指数三梯队城市分布 总体来看,各城市数据要素市场指数与本地的数字经济正相关,部分新一线城市表现亮眼。数据作为数字经济时代具有基础性战略资源和关键性生产要素,是发展数字经济的关键抓手。对比各地的数字经济发展指数,各城市数据要素市场的发展程度与各地数据经济实力呈正相关性。这一方面体现了有价值的数据要素是催生和推动数字经济新产业、新业态、新模式发展的基础。在数据挖掘、脱敏、分析的基础之上对数据资源实现高效利用,将极大地推动创新、加速产业升级。另一方面,数据对经济活动中的其他生产要素也具有倍增作用,可以利用数据流通中各利益相关方的对接,放大劳动力、资本等要素在社会各行业中的价值。此外,部分城市对比本地的数字经济发展水平,数据要素市场发展程度有亮眼表现。武汉、宁波、苏州、贵阳等城市数据要素市场发展超水平发挥,得益于其所在省市政府积极推动数据要素市场发展,力图抓住数据要素市场建设这一关键抓手,实现数字经济的“弯道超车”,形成了自身数据要素市场特色。以贵阳为例,其数据要素市场发力公共数据,打造明星气象数据产品,在交易、应用场景等方面均有创新探索。有力的政策支持成为这些城市数据要素市场发展的加速剂。数据要素市场发展指数 Data Factor Market Development Index 8 图 2 数字经济指数与城市 30 指数呈正相关关系 信息来源:H3C中国城市数字经济指数,指数编制研究组 3.1 综合引领型城市:线领跑,新线 综合引领型城市均为东部沿海地区的经济发达城市,数字经济发展水平高,除北京、上海、广州、深圳四大一线城市外,还包括杭州、南京等新一线城市,数据要素治理、数据要素供给、数据要素流通、数据要素市场保障体系四项指标均处于全国领先水平,为数据要素市场发展的排头兵。表 3 综合引领型城市 30 指数一级指标分数 排名 排名 城市 城市 数据要素治数据要素治理得分 理得分 数据要素供数据要素供给得分 给得分 数据要素流数据要素流通得分 通得分 数据要素保障数据要素保障体系得分 体系得分 总分 总分 1 1 上海 100.0 90.9 96.3 100.0 96.8 2 2 深圳 94.4 87.9 88.9 91.7 90.7 3 3 北京 94.4 81.8 85.2 91.7 88.3 4 4 广州 83.3 87.9 92.6 79.2 85.7 5 5 杭州 77.8 75.8 85.2 87.5 81.6 数据要素市场发展指数 Data Factor Market Development Index 9 6 6 珠海 83.3 81.8 88.9 70.8 81.2 7 7 苏州 77.8 72.7 77.8 87.5 78.9 8 8 宁波 77.8 78.8 66.7 87.5 77.7 8 8 南京 83.3 72.7 63.0 91.7 77.7 3.1.1 上海:数据要素先行者,各指标位列第一 上海雄厚的经济基础和数字经济规模为数据要素市场的建设提供了雄厚的产业基础。上海近年来持续推进国际经济、金融、贸易、航运和科技创新“五个中心建设”,夯实建设中国特色的超大规模城市和枢纽的战略定位。上海市国民经济和社会发展第十四个五年规划和二三五年远景目标纲要中,多次强调提高数据要素高频流动、高效配置、高能增值,鼓励数据跨境流动,及数据的跨领域、跨行业的数据融合与协同创新,依托超大城市海量数据、市场规模和应用场景优势,以数字技术创新带动科技变革、产业变革和城市治理方式变革,实现整体性转变、全方位赋能、革命性重塑。上海城市发展纲领性文件为数据要素市场的发展奠定了基调。上海对数据要素市场建设的政策支持力度领跑全国。2022 年正式生效的上海市数据条例是国内首部省级人大制定的数据条例,上海出台了数量最多、覆盖最广的数据要素相关政策,全面推动和保障数据要素市场的发展。例如,上海出台上海市“元宇宙”关键技术攻关行动方案(20232025年)促进数据资源技术基础设施建设,出台上海国际金融中心建设“十四五”规划推动上海大数据在金融行业的应用。上海在数据要素治理方面表现尤为突出。上海推进数据服务企业引培,培育涵盖数据收集、治理、加工等业务的数据中介、数商和数据运营管理机构,并协同行业协会、科研院所等多方力量参与数据治理,同时不断推进长三角数据要素治理技术标准和数据标准统一。上海经济发展水平和企业数字化水平领先,大量企业不断加入数字化转型的队伍中,为数据创新融合应用提供了丰富的应用场景。上海已打造了大数据、普惠金融等一批标杆性示范应用。丰富的数据应用场景也为数据流通提供了良好的发展机会,上海的数据流通与交易市场活跃。上海正积极打造数据交易生态,加速将数据要素发展转化为数字经济增量。在数商生态培育方面,上海正加速推动数据要素型企业的认定。同时,上海也积极推动国际数据港和国家级数据交易所两项重点工程的建设,促进数据高效合规流通。上海数据交易所牵头启动国内首个数据交易链建设,并加快构建数据要素流通标准体系,同时逐步完善数据交易合规服务生态、数据交易存证链条与数据交易国际板,促进跨境数据合规安全流通。3.1.2 北京:国央企数据资源丰富,科研水平领先 北京是我国的政治文化中心,对数字经济发展高度重视,是国家数字经济创新发展试验区,有利于加快试点示范和政策创新。北京市国民经济和社会发展第十四个五年规划和二三五年远景目标纲要中提到系统化构建数字发展新生态,深度挖掘数据资源内在价值,推动多行业、多领域、跨部门、跨层级数据有序数据要素市场发展指数 Data Factor Market Development Index 10 流通,推动企业数字化转型。在纲领性政策的引领下,北京的数据要素治理、数据要素供给、数据要素保障体系发展成熟。北京市数据要素资源优势显著。北京是各类央企、国企和民营企业的总部聚集地,具有较高的数字化水平,汇聚了种类丰富、规模庞大的商业数据资源。同时,北京积极推动智慧城市、数字政府、智能制造等重点行业率先进行数字化建设,沉淀和汇聚更多更高价值的数据资源。北京拥有国内最丰富优质的科研资源,数据要素市场保障水平较高。北京拥有数量最多的国家级大数据实验室和数据研究机构,理论研究水平先进,数据要素人才丰富,这些因素均为北京数据要素市场发展奠定了基础,推动数据要素市场加速发展。相比上海和深圳,北京的数据要素流通水平提升空间较大,其中主要是关于促进数据收益分配的政策较少,仅在“十四五”大数据产业发展规划等五条政策中提及了探索数据资产评估,在北京市数字经济促进条例中提及调节数据收益,对收益分配的政策推动力有待加强。3.1.3 广深珠:把握数据跨境优势,积极创新数据应用 广东省将建设高标准数据要素市场体系列为新阶段创造型、引领型改革任务,2022 年印发的广东省数据要素市场化配置改革行动方案旨在充分发挥海量数据资源和丰富应用场景优势,打通数据从资源到资产的全环节,“全省一盘棋”推进高质量新型数据要素市场体系建设。为全面推动数据要素市场建设,广东加快政策先行,出台的政策覆盖数据要素治理、数据要素供给、数据要素流通、数据要素保障体系中的多个细分领域,为数据要素市场提供制度保障,驱动数字经济发展。作为数字经济大省,广东有深圳、广州和珠海三个城市入围综合引领型城市。2020 年 10 月,中共中央办公厅国务院办公厅印发深圳建设中国特色社会主义先行示范区综合改革试点实施方案(20202025 年),在方案中,数据要素市场化配置被重点提及。作为我国经济特区,深圳始终注重数据要素市场的全方位体系化发展,数据要素治理、数据要素供给、数据要素保障体系均水平较高。凭借金融、高新技术产业等坚实的产业基础,深圳市拥有丰富的数据资源及应用场景,大力发展数据应用为企业发展赋能,推动深圳优势产业发展。相对而言,深圳的数据要素流通水平仍存在提升空间,其中对数据合规的政策推动力与上海存在差距,针对跨境数据交流,应更加注重完善相关监管机制,加强政府机构指导作用。广东省是数据跨境流动的先行者。广东凭借独特的地理位置优势,对我国粤港澳地区数据要素发展,对我国数据要素走向世界发挥着重要作用。其中,珠海持续深化珠澳合作,深圳则致力于打造深港数据跨境交易中心,体现深圳作为我国改革开放前沿阵地的主体地位。广东省也注重丰富的数据要素创新探索和实践经验积累。例如在深圳成立粤港澳大湾区大数据研究院及数据交易流通实验室,并将实践经验汇编成广东省数据要素市场化配置改革白皮书进行发布。3.1.4 杭州、宁波:发挥产业优势,提供丰富应用场景 浙江省把数字经济高质量发展作为奋力推进共同富裕先行和省域现代化先行的关键力量,通过数据要素赋能,扩大其他产业要素连接范围,促进市场公正公平竞争,提高全要素生产率,实现经济发展的效率变革。其中,杭州与宁波作为浙江省表现较好的两个城市,均在数据应用方向上各自发挥产业优势。数据要素市场发展指数 Data Factor Market Development Index 11 杭州市强化高质量数据要素供给。杭州的互联网产业飞速发展,集聚了阿里巴巴、网易等众多数字经济头部企业,促进数据要素供给水平的提升,也培育形成了智能制造、数字营销等数据应用场景。借助数字经济的产业基础,杭州市在高新区(滨江)成立了“中国数谷”,以数据要素市场化改革为突破,促进数据合规高效流通使用,赋能实体经济。杭州市的数据要素流通水平较高,在交易场所、流通生态方面尤为突出。2016 年,浙江大数据交易中心在杭州成立,并出台了数据知识产权交易指南(浙江省杭州市地方标准)指导数据交易场所管理,为数据要素的流通提供规范的平台。同时,杭州市注重流通生态建设,在浙江省数字经济促进条例、杭州市公共数据授权运营实施方案的推动下,不断激励数据要素交易和流通,通过“规则市场生态场景”四位一体推进数据价值化,力求形成在全国范围内可复制的“杭州模式”。但是,杭州在数据要素治理方面有待提高,主要是针对企业数据治理、数据要素登记及披露的相关政策指引相对薄弱。促进企业数据治理方面,主要在浙江省推进产业数据价值化改革试点方案中提及了围绕数据采集、存储、加工、交易、传输等全链条培育企业与数商,但缺乏具体的指引;促进数据要素登记及披露方面,除少部分浙江省出台的政策有提及外,只有杭州市数字经济发展“十四五”规划提及建立健全信息披露制度的发展目标。自宁波市数据要素市场化配置改革行动方案发布以来,宁波数据要素市场化配置改革工作进入快车道,逐步形成了以产品化为核心,市场化为路径,政府监管,国资引领,行业推进的发展模式,推动数据要素成为社会经济发展的战略性资源。宁波市积极抢抓数据要素市场机遇,发挥特色产业优势,数据要素供给发展水平较高。在数据要素供给方面,宁波市精准对接数据供给与需求,加强数据资源的高效利用,发挥宁波在港口物流、工业制造等方面的产业优势,激活数据要素发展潜能。宁波的数据要素市场保障体系发展成熟。宁波市全面加强组织建设,成立宁波市大数据发展管理局,并于 2023 年 1 月正式上线运营人工智能超算中心,为气象、科研等领域提供基础设施建设,为宁波市打造“全球智造创新之都”提供动力。与杭州相同,宁波对企业数据要素治理的政策推动作用有待加强,仅在宁波市数据要素市场化配置改革行动方案中提及促进企业进行数据的集中融合治理,仅在宁波市信息化发展“十四五”规划中提及进一步完善数据资产挂牌与登记制度的工作目标。3.1.5 南京、苏州:经济基础坚实,科研氛围浓厚 围绕国家“十四五”规划纲要中关于打造数字经济新优势的要求,江苏省出台了江苏省“十四五”大数据产业发展规划,以形成省内数据基础设施支撑有力、数据治理能力显著提升、数据要素流通规范有序、技术产品创新日趋活跃、融合应用不断深化的大数据新格局为发展目标。江苏省拥有坚实的制造业和实体经济基础,为培育数据要素市场提供了肥沃土壤。同时在大数据、工业互联网、人工智能等政策的推动下,江苏的数字要素市场的发展始终走在全国前列,拥有南京、苏州两座数据市场发展成熟的城市。数据要素市场发展指数 Data Factor Market Development Index 12 江苏的数据要素市场保障体系发展突出,凭借江苏的经济基础,在财政支持、组织建设、创新探索、理论研究等方面都有充足的保障举措。尤其是在数据研究方面,南京集中了江苏省雄厚的科研资源,拥有南京大学大数据服务与应用研究院等多个数据研究中心。但南京的数据要素流通水平则相对较低,在交易场所建设方面,南京市缺少市级大数据交易中心(所),只能依赖位于盐城的华东江苏大数据交易中心,因此也没并未形成专门的交易场所管理办法。在流通生态建设方面,南京也并未进行数据生态的探索,有待在未来进一步加强。相对来看,苏州的数据要素治理水平、数据要素供给水平相对薄弱,主要需加强推动企业数据要素治理的政策力度,提高企业数据质量以增加数据要素供给;并针对苏州的装备制造产业等优势产业整合公共数据资源和社会数据资源,提高数据要素供给水平。3.2 加速成型城市:起步较晚,加速赶超 加速成长型城市包含 11个城市,区域分布均匀,有东部地区的天津、汕头、无锡、济南、青岛,中部的武汉、合肥,以及西部地区的贵阳、成都、重庆、南宁。加速成长型城市虽在培育数据要素市场方面起步相对较晚,但均密集出台激励政策,鼓励数据要素市场发展。普遍来看,加速成长型城市在数据要素治理、数据要素供给、数据要素流通、数据要素保障体系四大方面往往各有所长,但发展不平衡,有待进行针对性突破,加速追赶综合引领型城市的发展水平。表 4 加速成长型城市 30 指数一级指标分数 排名 排名 城市 城市 数据要素治数据要素治理得分 理得分 数据要素供数据要素供给得分 给得分 数据要素流数据要素流通得分 通得分 数据要素保数据要素保障得分 障得分 总分 总分 10 10 武汉 88.9 72.7 44.4 91.7 74.4 10 10 天津 83.3 60.6 70.4 83.3 74.4 12 12 汕头 83.3 78.8 77.8 54.2 73.5 13 13 贵阳 66.7 63.6 77.8 79.2 71.8 14 14 成都 72.2 69.7 63.0 79.2 71.0 15 15 无锡 77.8 60.6 55.6 83.3 69.3 16 16 合肥 77.8 66.7 51.9 79.2 68.9 17 17 重庆 72.2 60.6 55.6 79.2 66.9 18 18 南宁 61.1 63.6 63.0 79.2 66.7 19 19 济南 72.2 48.5 59.3 70.8 62.7 20 20 青岛 55.6 48.5 66.7 70.8 60.4 数据要素市场发展指数 Data Factor Market Development Index 13 武汉位于我国中部地区,对于周边城市具有辐射带动作用,在中部地区崛起重要战略支点中具有引领地位,因此是国家重点支持的培育数据要素市场的城市之一。得益于武汉市数据要素市场化配置改革三年行动计划(20232025年)等政策的保障,以及光电子等高新技术产业的基础,武汉正着力推进数字产业化、产业数字化、数字化治理和数据要素价值化等工作。目前武汉的数据要素治理、数据要素保障体系已达到较高水平,出台了针对数据应用的激励和补贴政策,加大数字经济发展的人才激励、企业补贴力度,促进数据要素市场的加速发展。武汉的数据要素流通水平较低,数据合规和跨境流通探索、交易场所和流通生态构建都相对落后。武汉市目前出台的数据相关政策中并未提及数据合规管理,也并未对数据跨境流通进行探索。在交易场所建设的过程中,目前已成立华中大数据交易所、武汉东湖大数据交易中心,但并未形成针对数据交易场所的管理实施办法。针对数据生态的探索,目前尚未开始建立数据生态示范区、数据生态产业链等数据生态聚集区。我国西部数据中心的占比正稳步提高,贵州、成都、重庆都是东数西算的国家算力枢纽。其中,贵州拥有适合建设数据中心的气候和地理条件,是发展大数据产业的最大优势。虽然贵州数字经济的总规模不及第一梯队的城市,但每年的增速较快,正加速在实施数字经济战略上抢新机。贵阳大数据科创城已招引数据要素、数字阅读等新赛道的优质企业,全力打造区域数字产业聚集区。为促进数据要素流通,贵阳成立了首个以大数据命名的交易所贵阳大数据交易所,在全国率先探索数据要素流通交易价值和交易模式。相比之下,贵阳的数据要素治理水平较低。贵阳并未组建大数据相关的产业发展联盟,政策对数据要素登记和披露的推动力较弱,仅在贵州省政府数据共享开放条例和贵州省数据流通交易管理办法(试行)中提及数据登记,贵阳的数据要素治理水平有待全方面加强。山东省也出台了推动数据要素市场发展的政策。2022 年山东发布的关于加快推动平台经济规范健康持续发展的实施意见提到,将试点推进重点行业数据要素市场化进程,研究制定数据交易、应用开发的规则和流程,探索数据要素市场发展新机制。3.3 机会潜型城市:产业基础薄弱,发展潜较强 在三十个样本城市中,厦门、兰州、福州、长沙、海口、郑州、大连、南昌、呼和浩特、昆明十个机会潜力型城市相比其他城市数据相关产业基础薄弱,目前数据要素市场的发展水平较低,政策保障有待强化,数据要素各个领域的研究和探索亟需加强,期待进一步释放发展潜能,促进数字经济发展,高效赋能各城市的实体经济。表 5 机会潜力型城市 30 指数一级指标分数 排排名 名 城市 城市 数据要素治理积数据要素治理积分 分 数据要素供给积数据要素供给积分 分 数据要素流通积数据要素流通积分 分 数据要素保障积数据要素保障积分 分 总总分 分 21 21 厦门 61.1 57.6 48.1 66.7 58.4 数据要素市场发展指数 Data Factor Market Development Index 14 具体来看,厦门、福州、长沙、海口、郑州已有一定促进数据要素市场发展的举措,通过总结和借鉴综合引领型城市数据要素市场的发展经验,结合本地发展特色,正逐步开启培育本地数据要素市场的探索。福建省按下了数据要素市场建设的加速键,将深化数据要素市场改革,探索构建数据流通交易体系,丰富健全数据交易方式手段。湖南省的数据产业发展迅猛,数据要素市场已初现规模,但与高标准市场体系相比仍有较大差距。海南省则总结了北京、上海、广东等省市的经验做法,探索具有自由贸易区特色的数据产品开发利用与交易新模式。河南省通过打造地市数据要素市场培育试点城市,培育基于公共数据运营为主的数据要素市场,探索可复制、可推广的河南区域特色数据要素市场新路径。而大连、南昌、呼和浩特、昆明四个城市仍在观望中,省级和市级出台的与数据相关政策均较少。由于经济发展水平相对较低,数字经济基础薄弱,因此缺乏发展数字要素市场的先天条件,未来应以公共数据资源为抓手推动数据要素市场的建设。4.数据要素分项发展现状 三十个样本城市在数据要素治理、数据要素供给、数据要素流通、数据要素保障体系各有所长,通过对分项一级指数的分析,可以观察出各个城市在数据要素市场建设中的短板与长板,针对性扬长避短。22 22 兰州 77.8 36.4 48.1 70.8 58.3 23 23 福州 61.1 60.6 29.6 79.2 57.6 24 24 长沙 61.1 60.6 40.7 66.7 57.3 25 25 海口 77.8 45.5 55.6 50.0 57.2 26 26 郑州 44.4 39.4 59.3 70.8 53.5 27 27 大连 72.2 45.5 37.0 45.8 50.1 28 28 南昌 61.1 48.5 37.0 37.5 46.0 29 29 呼和浩特 61.1 36.4 18.5 66.7 45.7 30 30 昆明 61.1 27.3 48.1 33.3 42.5 数据要素市场发展指数 Data Factor Market Development Index 15 4.1 数据要素治理 表 6 30 城市数据要素治理水平排名及分数 数据要素治理是释放数据价值的有效路径,也是数据要素化的起点。在数据要素治理领域,上海凭借较高的公共数据治理水平位居第一,深圳则紧随其后。深圳肩负着促进跨境数据流通交易,探索建立全球数据融通机制的使命,坚持数据安全与发展并重的原则,构建“新型数据治理”体系。但总体来看,除一线城市领先外,其余城市尤其是新一线,在数据治理上表现未形成显著差异。这主要是由于目前数据治理集中于公共数据和国央企的企业数据治理,北、上、广三地由于政务、国企数字化走在前列,表现突出;其他城市近年来开始出台政策,推动政务数据统一归集,建设地方大数据中心,但完成数据治理仍需时日。排名 排名 城市 城市 数据治理得分 数据治理得分 排名 排名 城市 城市 数据治理得分 数据治理得分 1 1 上海 100.0 10 海口 77.8 2 2 深圳 94.4 17 成都 72.2 2 2 北京 94.4 17 重庆 72.2 4 4 武汉 88.9 17 济南 72.2 5 5 广州 83.3 17 大连 72.2 5 5 珠海 83.3 21 贵阳 66.7 5 5 南京 83.3 22 南宁 61.1 5 5 天津 83.3 22 厦门 61.1 5 5 汕头 83.3 22 福州 61.1 10 10 杭州 77.8 22 长沙 61.1 10 10 苏州 77.8 22 南昌 61.1 10 10 宁波 77.8 22 呼和浩特 61.1 10 10 无锡 77.8 22 昆明 61.1 10 10 合肥 77.8 29 青岛 55.6 10 10 兰州 77.8 30 郑州 44.4 数据要素市场发展指数 Data Factor Market Development Index 16 4.2 数据要素供给 表 7 30 城市数据要素供给水平排名及分数 数据要素供给的主要影响因素是数字经济发展水平。上海数字经济发展领跑全国,加之近年来长三角推动建设科技创新共同体,提出在长三角加强国科平台、各省市相关平台的数据共享,极大丰富了公共数据的供给。广东省的企业数据、公共数据供给丰富,拉动了以广州、深圳为核心的珠三角地区的数据供给水平。截至 2023 年 4 月,广东省向社会开放 57138 个数据集,累计开放超过 10.66 亿条政府数据。同时,广东省也是 GDP 大省,丰厚的经济基础也为数据供给提供了肥沃土壤。排名 排名 城市 城市 数据供给得分 数据供给得分 排名 排名 城市 城市 数据供给得分 数据供给得分 1 1 上海 90.9 16 天津 60.6 2 2 深圳 87.9 16 无锡 60.6 2 2 广州 87.9 16 重庆 60.6 4 4 北京 81.8 16 福州 60.6 4 4 珠海 81.8 16 长沙 60.6 6 6 汕头 78.8 21 厦门 57.6 6 6 宁波 78.8 22 济南 48.5 8 8 杭州 75.8 22 南昌 48.5 9 9 武汉 72.7 22 青岛 48.5 9 9 南京 72.7 25 海口 45.5 9 9 苏州 72.7 25 大连 45.5 12 12 成都 69.7 27 郑州 39.4 13 13 合肥 66.7 28 兰州 36.4 14 14 贵阳 63.6 28 呼和浩特 36.4 1414 南宁 63.6 30 昆明 27.3 数据要素市场发展指数 Data Factor Market Development Index 17 4.3 数据要素流通 表 8 30 城市数据要素流通水平排名及分数 公共数据授权运营的不断探索,推动了数据流通的活跃。北京、上海、广东等地纷纷制定公共数据授权运营基本规则,加速推动落地实践。北京建设运营公共数据金融专区,金融领域的数据流通得到极大活跃,数据支撑金融服务已形成成熟应用场景;上海授权开展公共数据运营业务,推动以公共数据为牵引,加快实现公共数据、行业数据、社会数据资源的整合布局。此外,数据流通与交易的发展离不开各地交易所、交易机构的推动。上海数据交易所积极引导各类数据供需方参与数据交易,积极构建数商生态。利用大湾区优势,深圳数据交易所以深港数据交易合作机制为抓手,积极推动数据跨境流通交易。排名 排名 城市 城市 数据流通得分 数据流通得分 排名 排名 城市 城市 数据流通得分 数据流通得分 1 1 上海 96.3 16 济南 59.3 2 2 广州 92.6 16 郑州 59.3 3 3 深圳 88.9 18 无锡 55.6 3 3 珠海 88.9 18 重庆 55.6 5 5 北京 85.2 18 海口 55.6 5 5 杭州 85.2 21 合肥 51.9 7 7 汕头 77.8 22 厦门 48.1 7 7 苏州 77.8 22 兰州 48.1 7 7 贵阳 77.8 22 昆明 48.1 10 10 天津 70.4 25 武汉 44.4 11 11 宁波 66.7 26 长沙 40.7 11 11 青岛 66.7 27 南昌 37.0 13 13 南京 63.0 27 大连 37.0 13 13 成都 63.0 29 福州 29.6 13 13 南宁 63.0 30 呼和浩特 18.5 数据要素市场发展指数 Data Factor Market Development Index 18 4.4 数据要素保障 表 9 30 城市数据要素保障体系水平排名及分数 数据要素保障体系主要与本地是否有交易所或交易机构、以及各个城市的科研资源相关。以高校资源为依托,由各地交易所、数据类企业牵头或参与,已成为推动数据要素市场理论演进、构建保障体系的典型模式。以上海为例,上海数据交易中心牵头承接大数据流通与交易技术国家工程实验室,协同浪潮软件、中国联通等企业,依托复旦大学等优质高校科研资源,在数据流通、数据资产等前沿问题上不断构建理论体系,为市场提供指引。因此,本地有交易所或交易机构、有优质的科研高校资源的上海、深圳、北京三地,在数据要素保障方面有显著优势。5.结语 积极推进数据要素市场建设已成为各城市促进数字经济发展的共识。虽然当前数据要素市场还处于发展初期,存在诸多待解难题和挑战,但是未来随着企业理论贡献与实践创新、政府政策支持与规划引导,将逐渐形成破局之道,推动数据要素产业动能全面释放。排名 排名 城市 城市 数据保障得分 数据保障得分 排名 排名 城市 城市 数据保障得分 数据保障得分 1 1 上海 100.0 11 合肥 79.2 2 2 深圳 91.7 11 福州 79.2 2 2 北京 91.7 18 珠海 70.8 2 2 南京 91.7 18 青岛 70.8 2 2 武汉 91.7 18 济南 70.8 6 6 杭州 87.5 18 郑州 70.8 6 6 苏州 87.5 18 兰州 70.8 6 6 宁波 87.5 23 厦门 66.7 9 9 天津 83.3 23 长沙 66.7 9 9 无锡 83.3 23 呼和浩特 66.7 11 11 广州 79.2 26 汕头 54.2 11 11 贵阳 79.2 27 海口 50.0 11 11 成都 79.2 28 大连 45.8 11 11 南宁 79.2 29 南昌 37.5 11 11 重庆 79.2 30 昆明 33.3 数据要素市场发展指数 Data Factor Market Development Index 19、数据要素市场景指数 1.编制案 数据要素市场景气指数旨在度量和评估数据要素市场的整体景气状况。通过对企业内从事数据交易相关业务的主管人员进行问卷调查,景气指数不仅可以揭示整个数据要素市场的发展趋势,还能够洞察市场的机遇、风险和潜在挑战。这为企业、投资者和政府提供了更为客观和全面的决策基础,为相关市场主体把握数据要素景气状况服务。编制组采用对企业内从事数据交易相关主管人员进行问卷调查的方式来评估数据要素市场的景气情况。问卷调查的内容包括但不限于:1.企业基本情况(包括企业名称、联系电话、详细地址)等。2.与数据交易相关的业务量、从业人员、价格、利润、研发投入等情况的判断和预测。3.企业数据交易从业难点与相关建议。景气指数的编制依据 2 构建 8 个分类指数,分别为:业务活动指数:企业参与数据交易业务总量季度变化指标。新订单指数:企业数据产品新订单季度变化指标。在手订单指数:企业尚未完成的数据产品订单季度变化指标。产品价格指数:企业主要数据产品销售平均价格季度变化指标。从业人员指数:企业从事数据交易业务人员数量季度变化指标。营业利润指数:企业从事数据交易业务获得利润季度变化指标。业务预期指数:企业对下一季度数据交易业务情况的判断指标。产品研发指数:企业对数据产品的研发投入季度变化指标。针对这 8 个分类指数,采用五分量表问卷法,让被调对象在(1)明显增加/上升、(2)有所增加/上升、(3)基本不变、(4)有所减少/下降、(5)明显减少/下降,进行选择。详细的问卷设计请参考附录部分。?.?景指数计算法 数据要素市场景气指数采用扩散指数法编制。针对上述每个问题,赋予各选项不同权重(明显增加/上升选项为 1,有所增加/上升选项为 0.5,基本不变为 0,有所减少/下降选项为-0.5,明显减少/下降选项为-1),将各选项的占比与权重相乘,进行系数调整后,得出该指标的指数。具体的计算过程如下:分类指数计算:!=() 0.5)#0.5)$)%)0 1 其中!为第2个分类指数的取值,)为该单项回答明显增加(明显上升)的比重,)#为回答有所增加(有所上升)的比重,)$为回答有所减少(有所下降)的比重,)%为回答明显减少(明显下降)的比重。0、1为标准化系数,将景气指数范围由1,1变换为1 0,1 0,荣枯线为1(以采购经理人指数PMI 为例,其0=50、1=50,变动范围为0,100,荣枯线为 50),这里取0=50、1=50,因此景气指数取值范围 0-100,荣枯线为 50。数据要素市场发展指数 Data Factor Market Development Index 20?.?景指数样本选择法 我们采用PPS 抽样调查方法。PPS 通常根据总体单元的规模大小确定其入样概率,限于数据可得性,这里使用企业的参保人员数量作为企业规模的度量。PPS 作为典型的不等概率抽样,可以减少抽样误差,使样本更具有代表性,能够实事求是地反映数据要素市场的总体情况。?.?景指数解读 景气指数取值0-100,荣枯线为50,当景气指数取值高于50 时,表明当前季度数据要素市场处于景气状态,且数值越大越景气。低于 50 则说明市场萧条,取值越低表明市场越不景气。?.?景指数更新和调整 方案建议根据指数编制的不同阶段,阶梯型优化运营机制,并同步进行指数样本调整。伴随指数编制工作逐步成熟运行,数据要素市场景气指数将每年对相关企业进行跟踪筛选,基于前述样本选取方法筛选、更新合适指数的样本企业,并适当考虑扩充样本数量以提高指数的整体覆盖范围。同时,我们的前期研究表明,数据要素市场具有明显的季节性。年初与年底的交易规模有显著差别,由春节假期导致数据交易环比走弱的效应尤其明显。因此,只有将季节效应剔除,得到的最终指数才能真正反映数据要素市场的真实景气水平1。2.数据要素市场景状况(2023 第 3 季度)根据 2023 年第 3 季度的统计数据显示:业务活动指数为 50.87%,其中 36.99%的企业认为本季的业务总量比上季度“有所增加”,34.68%认为“基本不变”,23.12%认为“所有减少”,5.20%认为“明显减少”。新订单指数为 47.11%,其中 4.62%的企业认为本季度的数据产品新订单比上季度“明显增加”,31.21%认为“有所增加”,24.86%认为“基本不变”,26.59%认为“有所减少”,12.72%认为“明显减少”。在手订单指数为 50.43%,其中 9.83%的企业认为本季度目前尚未完成的数据产品订单比上季度“明显增加”,24.86%认为“有所增加”,32.95%认为“基本不变”,21.97%认为“有所减少”,10.40%认为“明显减少”。产品价格指数为 51.73%,其中 10.40%的企业认为本季度主要数据产品销售平均价格比上季度“明显上升”,27.75%认为“有所上升”,30.64%认为“基本不变”,20.81%认为“有所下降”,10.41%认为“明显下降”。从业人员指数为 50.04%,其中 9.24%的企业认为本季度从事数据交易业务的人员数量比上季度“明显增加”,26.00%认为“有所增加”,32.37%认为“基本不变”,20.23%认为“有所减少”,12.04%认为“明显减少”。营业利润指数为 49.42%,其中 8.09%的企业认为本季度从数据交易中获得的营业利润比上季度“明显增加”,29.48%认为“有所增加”,26.59%认为“基本不变”,23.70%认为“有所减少”,12.14%认为“明显减少”。业务预期指数为 50.58%,其中 8.09%的企业认为下个季度的数据交易活动整体水平会“明显上升”,26.01%认为“有所上升”,33.53%认为“基本不变”,24.86%认为“有所下降”,7.51%认为“明显下降”。产品研发指数为 48.99%,其中 6.94%的企业认为本季度对数据产品研发的投入比上季度“明显上升”,27.75%认为“有所上升”,31.79%认为“基本不变”,21.39%认为“有所下降”,12.14%认为“明显下降”。1 前发布的数据要素市场景指数未经季节调整。数据要素市场发展指数 Data Factor Market Development Index 21 上面 8 个分类指数中,最有代表性的是“业务活动指数”,它整体反映了数据要素型企业参与数据交易相关的业务总量变化情况。因此可以断定,2023 年第 3 季度数据要素市场整体处于景气区间。表 1 与图 1 具体展示了业务活动、新订单、在手订单、产品价格、从业人员、营业利润、业务预期、产品研发 8 个分类指数的取值情况。表 10 数据要素市场景气指数表(单位:%)业务活动指数 新订单指数 在手订单指数 产品价格指数 从业人员指数 营业利润指数 业务预期指数 产品研发指数 2023.Q3 50.87 47.11 50.43 51.73 50.04 49.42 50.58 48.99 图 3 2023Q3 数据要素市场景气指数 50.8747.1150.4351.7350.0449.4250.5848.9846474849505152业务活动指数新订单指数在手订单指数产品价格指数从业人员指数营业利润指数业务预期指数产品研发指数数据要素市场发展指数 Data Factor Market Development Index 22 附录:问卷调查表 问卷调查表 1:企业基本情况表 问卷调查表 1:企业基本情况表 01 单位详细名称 02 组织机构代码 03 单位所在地区及详细地址 省(自治区、直辖市)市(地、州、盟)请于下列各选项 中打“”04 是否有数据交易业务 是 否 05 是否为上市公司 是 否 06 登记注册类型 国有 与港澳台商合资经营 中外合资经营 集体 与港澳台商合作经营 中外合作经营 股份合作 港澳台独资 外资企业 国有联营 港澳台商投资股份有限公司 外商投资股份有限公司 集体联营 其他港澳台投资 其他外商投资 国有与集体联营 其他联营 国有独资公司 07 是否有数据交易业务 是 否 08 是否为上市公司 是 否 09 单位规模 大型 中型 小型 微型 10 行业代码 11 从业人员期末人数 人 12 主要经济指标(不保留小数位)上年末营业收入 万元 上年末贷款余额 万元 上年末资产总计 万元 13 主要业务活动(或主要产品,填写营业收入)数据要素市场发展指数 Data Factor Market Development Index 23 问卷调查表 2:数据业务问卷调查表,调查对象为数据业务部门主管级以上人员问卷调查表 2:数据业务问卷调查表,调查对象为数据业务部门主管级以上人员 统一社会信用代码 组织机构代码-单位详细名称:20 年 月 01、业务总量:贵企业完成的数据交易业务总量比上季度 明显增加 有所增加 基本不变 有所减少 明显减少 02、新订单(客户需求):贵企业的数据产品新订单(业务需求量)比上季度(不考虑完成)明显增加 有所增加 基本不变 有所减少 明显减少 03、未完成订单(业务):贵企业目前尚未完成的数据产品订单(业务)比上季度 明显增加 有所增加 基本不变 有所减少 明显减少 04、收费价格:贵企业目前的主要数据产品销售平均价格水平比上季度 明显上升 有所上升 基本不变 有所下降 明显下降 05、从业人员:贵企业目前从事数据交易业务的人员数量(含在岗职工、劳动派遣人员及其他从业人员)比上季度 明显增加 有所增加 基本不变 有所减少 明显减少 06、营业利润:贵企业本季度从数据交易中获得的营业利润比上季度 明显增加 有所增加 基本不变 有所减少 明显减少 07、业务活动预期:您对贵企业下个季度数据交易活动整体水平的判断和预测 明显上升 有所上升 基本不变 有所下降 明显下降 08、数据产品研发:贵企业本季度对数据产品研发的投入比上季度 明显上升 有所上升 基本不变 有所下降 明显下降 09、竞争能力:贵企业本季度在同行业的竞争能力比上季度 明显提升 有所提升 基本不变 有所下降 明显下降 10、贵企业数据交易业务占全部业务的比重为:80%-100P%-800%-50%-30%不足 10、贵企业交易的数据产品主要赋能于哪些行业?(可多选)金融 医疗 交运 零售 贸易 制造 互联网 农业 高校与研究机构 其他(请具体说明)12、贵企业目前在数据交易业务中遇到的主要问题或困难是什么?(可多选)合规成本高 交易程序复杂 数据产品价格确定困难 缺乏优质数据源 拓客难度大 相关人才缺失 其他(请具体说明)13、您对本行业或企业发展如何评价?有何建议?填表人姓名:职务:电话:报出日期:20 年 月 日 说明:1.本表由被调研企业主管运营的负责人、数据业务部门或采购经理填报。2.本表为季度报表,报送时间为每年 1、4、7、10 月的第 3-5 工作日填写。3.选项的界限:对“基本不变”选项的界限由企业填表人根据经验进行选择判断。
拥抱未来!数据库技术的最新发展与创新趋势章颖强(江疑)阿里云数据库资深技术专家个人简介章颖强,花名江疑。阿里云资深技术专家(P9),PolarDB事务引擎和新架构研发负责人。q 浙江大学本科、研究生,十年以上的数据库研发经验,AliSQL的创始研发之一。q 14-18年阿里双十一数据库内核负责人,主导集团数据库架构从MySQL演进到基于Paxos的X-DB架构。q 目前负责阿里云主营战略产品PolarDB的内核研发和架构演进,并担任ICDE 等数据库顶级国际会议的程序委员。同时多个技术架构突破在 SIGMOD/VLDB/ASPLOS 等顶会发表。Outlines 传统数据库架构和云的本质 云原生数据库的最新发展 新一代云原生数据库的趋势传统数据库架构MemoryCPUDatabaseStoragePhysical MachinePhysical MachineVMVMVMMemoryCPUDatabaseStorageMemoryCPUDatabaseStorageMemoryCPUDatabaseStorage传统IT架构下的传统数据库云架构下的传统数据库传统数据库架构Physical MachineVMVMVMMEMCPUDatabaseStoragePhysical MachineVMVMVMMEMCPUDatabaseStorage 多种资源规格耦合 弹性困难云的本质和云原生数据库 Cloud computing is the on-demand availability of computer system resources,especially data storage(cloud storage)and computing power,without direct active management by the user.Cloud computing relies on sharing of resources to achieve coherence and economies of scale.For system builders,it is imperative to purposely optimize system design and implementation explicitly for the underlying cloud infrastructure to achieve the best elasticity,cost,and efficiency.These purpose-built cloud systems are called cloud-native systems.Ref:https:/en.wikipedia.org/wiki/Cloud_computinghttps:/www.cs.purdue.edu/homes/csjgwang/cloudb/云原生数据库 Storage DisaggregationMemoryCPUDatabaseStorageMemoryCPUDatabaseStorageData migration happenedwhen scaling upMemoryCPUDatabaseMemoryCPUShared StorageScale up withoutdata migrationDatabase On-demand storage Fast scale up for compute node Fast scale out for read replicaOutlines 传统数据库架构和云的本质 云原生数据库的最新发展 新一代云原生数据库的趋势云原生数据库架构 计算存储分离架构MemoryCPUDatabaseShared StorageMemoryCPUDatabaseMemoryCPUDatabaseRead-write nodeRead-only nodes Amazon Aurora(2014)Alibaba PolarDB(2017)Azure Hyperscale(2018)Tencent CynosDB(2019)Huawei TaurusDB(2020)阿里云数据库的历史和发展Gartner 2022 全球数据库魔力象限PolarDB阿里自研云原生数据库 17年国内首个云原生数据库 支持1写16读,最大100TB存储 软硬件一体化设计 高性能一致性协议阿里云数据库的历史和发展去IOE时代20092013AliSQL时代20132017PolarDB时代2017PolarDB在云数据库中的位置PolarDB的创新点 PolarFSPolarFS:An Ultra-low Latency and Failure Resilient Distributed File System for Shared Storage Cloud Database(VLDB 2018)OS-bypass and zero-copy -by RDMA ParallelRaftPolarDB的创新点 ParallelRaftPolarFS:An Ultra-low Latency and Failure Resilient Distributed File System for Shared Storage Cloud Database(VLDB 2018)Out-of-Order Ack/Commit/Apply Fast CatchupPolarDB的创新点 基于共享内存的一写多读TransactionB TreeBuffer PoolRedo LogServerInnoDBQueryBinlogTransactionB TreeBuffer PoolServerInnoDBQueryBinlogRedo ApplyPhysical ReplicationDataRedoRWROACL CacheSP CacheCacheQuery CacheTable StatsParser/Optimizer/ExcutorACL CacheSP CacheQuery CacheTable StatsParser/Optimizer/ExcutorCacheUpdate34568lwmhwm21118trx_idsACL CacheSP CacheQuery CacheTableStatistics1.B 树正确性2.事务 MVCC 隔离3.Server Cache 同步QueryPolarDB的创新点 库表级多写STOSTOSTOMEMMEMMEMRWRW全局ROScale OutRWRW 库表级多写库表级多写l支持不同库/表在不同RW节点并发写入l秒级横向扩展,极大提升整体的并发读写能力l多主互备,秒级切换,无需热备,成本降低一半l支持全局只读节点,高效执行汇聚库请求Scale UpPolarDB的创新点 无感Serverless基于热备技术秒级切换连接、事务跨机续传快速CPU 弹降无感BufferPool Resize高效的远程内存池支持 智能决策本地 ScaleUp跨机 ScaleUp集群维度高性能全局一致性热资源池秒级横向弹性跨机 ScaleOutPolarDB的创新点 IMCI大容量、更低成本的CXL内存可提供更多的数据缓存空间,进一步减少磁盘I/O列存节点支持多机并行执行,共享同一份数据,横向伸缩能力再度加强RWHTAP-RO MPP ClusterHybrid DataPolarProxyRow-indexSQL Parser/OptimizerRow-ExeColumn-ExeColumn-indexSQLCacheExedispatcherSQLCacheExedispatcherSQLCacheExedispatcherCXL mem clusterShared Column Index DatadatacmddatacmdScale In/OutScale In/Out更大数据量、更高性能TPCH-1TB单节点性能再提升10倍多机执行性能实现近线性加速比Outlines 传统数据库架构和云的本质 云原生数据库的最新发展 新一代云原生数据库的趋势云原生数据库的发展方向staticscaleelastic云原生数据库的发展方向 Memory Disaggregation The End of Slow Networks:Its Time for a Redesign,VLDB16.Accelerating Relational Databases by Leveraging Remote Memory and RDMA,SIGMOD16 Efficient Memory Disaggregation with Infiniswap,NSDI17 LegoOS:A Disseminated,Distributed OS for Hardware Resource Disaggregation,OSDI18 Best Paper Understanding the Effect of Data Center Resource Disaggregation on Production DBMSs,VLDB20新一代云原生数据库架构 PolarDB三层解耦基于高速RDMA的三层分离架构分布式共享存储分布式共享内存计算节点代理层主节点SQL事务本地BP分布式提交时间戳分布式缓存一致性分布式全局锁行存索引 Buffer Pool列存索引-IMCI行列索引同步RDMA networkChunkServerAbcPolarFS PolarStoreChunkServeraBcChunkServerabCParallel Raft主节点SQL事务本地BP主节点SQL事务本地BPRDMA networkPolarProxy分析节点Vectorized Execution EngineExpression Framework(SIMD)Table ScanSchedulerGroup ByAggregationHash JoinNested Loop JoinOtherOperatorSchedulerSchedulerScheduler新一代云原生数据库架构 行级多写 利用全局事务ID和提交时间戳确定事务提交序和可见性 利用多级别不同粒度的全局锁实现高效的跨节点的并发控制 通过Page锁实现跨节点缓存一致性 支持多个master节点的行级并发行级并发写入,突破单点写入瓶颈Buffer fusionMEMTRX fusionLock fusionMEMPolarFusion ServicesPROXYScale OutRWRWRWRWPolarStore行级并发写入PolarFusion 实现事务、锁、缓存信息全局协调 实现高速的跨节点的信息协调高度融合RDMA新一代云原生数据库架构 Polar4AI0500100015002000ResNet-50BERTEfficientNet-B7GPT-2GPT-3!#$%&%()* ,%&%-!#$%&数据加工模型评估模型训练模型部署数据清洗、特征计算模型选择、参数选择稳定、高效在线部署、离线推理模型和数据的交互涉及多个系统,越来越复杂通过扩展的通过扩展的AIAI SQLSQL和和AIAI节点,节点,PolarDBPolarDB支持支持大模型:阿里通义千问等大模型开箱即用MLOps:模型训练,模型推理,模型部署等操作NL2SQL:自然语言驱动的数据查询ID Mapping:便捷的实体对齐AIGC:模型产生数据与数据库数据互操作在Polar4AI覆盖场景下,能够:帮助用户节省50%以上的AI硬件成本,节约80%以上AI模型开发时间一个系统PolarDB一种语言SQLAIAI写在最后 工业和学术的GAPWhat are we doing with our lives?nobody cares about our concurrencycontrol research.Pavlo,Andy SIGMOD 2017 Keynote
1?|?2023?xxx?1?|?2023?xxx?&?2?|?2023?xxx?1 1.?.?4 4?2.2.?.?8 8?3.3.?.?1313?4.4.?.?1515?5.5.?.?2929?.?3232?.?3333?.?3434?.?3535?3?|?2023?xxx?4?|?2023?xxx?1 1.?研?研?研?研?研?模?纸?研?研?研?研?务?研?研?研?研?研?务?撑?撑?撰?研?撰?1?研?2?研?纸?研?3?研?模?4?研?研?研?研?研?确?研?务?研?务?研?务?研?务?务?研?研?研?务?研?研?研?研?纸?研?研?够?5?|?2023?xxx?1?研?送?务?研?研?研?研?6?|?2023?xxx?2022?4?2022?4?7?|?2023?xxx?8?|?2023?xxx?2.2.?2 2.1?2023.1?2023?1 1198198.5 5?2?2022-2026?研务?研?2023?研?1198.5?2025?研?2046?研?2022?12?研?研?研?2023?8?研?研?研?研?9?|?2023?xxx?2.22.2?8?研?研?2024?研?研?研?研?模?研?研?研?务?研?研?研?IT?/?研?研?研?研?研?撰?撰?研?研?务?研?研?研?DataOps?研?税?研?研?研?研?撰?研?研?务?覆?研?覆?研?务?务?研?研?研?研?研?务?研?研?确?研?务?研?务?研?研?务?研?研?研?10?|?2023?xxx?3?研?11?|?2023?xxx?2.32.3?研?务?研?研?研?研?研?研?纸?研?研?研?研?研?研?研?研?研?研?研?研?研?告?研?模?纸? IoT?研?研?研?研?4?研?12?|?2023?xxx?13?|?2023?xxx?3.3.?14?|?2023?xxx?15?|?2023?xxx?4.4.?4.14.1?研?研?研?研?研?研?研?研?研?研?研?研?研?研?研?研?纸?研?研?研?研?研?研?撰?研?务?研?研?撰?研?研?研?研?税?研?匹?撰?研?研?研?研?研?研?研?研?研?研?研?研?研?撰?研?研?撰?研?研?研?研?研?研?研?纸?研?研务?16?|?2023?xxx?研?5?研?研?研?研?研?研?模?研?研?纸?研?研?研?研?研?研?研?研?研?研?模?研?研?匹?研?研?NLP?研?研?研?研?研?研?研?研?包?研?研?模?研?研?研?研?研?撰?研?研?研?纸?17?|?2023?xxx?研?研?研?研?研?名?研?研?研?研?研?研?务?纸?研?研?研?研?研?研?6?研?1.?研?2.?2022?研?5?3.?2022?研?1000?18?|?2023?xxx?2006?研?研?研?纸?研?研?研?研?研?研?研?研?AnyFabric?DataFabric?AI?研?务?研?研?研?研?研?研?研?空?研?研?务?研?AnyFabric?Exchange?研?研?AnyDATA?AnyFabric?研?研?研?AnyFabric?Exchange?研?务?研?研?研?研 api?研?研?研?研?研?研?研?研?研?19?|?2023?xxx?研?研?研?研?研?务?研?研?研?研?研?研?研?AnyFabric?研?务?研?研?AnyDATA?空?撰?纸?AnyDATA?社?空?社?研?研?务?撰?研?模?研?研?模?研?研?研?务?研?务?名?研?够?研?研?务?研?研?务?研?研?尽?研?尽?26?研?研?务?研?务?务?20?|?2023?xxx?4.24.2?研?研?研?研?API?Web?研?研?匹?研?IT?研?研?研?务?研?撰?务?研?研?税?研?研务?撰?匹?研?告?研?纸?研?研?研?研?7?研?务?研?务?研?务?21?|?2023?xxx?撰?研?告?研?研?纸?研?研?研?研?研?研?税?研?研?研?研?研务?研?研?研模?撰?研?研?研?研?研?研?研?研?研?研?务?研?研?研?研?纸?研?研?研?尽?研?研务?研?税?研?研?研?研?研?研?研?研?NLP?研?研?研?研?研?研?研?研?研?研?研?纸?研?模?模?研?务?22?|?2023?xxx?研?研?研?8?研?研?2022?研?20?2022?研?500?23?|?2023?xxx?尽?1993?务?社?研?NLP?研?研?研?2010?研?务?SaaS?研?研?研?纸?研?撰? ?撰?撰?研务?税?研?空?空?研?撰?研?研?研?研?研?研?研?24?|?2023?xxx?研?2000?3?30?研?研?165?撰?研?研?匹?研?研?研?研?研?研?研?撰?研?研?研?研?研?TRS?研?研?研?务?研?NLP?模?研?研?撰?研?研?研?模?匹?OCR?研?研?务?研?SAASSAAS?DAASDAAS?KAASKAAS?MAASMAAS?撰?研?撰?研?撰?研?撰?研?研?研?SAAS?DAAS?研?KAAS?研?研?告?MAAS?研?研?务?务?25?|?2023?xxx?务?务?26?|?2023?xxx?尽?2015?尽?送?研?研?研?研?尽?撰?API?Web?研?研?研?确?研?研?研?研?AI?研?研?研?研?研?研?研?尽?撰?10000?研?研?研?纸?27?|?2023?xxx?研?模?研?研?模?研?研?研?研?研?NLP?AI?务?务?研?研?研?研?研?研?研?研?研?纸?研?确?研?研?模?模?研?研?研?务?研?研?研?研?务?研?研?研?空?撰?28?|?2023?xxx?29?|?2023?xxx?5.5.?30?|?2023?xxx?31?|?2023?xxx?32?|?2023?xxx?l?务?够?研?税?l?l?研?33?|?2023?xxx?务?够?10?撰?34?|?2023?xxx?workshop?纸/?135-2162-2835?35?|?2023?xxx?务?撑?撑?告?模?务?尽 2023?36?|?2023?xxx?37?|?2023?xxx?
数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 版权声明 本报告版权属上海数据交易所有限公司所有,并受法律保护。转载、编撰或其他方式使用本报告文字或观点,应注明来源数据资产入表及估值实践与操作指南。违反上述声明者,将追究其相关法律责任。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 1 编写组(排名不分先后)赵丽芳、刘小钰、林、吕正英、蓉、刘峰、王晨、钟英才、蒋骁、明、谢佳妮、郭韵瑆、谢刚凯、李业强、郝坤鹏 编写单位(排名不分先后)上海数据交易所有限公司、复旦学、厦学、上海国家会计学院、证资产评估有限公司、东洲资产评估有限公司、信会计师事务所、天职国际会计师事务所、天健会计师事务所、中联资产评估有限公司 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 录 Contents 报告要点.?第部分 数据资产化路径.?.前.?.数据要素理论.?.数据资产化路径.?第部分 数据资产表实践.?.数据资产表理论成果.?.数据资产表案例研究.?.数据资产表小结.?第三部分 数据资产估值操作.?.数据资产评估基础理论.?.数据资产评估法.?.数据资产估值案例研究.?.数据资产估值小结.?第四部分 附录.?.附录:企业数据资源相关会计处理暂规定.?.附录:数据资产评估指导意.?.附录三:企业数据资源表会计处理例.?参考献.?数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 1 报告要点 上海数据交易所紧密围绕“数据二十条”关于“探索数据资产入表新模式”的政策精神,以有效提升财政部颁布的企业数据资源相关会计处理暂行规定(简称暂行规定)执行效果为目标,开展了企业数据资产入表和估值相关的理论和实践研究,并结合场内交易实践探索数据资产市场价值体系构建等多项工作。本指南由上海数据交易所组建专业的研究团队,遴选一批有代表性的企业,以真实的财务数据和业务数据为基础进行数据资产入表模拟和价值估测,提炼形成数据资产入表及估值的理论和实践方法。通过多个企业案例研究发现,企业对数据资产认知有限、对数据资产形成路径理解不足、数据资产会计处理存在困难、企业数据资产披露规范和机制不明确、专业服务机构对数据资产认识和理解不足等是目前推进企业数据资产入表和估值的最大挑战。为了应对这些挑战,本报告将从数据要素、数据资产等基础概念的分析开始,以企业数据产品赋能实体经济的具体应用场景为基础,以企业数据资源开发利用形成数据资产的路径为核心,探讨企业数据资产入表和估值的实践与操作。本指南的主要成果可以概括为以下几点:1.本报告通过深入研究案例企业数字化转型和数据产品运营的商业模式,以“战略规划 运营管理”的思路重新设计企业数据资源到数据资产的形成路径,优化企业数据产品运营管理模式,深入探讨数据资产入表过程中成本归集难、摊销年限确定难等十大关键性难题,并提出一些可行的处理办法。在此基础上,本指南将为暂行规定自愿披露部分形成详细的披露指引。2.数据资产入表的十大难题及处理办法为:成本归集难的原因在于企业组织架构和数据产品开发条线匹配度较低,企业首先需要科学规划业务流程来应对,从数据采集、清洗、建模、存储、销售一系列生产经营活动的高效管理做起;收入与成本匹配难的核心原因在于数据产品销售模式和研发模式不协调,企业需要重新调整数据产品销售模式和定价方式来应对;数据资产资本化标准确认难的原因是企业研究和开发数据产品的时间点判断不确定,建议企业应该重新调整产品立项和管理流程;公共数据授权期限确认难针对企业与公共部门联合运营的场景,建议企业跟有关部门洽谈授权合约时充分考虑自身商业模式和渠道管理能力;数据研发和使用场景差异过大导致资产确认条件满足难针对部分金融日频数据的使用的场景,建议企业认真分析高频数据使用场景是否符合资产确认条件,秉承不高估资产的准则,对不符合的部分可能只能列入主营业务成本;数据资产摊销方法选择难,建议企业合理评价自身的业务场景,选择合适的方法并一致运用于会计期间;摊销年限确认难的核心痛点在于数据产品使用时效性导致企业也很难判断该产品的使用寿命,建议企业提高数据产品管理能力,加强对市场和业务模式的研究并合理判断数据资产的摊销年限;数据资产税会政策差异应对难的核心在于税法对于数据资产摊销年限的要求和会计准则不一致,建议企业合理选择摊销年限并对认真分析税会差异,并形成一些可行建议;数据资产时效性强导致部分资产可能存在即时失效的可能,从而导致数据资产报表规模波动较大,企业应该审慎确认数据资产并提高数据资产全生命周期的管理能力;数据资产在集团层面的会计核算难的核心在于集团公司和子公司特殊的关系,建议集团建立和完善数据资源相关的成本核算。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 2 3.对于企业数据资产信息披露,本报告根据暂行规定自愿披露的内容指引,结合案例研究的成果进一步形成了企业相关数据资源的披露细则和展示方式,通过详细分析自愿披露指引性文件中每一条可以包含的具体信息,为企业形成披露规范模板,有助于引导企业数据资源披露机制和未来披露规范形成,也有助于企业信息披露实践操作。企业可以参考本指南列报与披露细则部分来推进数据资产的披露。4.企业数据资产评估的核心难点在于资产权属的确认以及评估方法选择的依据,为了应对这些挑战,本报告提出数据要素价值链模型,并基于此推出基于数据资源分类分级、数据产品生命周期、数据资产经济行为的数据资产评估方法的选择逻辑,为企业和资产评估机构选择合理的估值方法提供可靠依据。5.本指南在企业数据资产形成、列报、披露等一系列实践操作研究成果的基础上,进一步探讨了数据资产入表与数据资产创新应用的关系。数据资产估值是数据要素交易与流通价值释放的基础。从更长远的角度来看,数据要素市场的发展将推动数据资产创新应用的新局面,也就是说,进入企业资产负债表的数据资产,将像其他类型的资产一样,以其质量、公信力、收益预期作为偿付基准来发行证券产品。目前,数据资产的市场法还没有形成统一的衡量指标,也没有足够多的可比案例支持市场法评估。但目前国际上已经有多起以数据资产作为核心标的的并购案例,国内也开始探索数据资产计价入股、融资和出资相关金融业务模式,各地数据交易所也挂牌了很多数据产品,这些将成为数据资产市场法估值的基础支撑。数据资产创新应用的方向包括:数据资产增信、转让、出资、质押融资、保理、信托、保险、资产证券化等,这些场景一般都需要主体提供标的资产预期现金流测算结果或者资产评估报告等。本报告可以成为企业数据资产入表和估值的实践操作指南。本报告不仅有助于规范企业数据资产的会计处理、信息列报与披露,还为数据资产的形成路径以及相关管理制度的构建提供了支撑。随着大众对数据要素的认知提升,企业也会逐渐开始形成一定规模和体量的数据资产,国家数字经济的具象化和报表化程度会逐步提升。数据资产入表和估值应该服务于国家数据要素市场战略,积极推动数字经济的发展。从我国建设与繁荣数据要素市场的角度出发,数据资产入表应该从鼓励披露、加强排摸开始,通过企业实践和案例研究相结合的方式,形成入表一般路径,并通过强化数据交易所基础设施功能,提高数据资产入表的效率,提升数据资产管理工作的效率。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 3 第部分 数据资产化路径 1.前 1.1 数据与数据资源 2023 年 10 月 25 日,国家数据局正式揭牌。根据党和国家机构改革方案,国家数据局负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用,统筹推进数字中国、数字经济、数字社会规划和建设等,由国家发展和改革委员会管理。显然,数字经济正成为重组全球要素资源、重塑全球经济结构、改变全球竞争格局的关键力量。而数据则是数字经济发展的核心要素和“石油”(Nolin,2020),对推动技术和商业创新有积极作用,是现代新兴权利客体(申卫星,2020)。2019 年,党的十九届四中全会首次将数据与劳动、资本、土地、知识、技术和管理并列作为重要的生产要素,“反映了随着经济活动数字化转型加快,数据对提高生产效率的乘数作用凸显,成为最具时代特征新生产要素的重要变化”。2021 年 3 月,中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要中将“加快数字化发展,建设数字中国”作为国家战略发展目标、政府工作重点及人民的行动纲领,充分发挥海量数据和丰富应用场景优势,促进数字技术与实体经济深度融合,赋能传统产业转型升级,催生新产业新业态新模式,壮大经济发展新引擎,发挥数据在产业发展中重要作用。据国家工业信息安全发展研究中心统计,2021 年我国数据要素市场规模达 815 亿元,这一规模预计在“十四五”期间的复合增速将超过 25%。数据(data)是以电子或其他方式对信息的记录,在计算机系统中,数据是以二进制编码序列显示的信息。数据的价值本质就是其所蕴含的信息,而信息是一种在认知层面降低未来不确定性的重要经济资源(Farboodi and Veldkamp,2021;Stigler,1961)。作为经济活动副产品的数据如不经由劳动收集整理,难以作为决策分析的投入品创造价值,因此“数据资源”(data resources)概念是一种价值判断,指经由加工后能够在现时或未来带来经济价值的数据。党的十九届四中全会在明确提出将数据作为一种新型的生产要素的同时,要求健全数据要素由市场评价贡献、按贡献决定报酬的机制,这是一项重大的理论创新。中央全面深化改革委员会第二十六次会议审议通过中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见(简称“数据二十条”),指出要以促进数据合规高效流通使用、赋能实体经济为主线,以数据产权、流通交易、收益分配、安全治理为重点,有序培育资产评估、风险评估等第三方专业服务机构,提升数据流通和交易全流程服务能力,并在其中重点提及探索数据资产入表新模式,标志着我国开始摸索企业数据实现资产化的具体路径,同时探索企业数据资产在财务报表中进行确认、计量和披露的具体方式。2023 年 8 月,财政部会计司正式发布企业数据资源相关会计处理暂行规定(简称暂行规定),为企业数据资产“入表”提供了操作指引,标志着我国数据资产入表完成了 0 到 1 的关键一步,数据资产入表已从原先“箭在弦上”转为“势在必行”。“入表”是“会计核算”的通俗称法,指通过确认、计量、记录和报告等环节,对满足资产确认条件的数据资源进行记录,以满足内外部决策者所需的会计信息。9 月,中国资产评估数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 4 协会正式印发了数据资产评估指导意见(简称意见),以规范数据资产评估执业行为。“入表”是“会计核算”的通俗称法,指通过确认、计量、记录和报告等环节,对满足资产确认条件的数据资源进行记录,以满足内外部决策者所需的会计信息。而“价值评估”在规范准则、服务场景、价值形态等方面都与“会计核算”有所区别。会计核算遵循财政部发布的暂行规定,在初始计量时记录资产的成本作为账面价值;价值评估主要依据中国资产评估协会发布的资产评估准则,服务于企业融资、出资入股、并购重组、破产清算等多样商业场景中的多种经济活动,所选取的价值类型视评估目的而定。随着企业数据资产化理论与实践的推进,基于全国大统一数据要素交易与流通市场的数据资产应用场景也将越来越丰富,无论是银行增信、质押等非标准化服务,还是数据信托、数据保险等标准化产品,都需要依赖于数据资产评估结果。一言以蔽之,数据资产评估技术方法研究及准则制定将是数字经济发展的必然要求,也是数据资产评估相关工作的重要参考。明确数据要素、数据资产的概念和定义边界,识别数据资产的权利和权属特征,确定数据资产的价值和评估路径,作为探索数据资产评估的重要步骤,也是学术界和企业界未来需要持续研究和探讨的课题。本报告将从数据的基本概念、数据如何成为一种生产要素的理论内涵开始,通过论述数据要素化的实践路径,展开讨论数据资产入表与评估相关的理论、方法等等。表 1 数据要素重要政策时间节点与要点梳理 时间 政策名称 内容要点 2019.10.28 中国共产党第十九届中央委员会第四次全体会议公报 首次将数据纳入生产要素 2019.11.26 审议;2020.04.09 颁布 关于构建更加完善的要素市场化配置体制机制的意见 首次提出培育数据要素市场 2021.03.13 中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要 提出建立健全数据要素市场规则 2021.11.30 工业和信息化部“十四五”大数据产业发展规划 推动建立市场定价、政府监管的数据要素机制 2021.12.21 成文;2022.01.06 发布 国务院办公厅以国办发202151 号印发通知公布要素市场化配置综合改革试点总体方案 要求探索建立数据要素流通规则 2022.01.12 国务院“十四五”数字经济发展规划 鼓励市场主体探索数据资产定价机制 2022.03.25 中共中央 国务院关于加快建设全国统一大市场的意见 要求加快培育统一的技术和数据市场 2022.06.22 中央全面深化改革委员会第二十六次会议审议通过关于构建数据基础制度更好发挥数据要素作用的意见 创新数据产权观念,淡化所有权、强调使用权,提出“三权分置”的数据产权制度 2022.12.01 关于征求企业数据资源相关会计处理暂行规定(征求意见稿)意见的函财办会202242 号 数据资源会计计量办法指引 2023.08.21 财政部发布企业数据资源相关会计处理暂行规定 正式推进企业数据资源入表 资料来源:上海数据交易所根据公开资料搜集 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 5 2.数据要素理论 2.1 数据产要素 我国是国际上率先提出将数据作为一种生产要素的国家,这是一项基于经济运行原理和企业实践的重大理论创新。在经济学中,生产要素(production factor)是指包括人、物及其结合因素在内的,社会生产经营活动所需要的各种社会资源,是维系国民经济运行及市场主体生产经营必须具备的基本因素。生产要素的判断标准有:与其他生产要素结合时能增加产出、有要素价格、供给来源、需求来源与成体系的要素市场,一般情况下,该生产要素满足边际效用递减的规律。数据要素的全称是数据生产要素,有两方面的含义,一方面是数据作为生产要素参与企业生产经营活动并发挥重要作用,另一方面是这部分数据应该满足经济学中生产要素的判断标准。简而言之,数据要素与其他生产要素结合时能够帮助企业增加产出。数据作为生产要素,反映了随着数字化转型加速发展,数据对提高生产效率起到乘数的凸显作用,是具有时代特征的新型生产要素。数据作为关键生产要素,其乘数效应的发挥离不开数据要素保有量的丰富程度、数据要素市场的发展成熟度以及数据要素应用路径的清晰度。为什么数据能成为一种生产要素?本研究尝试回答这一问题,首先要从全球经济实践来观察。工业时代的供给规模经济的主要特征是企业依赖生产效率的提升来获得成本优势,进而形成规模经济的基础,也造就了一大批如福特汽车、巴斯夫、通用汽车等传统行业的龙头企业。而随着互联网技术的发展,很多平台型企业脱颖而出,他们利用技术的进步在需求侧取得了优势,进一步依赖网络效应、需求集聚和应用开发等提升网络价值,最终形成了目前全球可见的需求规模经济形态。而平台型企业之所以能打败传统管道型企业,主要原因还在于借助基于数据的工具创造了积极和正向的反馈回路。综合以上全球经济新实践,我们认为,数据驱动商业的三大变革体现在:数据 AI X 已经成为各行各业的典型模式,其中 X 指的是行业知识;各行各业开始涌现出不同种类的平台型企业,他们依赖于数据驱动,取代了传统寡头企业的地位;对于全球来说,数字经济的占比提升,技术颠覆行业格局逐渐形成。从数据要素的价值形成来看,与传统的土地、资本等的生产要素不同,数据要素不是以实物形式参与生产活动来创造价值,与技术类似,数据要素是以实物形式来提升其他要素的配置效率而间接创造价值。从资源化的过程来看,数据要素与其他要素也不一样,表现出复杂度高,原始积累和后期归集、治理等环节繁琐细致的特点,并且数据治理环节一般都有较强的技术和专业壁垒。从企业数据产品化的角度来看,数据要素的供需主体多元性高,参与主体包括各行各业的企事业单位、政府部门以及各类数商,需要各方共同完成数据要素的产品化。此外,数据要素作为流通标的物时,形态多样性更高、重塑性更强、可以基于不同应用场景和交付要求呈现出不同形态。数据要素参与实体经济运行的方式主要是通过计算方式在具体场景中帮助企业降低风险或者提高产出。企业通过对获得的数据资源进行创新性劳动或者实质性加工,最终形成数据产品对外提供服务或者支持内部使用场景。传统经济学的产品一般是指企业跟用户价值交换的媒介,数据产品是指以数据集、数据信息服务、数据应用等为可辨认形态的产品类型。数据产品是数据要素参与实体经济运行的重要载体。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 6 2.2 数据要素化的理论内涵 一般来说,市场配置生产要素是市场经济的本质特征,数据作为生产要素只有通过市场来配置才能够真正地让数据要素流通起来,更好地释放数据要素地价值,创造更大地经济效益。我国是最早探索数据要素化的国家之一。关于构建更加完善的要素市场化配置体制机制的意见就首次明确“数据”成为五大生产要素之一,之后国家更是密集出台了多项与数据要素相关的政策。完善的要素市场化配置是建设高标准市场体系的重要组成,2021 年 1 月中共中央办公厅、国务院办公厅印发了建设高标准市场体系行动方案提出要“推进要素资源高效配置”。从我国供给侧改革的实践经验中可知,要素市场流动性的改善和市场价格机制的成熟有助于促进经济结构调整、提高资源利用效率、改善资源错配现象等等。数据要素是一个名词,数据要素化是一个动词。所谓“要素化”,指的是使其对象成为生产要素。也就是说,数据要素化指的就是指要将数据变成一种新型生产要素,使其满足生产要素的判断条件,成为驱动企业生产经营活动的一种重要输入1。数据要素化一方面表达了国家对数据作为战略性资源的重视程度,另一方面也体现了我国要将数据按照生产要素的运作方式来运营的决心和态度。数据要素化是一个从量变到质变的过程,从数据的积累到实现数据要素化,对产业侧到行业侧的改变会是突飞猛进的。“只有数据动起来才有价值。”在第五届数字中国建设峰会数字城市分论坛上,中国科学院院士、中国计算机学会理事长梅宏认为,大数据时代,价值的发挥就是多元数据碰撞、融合、共享、流通。数据要素化的内涵是探讨数据资源如何赋能实体经济。数据要素市场化配置是指数据要素供需通过市场交易和流通的方式来实现,数据要素价格在价值决定基础上通过市场化的方式来发现。数据要素化配置的理论框架包含多个维度,比如数据要素、市场主体、流通载体、制度机制等。数据的特殊性使得其要素化之路比其他生产要素要更加复杂,本身具有天然的非竞争性和规模经济效应,如数据不能直接产生价值,必须经过算力和算法提炼才能够指导和调节社会生产与再生产过程;如企业的数据产品在导入期不需要耗费额外的劳动就能实现低成本、大规模复制,与传统产品呈现完全不一样的特征。目前,我国数据要素市场建设尚处于起步阶段,国家将数据提升为第五生产要素,意味着我国建设数据要素市场的步伐会显著加快,打通供需渠道,保障数据要素生产、分配、流通、消费各环节循环畅通,同步推进数据确权、定价、交易、流通等多项配套机制。在数据基础制度的框架之下,根据“数据二十条”的要求,我国推进数据要素市场建设的目标是构建全国统一的数据要素市场培育建设和健康运行,以数据要素流通国家标准体系作为基础,以国家层面和地方性法规规章和其他规范管理的制度体系作为保障,构建数据要素市场制度和标准体系。全国统一的多层次数据要素市场是指在全国范围内各交易机构对数据要素资源确权与登记、可交易数据产品挂牌、数据产品流通交易和交付等流通诸环节,按照统一的秩序和规则,将数据要素流通管理、交易服务规则和标准、技术平台、市场监管等相关的组织与技术系统有机地融合为一个整体,形成全国多层次要素市场的协同效力和整体效能,以实现可信的数据要素流通体系。1资料来源:国家数据局 梅宏:夯实数字经济发展的基础 https:/ 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 7 在多层次数据要素市场中,一般有四类建设主体:国家级数据交易所、地方数据交易中心、行业数据交易平台和企业交易机构。这些交易机构应该遵循一致的秩序和规则,确保体系的一致性。这包括建立一体化的业务规则和统一关键领域的标准。多层次数据要素市场的目标是建立可信的数据要素流通体系,增强数据的可用、可信、可流通和可追溯水平,并实现数据流通全过程动态管理,在合规流通使用中激活数据价值。2023 年10 月19 日,上海市政府印发上海市进一步推进新型基础设施建设行动方案(2023-2026 年)2,将重点领域进一步拓展为“新网络、新算力、新数据、新设施、新终端”五个方面。根据该方案,在上海数据交易所建设产品交易、资产凭证服务、交易合规监管等业务系统,为场内交易提供高效率、低成本、可信赖的流通环境;建设产业数据、政府采购、国际采购等交易板块,满足跨行业、跨区域数据产品流通交易需求,打造“上海交易、全球交付”新模式。上海支持创建国家级数据交易所,加快完善数据要素市场运行机制,基于区块链技术构建统一可互联的场内交易根架构,开发新一代数据交易平台,开展数据资产化路径探索。试点开展数据知识产权登记工作。上海数交所数据交易额不断攀升,2023 年 8 月单月交易额已超 1 亿元,预计 2023 年全年交易额突破10 亿元;目前,上海数据交易所数据产品挂牌数超 1600 个,涵盖金融、航运交通、国际等板块,依托上海数交所在合规、可信、效率和资产化方面发挥的重要作用,日益活跃的市场交易生态正逐步形成,将在全国数据要素市场建设中发挥更积极的引领作用。2 上海市政府官:市政府新闻发布会介绍上海市进步推进新型基础设施建设动案(2023-2026 年)有关情况https:/ 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 8 3.数据资产化路径 上海数据交易所根据企业数据资产形成路径的研究,结合场内登记挂牌的业务实践,创新性提出企业数据资产化三部曲:数据资源化、资源产品化和产品资产化,并认定数据产品可以进入数据资产凭证有三个条件,又称之为“三步蒸馏法”。第一步是数据产品的认定要有条件的;第二步需要认定成为可交易的数据产品;第三步是数据产品要入资产凭证。经过三个蒸馏形成的数据资产凭证,其可清晰辨认、应用场景明确、价值可以计量,更好赋能数据资产化。数据作为生产要素,在政府、企业、社会、个人之间有序流通,实现与其他生产要素的有机融合,提高生产效率,通过对内服务或共享和对外流通交易实现数据资产价值流通变现,为企业等各方创造更高的价值与收益。黄丽华和吴蔽余等(2023)提出的数据要素流通价值链模型,结合数据资源到数据产品,再到可交易数据产品和数据资产凭证的演进过程,总结了数据资产运营的三个阶段和相应的可操作性流程,以保证数据要素流通价值实现的规范性和统一性。图 1 数据要素流通价值链模型 数据资产凭证是一种用于记录数据资产交易、交付、权属等信息的电子凭证,该凭证依托于全国数据交易链,基于不同的应用场景发挥相应的作用,可用于各层次数据要素市场。依托全国数据交易链的数据资产凭证生成标准化协议与智能合约,结合交易链上数据产品挂牌、数据产品交易存证,实现数据资产凭证发放“智能生成,全链共识”的全国统一的认证、发放与验证机制。数据资产凭证通常包括记录数据产品登记;每一次链上交易信息,并将电子订单、数字签名、发票等信息上链保存;同时包含价格、交易量、复购率、使用场景、用户评价等参数的指标清单。数据资产凭证的内容可以追踪数据的来源、类型、权属、质量等关键信息,同时凭证与数据产品关联起来,真实记录了数据产品交易合同、交付情况以及清结算情况,提供可追溯的证据,确保数据产品交易的完整性、真实性和相关性,为数据交易参与者提供信任和保障。数据资产凭证是上海数据交易所在数据资源确权方面的探索,也有很多学者参与探讨数据资产凭证的应用场景和功能定位。首先,数据资源持有权的确权途径是数据资源登记,数据资产凭证登记了数据资源用于形成数据产品或服务的相关信息,可作为数据产品经营权的确权凭证。数据资产凭证包含了数据资源的来源,通常可分为公共数据、企业数据两类,采集这两类数据后进行加工可以形成具有资产价值的数据资源。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 9 对于授权运营的公共数据,凭证记录了被授权企业进行数据资源登记,并与公共机构分享数据资源持有权的情况。对于企业相关业务自主生产的数据,可以进行数据资源登记,由企业取得数据资源持有权。其次,对于通过爬取的公共数据,不宜登记取得数据资源持有权,企业只要遵循行业规则,没有采用非法侵入计算机信息系统和非法获取计算机信息系统数据等非法方式,就可以获得数据加工使用权。对于通过交易市场采购的数据,在签订数据交易合约时,便赋予数据购买方数据加工使用权。对于企业间委托加工的数据,要求在合约允许范围内加工数据,形成数据产品,可以获得数据加工使用权。由于数据加工使用权是一种灵活的、有限的“防御性权利”,不能作为资产性权益,也无需登记机构颁发确权凭证。最后,企业对数据资源需要付出了实质性加工和创新性劳动,从而形成可交易的数据产品。数据资产凭证记录企业加工使用数据的过程,可以作为企业可以登记取得数据产品经营权的重要依据。综上所述,数据资产凭证有可能成为企业数据资产化应用场景的基础要件,并进一步加速推进数据交易市场互联互通的实现。从企业数字化转型角度去规划企业数据资产形成的路径,最重要的工作是做好前期的业务流程规划,一方面要明确数据产品开发管理流程,为合理归集开发阶段成本奠定基础,另一方面要明确数据产品的应用场景,合理定价并推进市场相关工作。3.1 数据资源化 暂行规定作为一般性的会计准则,使用“数据资源”一词确定企业数据资产入表的范畴是一种审慎的做法,与中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见(简称“数据二十条”)保持高度一致。从数据资源的来源来看,企业可能通过公共数据授权、自身运营产生、交易市场采购等多种渠道获得数据资源,因此,推进以数据分类分级确权授权制度为基础的数据资源入表,是有效提高数据要素市场化流通效率、促进数据使用价值充分释放的起点。数据资源化的过程是企业通过上述一种或多种方式结合获取的原始数据,经过脱敏、清洗、整合、分析、可视化等加工步骤,在物理上按照一定的逻辑归集后达到“一定规模”,形成可重用、可应用、可获取的数据集合后,形成数据资源的过程。原始数据是经济社会活动产生的附属品,数据资源并不是生产出来的,而是企业通过安排相应的人力、组织、技术、系统等对原始数据进行系统性梳理整合加工出来的。数据资源化是企业挖掘原始数据使用价值的过程,也是企业数据资源实现资产化的第一步。一般来说,数据资源化的过程可能是企业数据产品的研究阶段,也有可能是企业数据资产的开发阶段,取决于企业在具体产品研发之前有没有针对目标场景进行深度的调研学习。以下将从企业实践角度分析数据资源化过程。中债金融估值中心有限公司(简称“中债估值中心”)是中央结算公司的全资子公司,是中央结算公司基于中央托管机构的中立地位和专业优势,历经二十多年精心打造的中国金融市场定价基准服务平台。1999年,中债估值中心编制发布中国第一条国债收益曲线,之后不断完善数据产品服务体系,围绕定价基准服务职能,打造出中债价格指标、中债指数、中债 ESG产品、中债分析工具、中债咨询解决方案等数据产品体系,覆盖标准化债权资产、非标资产、权益类资产及金融衍生品四大类资产的数据服务,为超过 150 万亿金数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 10 融资产提供定价参考基准数据服务,建立了中国最完整最连续的债券市场数据库、中国债券市场定价模型库、高效支持海量数据运算的算法库,形成差异化竞争优势。金润征信的数据由外部采集和内部加工两部分组成。外采来源的数据包括全国ETC 车辆高速通行数据、重卡全路段通行数据(北斗 GPS)、车联网数据、主机厂数据等四类,其中全国ETC 车辆高速通行数据为相关部门第一源合法授权该企业并且独家加工处理输出的数据,已投放市场实践运用两年,很受相关行业欢迎,调用量近两千万次。内部采集的数据主要是由企业自身多年交通行业经营积淀形成的车辆运营相关数据。该企业及其下属商业保理公司拥有十年的客货车 ETC记账卡金融服务运营经验,并与超过十个省份的高速方合作开展 ETC发行服务,其中包括山东、江苏、福建、云南、浙江、广东、江西、贵州等,所服务的全国车辆已近百万。以上海合合信息科技股份有限公司(简称合合信息)旗下全资子公司生腾的数据产品启信宝为例。启信宝是一款企业商业信息查询 APP,其汇集境内 3.1 亿家企业等组织机构的超过 1,000 亿条实时动态商业大数据,提供包括工商、股权、司法涉诉、失信、舆情、资产等超过 1,000 个数据特征标签;可对数据进行深度挖掘,为客户提供企业关联图谱、舆情监控(情感及语义分析等)、风险监控(经营异常、司法涉诉等)、商标及专利信息、深度报告(信用报告、投资及任职报告、股权结构报告)等多种数据查询、挖掘和智能分析服务。某上市公司的数据团队约 3,000 人,该公司通过对原始数据的采集、编制、发布三大流程,每日发布近千种商品、400多座城市和港口、10万条基准价格及数万条调研数据,覆盖黑色金属、有色金属、能源化工、建筑材料等八大板块百余条产业链。该公司数据资源化环节必须经过八步标准化数据采编流程,通过市场调研、建议样本库、采集与入库、验证与分类、样本标准化、离群值处理、数据编制、数据发布几个步骤,最终形成符合公司标准化的数据资源。某案例企业基于机器学习技术实现数据自动化量产,将数据提取、清洗、标准化、质检等流程无缝衔接。公司通过 DAS 智能化数据工厂、SmartTag 实时资讯解析以及利用 NLP 对信息进行智能提取,形成可分析的结构化数据,形成数据资源。该公司凭借数据自动化量产、精准实时资讯解析、数据有效编制三大可相互反哺的核心能力,以人工智能驱动的数据自动化生产体系针对多种决策场景提供数据服务。目前公司形成的数据资源包括 SAM 产业链图谱数据,企业图谱数据和 SmarTag 舆情及标签数据。如标签数据,公司精准高效地对各类资讯进行实时解析,把资讯中蕴含的主体,事件及情绪精准提取,并经过公司、人物、事件、行业、产品、概念、地区等直观精细的多维度标签,加工成高价值的定制化数据资源。最后一家案例企业的数据主要来源于加密脱敏后的业务数据。通过使用自研的数据中台,实现数据的采集、元数据管理、大数据计算、数据检查、数据加解密、数据流转、数据备份等工作,基于数据规范、生产规范、安全及数据治理等领域的实战经验自主研发的一站式数据开发、治理体系。通过标签管理平台,实现新标签开发、标签优化等功能。标签分为画像特征及基础特征两类,画像特征包括用户属性、风险类标签、预测类标签,基础特征包括用户信息、用户行为、营销活动等。搭建了超过 500 台高性能服务器组成的大数据运算集群,通过一系列数据清理的方法对业务数据进行了治理,分析数据源特征,实现 T 1准确及时更新。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 11 3.2 资源产品化 资源产品化是企业数据资产化的第二步,是数据资源为企业创造交换价值的核心环节。企业通过对数据资源赋予创新型劳动和实质性加工,形成满足特定应用场景需求的数据产品。数据产品是指以数据集、数据信息服务、数据应用等为可辨认形态的产品类型。数据产品是数据要素参与实体经济运行的重要载体。任何一个产品都会经历从产生到消亡的过程,数据产品也不例外。与传统产品类似,数据产品也会经历导入期、成长期、成熟期和衰退期。由于数据本身具有高重塑性的特点,数据产品在导入期和成长期即可批量生产,边际成本几乎为零,不受限于传统产品规模经济的特点,因此数据产品的生命周期较传统产品会呈现跳跃式、价值时变性等特点。数据资源化后,在明确的应用场景中,将有价值的数据内容通过与服务终端或算法等相结合,以数据产品作为载体,通过内部使用或对外交付客户使用。在这一个阶段,企业根据产品的应用场景,梳理数据集的形式、分类等,并根据应用场景开发相应的服务终端或算法程序等。根据数据产品持有目的不同,数据产品一般会通过自用、共享、开放以及对外交易方式实现其价值。企业形成的标准化数据产品可重复使用,能满足不同客户的需求;企业为某个客户开发定制化的数据产品将向客户整体出售,其服务客户的数量有限。基于需求特征和服务方式不同,可以将数据产品形态分以下三类。形态一:数据集,即以数据库的形式提供,以满足客户模型化需求的数据产品。形态二:数据信息服务,即以数据资源库为基础,为客户提供满足其特定需求的信息类服务;形态三:数据应用,即指以应用程序的方式,基于统一的用户界面,提供基于数据资源和模型应用的数据产品。需求特征包括模型化需求以及非模型化需求。模型化需求:数据用于训练和优化使用者的模型或算法,提高模型算法的性能。非模型化需求:使用者利用分析(模型)形成的结果(信息或知识),支持企业的日常生产经营决策。服务方式包括界面类方式和非界面类方式。界面类方式;界面类方式通常是用户主动操作的界面,实现人机交瓦的过程来获得数据或信息,例如搜索软件、SaaS等应用。非界面类方式;通过某个软件程序的功能,实现程序间交互方式例如 API、文件配送、受控沙箱、联邦学习等。表 2 数据产品分类 服务方式 需求特征 界面类(查询终端、SaaS 应用)非界面类(接口调用、数据库传输等)非模型化(查询等)数据应用(功能服务)数据信息服务 模型化需求(机器学习等)数据应用(联合建模功能服务)数据集 以中债估值中心的中债指数数据产品服务为例,中债指数是中国境内历史最为悠久、应用最为广泛、产品数量最多的人民币债券市场代表性指数品牌。中债指数数据产品服务包含 12大指数族系数据,目前已突破 1500只,实现了境内人民币债券全覆盖,并拓展至权益资产与境外资产指数数据领域。为响应国家战略需求,紧随市场发展,中债估值中心先后推出了碳中和、ESG、长三角、京津冀、科创主题等指数,为投资数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 12 人提供债券市场价格走势的检测数据指标、表征和预测宏观经济运行的参考数据、债券投资组合业绩评估的参考基准数据以及指数化投资产品跟踪标的数据等应用服务。金润征信的数据产品按产品内容可分为高速通、车辆通、路径通、核验通、司法通、工商通、税务通等,按运用类型可分为查询类、核验类、模型类。上述产品主要的应用场景包括:(1)物流,如车队运力综合评估、单车运力情况分析;(2)交通管理,如稽查打逃高速费、车流量分析等;(3)金融,包括银行信贷业务、非银行金融业务(商业保理、融资租赁等);(4)保险,如保险定价(网约车识别、货车识别)、理赔的补充等。公司产品均采取按次收费方式,根据不同的查询内容定价不同。启信慧眼是基于公司商业大数据平台,结合人工智能技术,融合多种细分业务场景,打造的标准化 SaaS云平台,覆盖“拓客-尽调-风控-管理”为企业客户实现商业调查、风控管理、营销拓客等多场景数字化管理,帮助企业进行快速智能地发展业务、管控风险。启信慧眼金融版,服务于银行、融资租赁、商业保理等金融行业的垂直版 SaaS产品,遵循“数据信息商业智能价值”转型路径,构建数字金融服务模式,助力解决“营销拓客、尽职调查、风险预警、客户管理”等问题。启信慧眼客商版针对生产制造、贸易经销、能源化工等行业,为国企、央企、私企、外企等企业多部门提供风险自主可控的数字化客商管理。公司还为客户提供商业全景数据库服务,采用先进的数据库设计技术,为客户在企业尽调、信用审核、风险监控、智能拓客、供应链管理、企业数据大屏等方面提供全面的数据支持。某案例企业的数据产品主要包括数据订阅以及研究咨询服务。其中数据订阅服务下分黑色金属(包括钢材、铁合金、焦煤、废钢、铁矿石等)、有色金属、能源化工、建筑材料、农产品、新能源、新材料和再生资源八大类别,通过网页端、移动端、终端数据服务三种界面对外提供服务。研究咨询服务主要系通过定制化加工形成的的数据产品,为用户提供战略规划、经营管理、市场研究、投资可研等定制化的决策支持服务,其产品形式主要是定制化报告。另外一家案例企业通过对数据资源的进一步加工、整合和分析,推出了以下几大类数据产品,包括产业链、企业图谱等产品。公司通过打造标准化产品组件,并根据客户的需求开发不同的系统界面,公司按数据接口收取年费;或者公司将数据资源加上算法一并交付客户,由客户结合自身的数据资源进一步加工处理形成自己的数据产品,公司一般按项目收取年费。最后一家企业经过十年的应用实践,对原始业务数据的内容、质量及行业应用的延展性都非常熟悉,积累了丰富的产品、服务及合作模式经验,在应用产品及咨询服务中有能力最大化发挥数据资源的优势。目前企业的产品类别可分为风险类数据产品、营销类数据产品。企业通过综合自然语言算法(TF-IDF提取、朴素贝叶斯等)、神经网络技术等技术,对全量商户数据进行了清洗和治理,完成商户名称、行业标准化处理。企业的数据产品包含十一个维度 1000多个特征。通过形成标准化的基础数据库,可供客户自由组合选择,满足不同客户对不同标签、不同特征的多元化需求。企业的产品一般分为按年包收费或按条计费两种方式。3.3 产品资产化 产品资产化是企业运用数据资产开展经济活动的过程,充分体现了数据资产的金融属性,也是数据产品从账面价值转向市场价值的重要一步,是探索数据资产公允价值的重要环节。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 13 促进数据要素市场的交易与流通,市场主体一方面沿着数据要素价值链,正向推动数据资源化过程,提升数据资源的使用价值和交换价值,推进以数据产品为载体的数据资产入表;另一方面要积极研究数据资产创新应用,以数据资产经济价值的显性结果反向推动产业链各主体积极参与市场各项规则的建设。中债估值的多种数据产品已形成公司稳定收入来源,客户覆盖境内各类大中型金融机构,服务包括境外央行、国际金融组织、主权基金和商业银行等境外客户。在数据产品开发过程中,估值公司在产品数据模型开发、自动化生产系统建设等方面大量投入,包括数据采集、清洗、加工流程、架构设计,计算公式开发,系统建设所需的数据、人工、系统资源等“数据产品生产线”的开发费用,均为数据产品成为资产前的必要投入,符合资本化条件。公司在管理数据产品时,在公司“数据血缘”、“公式血缘”等基础上,形成了“作业消耗资源,产品消耗作业”的“两步法”归集分摊原则,与上海数据交易所所提“三步蒸馏法”高度契合。金润征信在物流运输、供应链管理、信贷、保险等行业不断深挖客户需求,在快速实现产品市场化的同时,不断实现产品的价值化。2022 年 2 月,金润征信的产品“高速通”正式在上海数据交易所挂牌,是首批挂牌的数据产品之一。截至目前,该企业已经在上海数据交易所挂牌了高速通、路径通两个系列共计 58个产品,其中高速通产品 48 个。合合信息自主研发的领先的智能文字识别及商业大数据核心技术已形成了丰富且广泛的产业化应用成果,C 端产品覆盖了全球百余个国家和地区的亿级用户,B 端服务覆盖了近 30 个行业的企业客户。公司的数据产品已经形成稳定的收入并持续为公司带来现金流入,从会计确认的角度看,合合信息在数据产品启信宝和启信慧眼开发过程中的投入,包括数据采集、购买、清洗、加工、算法等等相关的人力投入、设备投入、维护投入、安全投入,是属于该数据资产达到预定可使用状态的直接相关且必须投入,均符合资产化条件。最后一家案例企业的产品可广泛应用于包括银行、持牌消费金融等各类型金融机构的贷前贷中风险识别及授信管理、存量客户经营、客户价值细分等多维场景,充分补充金融机构内部数据信息量及数据维度,有效提升金融机构风险管理水平及客户运营能力。在实际应用中,在风险层面上,多家金融机构贷前风险模型的模型效果平均提升 30%左右,贷中风险模型的模型效果平均提升 25%左右。营销层面,丰富的客户画像体系有效提升金融机构的客户精细化运营能力,基于消费偏好及消费能力的精准营销效果提升近 20%。3.4 数据资产理论内涵 多数时候,人们习惯称某一项对企业有经济价值的资源为“资产”,这其实对应着会计准则中资产“经济利益有可能流入企业”的判断条件。除此之外,会计准则的资产还应该满足:企业过去的交易或者事项形成、企业拥有或者控制、成本或者价值能够可靠计量这些条件。毫无疑问,数据资产的本质依然是资产,它指的是以数据为主要内容和服务的、满足资产确认条件的数据资源。值得注意的是,在暂行规定出台之前,市场上大多数的“数据资产”并不一定满足会计准则的资产确认条件,换句话说,不一定能“入表”。在暂行规定之后,我们应该更多从能否入表的角度来判断相关数据资源是否可以称之为数据资产。根据企业会计准则的相关规定,资产是指企业过去的交易或者事项形成的、由企业拥有或者控制的、预期会给企业带来经济利益的资源。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 14 将一项资源确认为资产,需要符合资产的定义,还应同时满足以下两个条件:(1)与该资源有关的经济利益很可能流入企业(2)该资源的成本或者价值能够可靠地计量 数据资源要确认为一项资产亦应满足上述条件。本报告将数据资产定义为:指企业拥有或控制的,预期会给企业带来经济利益(内部价值或外部收益),以数据为主要内容和服务的可辨认非货币资产。值得注意的是,数据产品不一定满足资产的确认条件,如有的数据产品可能不能给企业带来经济利益流入,有的数据产品使用方式与无形资产类似,但生命周期可能不超过一年,而会计上不超过一年一般不计入无形资产。但企业实践中确认数据资产往往以数据产品作为载体。基于数据产品确认数据资产的优势主要在于:数据产品的可使用状态或者可交易状态更容易辨认,可以更直观地判断该资产是否达到预定用途;数据产品也更方便企业进行内部管理。从数据资产入表的角度看,基础会计工作的重要性体现在以下几个方面:第一是审慎的从成本的角度梳理数据资产的规模,一方面提升全社会对数据要素的认知,另一方面又不至于引起数据资产泡沫;第二是提高企业数据资产信息披露的质量,企业可以通过梳理内部满足资产确认条件、真正有发展潜力的数据产品来提高数据资产的管理水平;第三是提升报表质量,减少数据要素型企业与投资者之间信息不对称,进一步推进数据资产化创新应用,帮助企业吸引投资、优化财务结构、提升公司估值等等。数据资产入表可以显著提升大众对数据要素的认知,促进数据要素的交易与流通,进而对数据交易所提出更高的合规性、便利性等要求,有助于繁荣数据要素市场。数据资产具有多样性,包括数据来源的多样性以及使用主体的多样性。数据来源包括企业、政府、个人等主体形成的身份数据以及其日常行为记录收集形成的数据。从数据使用者的角度看,数据资产的使用者包括采集、编辑加工形成新的数据产品自用或对外提供服务的单位,也包括利用数据资产进行分析、决策,达到提高决策的准确性,如广告商通过数据资产形成广告精准推送、政府通过数据资产精准招商、企业通过数据资产精准获客、新闻媒体通过数据资产精准快速提供信息报导等。数据作为新的生产要素,由于其来源、使用者的多样化亦决定了其有以下特点:第一,数据资产具有非排他性。数据资产具有可复制性,一个数据资产可以被多个主体、应用、算法同时使用,导致其具有非排他性。第二,数据资产具有高重塑性。数据资产具备高重塑性,数据产品之间的组合、整合与聚合,能够呈现新形态与新价值。第三,数据资产具有价值时变性。不同数据产品在不同应用场景下呈现多样化价值生命周期。其价值亦随着应用场景、时间的推移、数据产品的供给情况发生较大变化。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 15 第部分 数据资产表实践 4.数据资产表理论成果 4.1 暂规定解读 2023 年 8 月 21 日,财政部发布了企业数据资源相关会计处理暂行规定(财会202311 号,简称暂行规定),自 2024 年 1 月 1 日起开始实施。暂行规定根据中华人民共和国会计法和企业会计准则等相关规定,首次明确了数据资源的适用范围、会计处理标准以及披露要求等内容。资源(Resources)一般是指可被开发和利用且能给人带来财富的物质、能量和信息的总称,其经济学内涵是“生产过程中所使用的投入”,显然资源的本质是生产要素。从这一角度出发,数据资源其实就是数据生产要素。暂行规定作为一般性的会计准则,将“数据资源”定义为企业数据资产入表的范畴是一种审慎的做法,与“数据二十条”保持高度一致。暂行规定所提数据资源是一种广义的概念,可以代表所有具有使用价值的数据或者基于数据形成的数据产品。对于可以纳入资产负债表具体科目的数据资源,企业在实践操作中以“数据产品“作为载体,完全符合暂行规定的要求。从暂行规定的适用范围看,两种类型的数据资源可以推进入表,第一种是满足资产确认条件,可以确认为无形资产或存货的数据资源,可以纳入资产负债表;第二种是不满足资产确认条件,但企业拥有或控制、预期能给企业带来经济利益流入的数据资源,可以在企业财务报告中予以披露。从数据资源的来源来看,企业可能通过公共数据授权、自身运营产生、交易市场采购等多种渠道获得数据资源,因此,推进以数据分类分级确权授权制度为基础的数据资源入表,是有效提高数据要素市场化流通效率、促进数据使用价值充分释放的起点。暂行规定按照数据资源有关的经济利益的预期消耗方式,根据企业持有对客户提供服务、日常持有以备出售等不同业务模式,将数据资源分类为无形资产和存货科目进行确认、计量和报告。此外,暂行规定对数据资源的列示与披露均做出了细化规定。列示方面,企业需根据重要性原则和企业实际情况在资产负债表中以报表子项目的形式单独列示;披露方面,暂行规定创新性地对数据资源采取“强制披露加自愿披露”方式,企业需强制披露数据资源的取得方式、期间变动情况与相关会计政策、会计估计,还可根据实际情况自愿披露数据资源(含未作为无形资产或存货确认的数据资源)的应用场景或业务模式、原始数据类型来源、加工维护和安全保护情况、涉及的重大交易事项、相关权利失效和受限等相关信息。暂行规定还对相关披露提出了具体的格式要求。这一规定的颁布对规范企业数据资源相关会计处理和加强相关会计信息披露具有重要意义,旨在落实党中央、国务院有关数字经济发展的决策部署,为数字经济健康发展提供制度性支持。微观层面,暂行规定首次从政策角度将数据资产明确确认入表,使得原先只能费用化处理的数据资源开发成本在满足一定条件后得以确认为资产,为报表使用者提供决策有用信息,同时帮助数据驱动型企业吸引外部融资、优化财务结构、提升公司价值。宏观层面,暂行规定是党的二十大报告中提出的“加快建设数字中国,加快发展数字经济”的具体举措,是贯彻落实党中央、国务院关于发展数字经济的决策部署。我国关于企业数据资源的数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 16 相关探索不仅有助于监管部门完善数字经济治理体系,还有助于我国在国际会计准则制定等工作中贡献中国智慧、提供中国方案。政策发布当天,数据要素板块大涨。截止当日收盘,国家发改委数据合作平台上海钢联、数据分析与决策支持服务机构零点有数、大宗商品价格指数提供商卓创资讯等多只个股涨停,人工智能 大数据服务商汇纳科技、数据智能服务商每日互动、数据资产化服务商易华录等涨幅超 15%。随后一周,A 股数据要素板块持续领涨。从资本市场对数据资产入表与披露政策出台的热烈反响中,我们可以看出投资者预期政策落地后相关企业数据要素价值将进一步释放、数字经济发展将进一步加快3。通过分析数据资产入表政策出台窗口期数据要素型公司与其他公司的市场反应差异情况发现,数据要素型公司股票相比于其他公司股票在政策出台窗口期呈现出显著的正向累计超额回报,说明投资者认为数据资产入表对于数据要素型公司而言是利好消息。其次,通过模拟企业入表实践,以对比分析的方法研究数据资产入表给企业带来的经济后果,并重点分析对企业经济利益的影响,发现公司资产负债率、流动比率以及利润率等指标均会受到一定影响。表 3 数据资产入表的主要特点 类别 特点 是否涉及会计政策变更 否 入表涉及的资产科目 无形资产:使用的数据资产 存货:日常持有以备出售的数据资产 初始计量原则 历史成本观 后续计量原则 数据资源无形资产:使用寿命有限的需要摊销;期末计量按照账面价值与可收回金额孰低原则 数据资源存货:如果可变性净值低于成本则需计提存货跌价准备;期末计量按成本与可变现净值孰低原则 处置或出售计量原则 数据资源无形资产:直接计入当期资产处置损益 数据资源存货:确认营业收入和营业成本 披露方式 表内披露 表外披露,存货、无形资产和开发支出科目下设数据资源二级科目,并在附注中列示具体情况 披露模式 强制 自愿模式,对报表有重要影响的强制披露 是否需要追溯调整 否,采用未来适用法 资料来源:赵丽芳,吕梦,钟英才.数据资产入表的价值效应及经济后果初探,2023.4.2 费化与资本化的区别 数据资产入表实质是数据资产会计核算。在暂行规定出台之前,很多企业的数据产品研究和开发阶段所产生的支出大都是费用化,直接计入损益表,但企业有一部分数据产品本质是满足会计准则资产确认条件的,那么在暂行规定出台之后,企业就可以把这部分资产在资产负债表相关科目进行列报和披露。具体到数据资产入表的实践层面,企业应当以识别并计量相关价值创造过程为核心。首先,企业以数据资源使用价值为基础,从内部组织架构、台账管理开始,研究与开发数据产品,并将数据产品满足资产确认条件的 3 复旦学蓉教授:激活数据要素价值,“数据资产表”解读 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 17 部分推进入表,形成会计报表层面的无形资产或者存货,实现企业数据产品交换价值的会计计量。之后,企业应当积极探索数据资产的经济价值(金融价值),以发现数据资产的公允价值并提高数据资产的流动性。图 2 企业数据资产费用化与资本化的主要区别 现有会计理论及会计准则框架下,企业内部使用的数据资源及对外交易的数据资源,均在相关成本发生时费用化,数据资产入表,即对数据资产相关成本予以资本化,形成无形资产、存货等数据相关资产。在数据资源入表的框架下,企业使用的数据资源,符合企业会计准则第 6号无形资产定义和确认条件的,确认为无形资产。企业日常活动中持有、最终目的用于出售的数据资源,符合企业会计准则第 1 号存货(财会2006 3 号,以下简称存货准则)规定的定义和确认条件的,应当确认为存货。按照企业研发活动形成的数据资产的形成方式,可分为企业为定制化产品开发形成的数据资产以及企业内部前瞻性研发活动形成的数据资产。企业定制化产品开发形成的数据资源,系企业按照客户需求进行数据资产产品设计与研发,最终形成研发成果。企业应综合考虑历史经验、行业惯例、法律法规等因素,在有充分证据表明能够控制相关研发成果,并且预期能够带来经济利益流入后,按照无形资产准则相关规定将符合条件的研发支出予以资本化。企业为定制化产品开发形成的的无形资产,采用与该资产相关的收入确认相同的基础进行摊销,计入当期损益。若企业无法控制相关研发成果,如研发成果仅可用于该合同、无法用于其他合同,应作为对外交易的数据资源,按照企业会计准则第 1 号存货进行确认、计量、报告及披露,在出售时将其成本结转为当期损益,同时按照收入准则等规定确认相关收入。企业通过内部研发活动形成的数据资源,应根据企业会计准则第 6 号无形资产进行确定是否形成无形资产。企业内部研究开发项目的支出,应当区分研究阶段支出与开发阶段支出。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 18 研究是指为获取并理解新的科学或技术知识而进行的独创性的有计划调查,探索性的,为进一步开发活动进行资料及相关方面的准备,已进行的研究活动将来是否会转入开发、开发后是否会形成无形资产等均具有较大的不确定性。比如,意在获取知识而进行的活动,研究成果或其他知识的应用研究、评价和最终选择,材料、设备、产品、工序、系统或服务替代品的研究,新的或经改进的材料、设备、产品、工序、系统或服务的可能替代品的配制、设计、评价和最终选择等,均属于研究活动。企业内部研究开发项目研究阶段的支出,应当费用化,于发生时计入当期损益。开发是指在进行商业性生产或使用前,将研究成果或其他知识应用于某项计划或设计,以生产出新的或具有实质性改进的材料、装置、产品等,相对于研究阶段而言,开发阶段应当是已完成研究阶段的工作,在很大程度上具备了形成一项新产品或新技术的基本条件。比如,生产前或使用前的原型和模型的设计、建造和测试,不具有商业性生产经济规模的试生产设施的设计、建造和运营等,均属于开发活动。企业内部研究开发项目开发阶段的支出,同时满足技术可行性、利用意图、有用性、资源支持、成本可靠计量五个条件后予以资本化,不能同时满足以上五个条件发生的支出予以费用化,于发生时计入当期损益。某案例企业的数据资源资本化形成的数据资产包括为开发定制化产品形成的数据资源与企业内部前瞻性研发活动形成的数据资源,其分别确认为存货及无形资产。公司形成存货的数据资源为公司研究咨询服务,其研发成果仅可用于该合同、无法用于其他合同,公司形成的数据资产最终对外出售,满足存货准则规定的定义和确认条件;形成无形资产的数据资源为公司的数据订阅服务,公司已形成成熟、标准化的数据产品。由于数据产品具有时效性,公司每天需要采集、加工形成新数据资源,对原数据资源有实质性的改变,其后续的投入是保持数据产品核心竞争力的重要方式,因此符合开发阶段的定义,相关支出予以资本化。如在开发阶段难以同时满足无形资产准则规定的技术可行性、利用意图、有用性、资源支持、成本可靠计量的条件,相关发生的支出予以费用化。数据资源产品一般为经过按一定逻辑整理的数据集并结合服务终端、界面或算法等整体交付客户并对外提供服务或出售,但在数据资源开发前期,可能由于种种原因不一定能满足上述资产确认条件,如经济利益流入的可能性不够高,公司没有持续的资源支持,数据产品的成本无法单独归集等情况。因此,数据产品化搭建起数据资源向数据资产转变的桥梁。金润征信数据资源资本化形成的数据资产为企业开发的保险类数据产品、信贷类数据产品及交通类数据产品。在产品研究阶段,公司主要进行市场需求分析,该部分支出应予以费用化。需求分析定稿后,进入产品开发阶段,经过数据采集、数据调度、数据清洗、数仓建模、数据标签化、统计分析及机器学习建模、数据服务发布以及数据安全体系搭建等环节,最终形成可重复对外提供服务的数据产品,并预期能够带来经济利益流入。开发阶段支出可根据无形资产准则相关规定,将符合技术可行性、利用意图、有用性、资源支持、成本可靠计量这五个条件的支出予以资本化。某企业数据资源资本化形成的数据资产为企业开发的风险类数据产品、营销类数据产品。企业产品开发主要基于客户不同运用场景下的需求进行的研发,产品研发成功后,企业能控制相关的研发成果,能将研发成果为其他客户重复提供服务,并预期能够带来经济利益流入。案例企业履约合同发生的研发支出可根据无形资产准则相关规定将符合条件的研发支出予以资本化。在产品开发前期发生的数据规划阶段属于产品研究数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 19 阶段,相关成本予以费用化计入当期损益,产品建设阶段,数据采集、数据开发、产品应用开发阶段数据产品开发阶段,如满足技术可行性、利用意图、有用性、资源支持、成本可靠计量五个条件的,相关开发支出予以资本化,否则相关支出予以费用化。产品开发完成后,企业发生的运维支出、数据安全、间接支出等可分摊至数据产品的支出,满足无形资产确认条件的,相关支出予以资本化。4.3 会计处理难点 上海数据交易所以企业真实的财务数据和业务数据为基础,开展数据资产入表模拟研究。根据前期案例研究成果,总结形成数据资产入表的操作实践和一些主要挑战,并针对每一种挑战形成相对科学合理的处理办法。图 3 数据资产入表操作实践 如图所示,数据资产入表的步骤主要可以分为初始计量、后续计量、列报与披露。其中,初始计量包括成本归集、收入与成本匹配、按成本进行初始计量列示三步,后续计量主要是计入为数据资源无形资产的摊销,财务报表列示和其他自愿披露的信息参考暂行规定操作指引。案例研究发现企业推进数据资产入表如成本归集困难、收入成本匹配困难、摊销期难确定等普遍性困难,本研究将总结困难点并提出一些可行的处理办法。l 数据资产成本归集难 以企业真实数据推进数据资产入表模拟研究发现,企业虽然在数据资源的开发利用方面投入很多,形成满足资产确认条件的数据资产,但是由于组织架构不合理,部门之间资源重复利用或者人员调配复杂,导致数据资产成本归集存在困难,即数据资产确认条件中的成本与价值可靠计量这一条不能满足。数据资产入表伴随着数字经济的发展应运而生。数据要素市场在有条不紊的建设的同时,数据资产入表的核算方法亦在同步研究论证阶段,但目前企业对数据资产的定义,数据资产入表范围、入表的路径、入表计量方法、信息披露等方面均存在不同的理解。为了顺利形成报表的数据资产,企业应针对数据资产的采集、编制(或加工)、发布部门建立相关组织架构、规定数据资产相关部门人员的职责,存在人员既从事存在数据资产的采编工作又从事其他非数据资产相关的工作,导致数据资产无法准确归集。为提高数据资产入表核算的准确性,避免企业过多将与数据资产不相关的成本费用资本化。本报告建议:第一应该从头开始规划业务流程,对数据产品研发中涉及的部门和人员做合理分配,提高管理能力和效率;第二应组织相关会计专业人员向数据资产企业提供专业培训,加强对数据资产入表规范要求的培训讲解;第三,增加数据资产涉及的组织部门及相关技术人员披露,披露针对存在人员兼职情形下,建立数据资产核算内部控制流程。l 数据资产收入成本匹配难 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 20 因数据具有非排他性、高重塑性的特点,导致企业利用内部使用的数据资源在对外提供服务时,不同的业务线、产品线之间,数据资源存在重复调用、重复组合的情形,在归集不同种类业务数据资产的成本时,存在如何将通用数据资源成本合理分摊到各个业务中的问题。实务中,企业一般根据对外提供的业务线或产品种类平均分摊,但不同业务种类的数据资产在资产价值、使用方式、服务对象、利用频次等可能均存在显著差异,数据成本平均分摊可能导致成本归集不准确,导致收入成本不能匹配,不能真实反应数据资源的经济利益实现方式。本报告建议:公司可结合历史情况,如数据调用频次情况、对外提供服务的频次、服务收费规则、预计对外提供服务的频次、形成数据资产的价值等多维度对重复使用的数据资源成本进行更加合理的分摊。l 数据资产资本化与费用化的区分标准统一难 根据企业数据资源相关会计处理暂行规定,企业内部数据资源研究开发项目的支出,应当区分研究阶段支出与开发阶段支出。研究阶段的支出,应当于发生时计入当期损益。开发阶段的支出,满足无形资产准则第九条规定的有关条件的,才能确认为无形资产。除企业在持有确认为无形资产的数据资源期间,利用数据资源对客户提供服务的情形外,企业利用数据资源对客户提供服务的,应当按照收入准则等规定确认相关收入,符合有关条件的应当确认合同履约成本。目前上市公司,对于自创形成的无形资产核算要求非常严格,市场上通过自创形成无形资产的企业并不多。如今出台了数据资产入表的暂行规定,表明政府支持与鼓励满足条件的数据资产入表。鉴于过去实践中,普遍认为研发费用资本化有着非常严格的规定,因此如数据资产三步蒸馏法中的第一步由原始数据变成数据资源,原始数据经过采集、简单的加工、整合、排序变成数据资源,是否应作为开发阶段的一部分,目前未有较为明确的指引。如果不满足企业内部数据资源研究开发项目的定义,企业利用数据资源对客户提供服务的,应当按照收入准则等规定确认相关收入,符合有关条件的应当确认合同履约成本。由于数据资源的高重塑性、价值时效性等特点,确认为合同履约成本的,其摊销期限同数据资产的摊销年限分析。本报告建议:随时经济的发展,数据作为生产要素,数据资产在市场中发挥的作用越来越大。数据资产作为一个新的名词,成为当前经济增长的焦点。建议出台对数据资产资本化与费用化的区分标准案例,为企业执行企业数据资源相关会计处理暂行规定提供更详细的应用指南。l 取得公共部门数据授权期限的稳定性确认难 当前,有相当一部分数据要素型企业与公共部门进行商业化联合运营,通过取得公共数据授权对数据资源进行加工,并形成数据产品对外提供服务。在持续性授权前提下,企业通过支付固定授权费取得公共数据加工使用权,将固定授权费作为数据资产入表,并按照经济利益的预期消耗方式进行摊销。若公共部门中断授权可能性较大,授权协议终止后,企业不能再使用公共部门的数据资源,则会严重影响企业摊销方法和年限的选择,甚至对企业日常经营产生重大不利影响。本报告建议:公司根据自身经营特点和业务模式合理约定数据授权期限,并在授权期限到期前,预留足够年限与公共部门协商续约事项,避免由于数据授权期限不确定对公司日常经营以及数据资产摊销年限的影响。l 金融行业成本确认难 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 21 金融数据使用场景较为特殊,企业需要每天输入当日市场交易、报价等数据,通过前期研发的数据产品输出估值报价结果。金融数据产品的时效性较一般产品更强,数据价值呈现更强的边际效用递减的特征,与资产“能够长期带来稳定收入”的确认条件不符。以大量数据输入和模型研发作为开发基础的数据产品本质是企业在后期形成数据使用结果的“数据产品生产线”,其使用和交换价值明确,符合资产确认条件。因此,对这种数据研发和使用显著差异的场景,从产品研发角度和使用角度去区分数据资源的投入成本是有必要的。建议将企业开发数据产品模型的部分计入数据资产,而日常输入的数据资源购入成本计入主营业务成本。l 数据资产的摊销方法选择难 数据资产的摊销方法应当能够反映经济利益的预期消耗方式,在当前数据资产尚未形成活跃市场的情形下,对摊销方法的选择很大程度依赖会计职业判断,目前学术上针对摊销方法有三种观点:第一,考虑到数据资产在时间上不会随使用而发生实质性损耗,数据价值变动并无固定规律可循,数据资产无需进行折旧或摊销。第二,考虑到数据资产的经济利益流入十分依赖于市场供求关系,属于预期实现方式无法可靠确定的无形资产,应当采用直线法摊销。第三,考虑到数据更新较快,对于使用者具有一定程度时效性,建议采用年数总和法、双倍余额递减法等加速折旧的方法进行摊销。本报告建议:各种摊销方法均具有其合理性,企业应当根据不同业务的特点和市场情况,选择最适用于本企业业务的摊销方法,并一致地运用于不同会计期间。l 数据资产的摊销年限确认难 数据资产的摊销主要根据使用年限的不同,分为使用年限确定和使用年限不确定两种。如果使用年限确定,应当将其价值在使用年限范围内进行合理摊销,直至资产不能达到使用状态为止;使用年限不确定的数据资产不进行摊销。在确定无形资产使用寿命时,企业应当考虑以下因素:(1)该资产通常的产品寿命周期、可获得的类似资产使用寿命的信息;(2)技术、工艺等方面的现实情况及对未来发展的估计;(3)以该资产生产的产品或服务的市场需求情况;(4)现在或潜在的竞争者预期采取的行动;(5)为维持该资产产生未来经济利益的能力预期的维护支出,以及企业预计支付有关支出的能力;(6)对该资产的控制期限,使用的法律或类似限制,如特许使用期间、租赁期间等;(7)与企业持有的其他资产使用寿命的关联性等。按照上述方法仍无法合理确定无形资产为企业带来经济利益期限的,该项无形资产应作为使用寿命不确定的无形资产。针对使用年限确定的数据资产,目前税法上规定无形资产的摊销年限不得低于 10年,但根据调研情况,企业无法提供较为合理的无形资产摊销期限依据,主要系数据资产具有价值时变性,数据价值会随时间推移而衰减,导致数据价值变小,但无法确定其于哪个时点彻底丧失价值。针对使用寿命不确定的数据资产,企业应当在在每一会计期末进行减值测试。一方面,由于目前不存在活跃的数据资产市场,对数据资产进行减值测试存在诸多困难。另一方面,由于该部分数据资产不进行摊销,对外提供服务并不会减少其在供方财务报表中的账面价值,需方购买后又会在需方财务报表中体现,从而容易导致整体经济层面数据资产价值总量虚增,当公司业务发展不及预期,或受外部负面因素影响,数据资产将会面临非常巨大的减值压力。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 22 本报告建议:如果为外部购入的数据资产,其使用寿命及残值率应当按照购买协议、合同中的规定进行处理;如果为内部研发挖掘数据,交易平台有类似数据的相关摊销年限的,可以参照数据交易平台进行确认;如果交易平台无此类数据资产相关信息的,企业应当结合对外提供数据资产服务时涵盖历史数据的期数或客户期望使用的历史数据期数等情况合理估计。一般情况下,如果没有第三方承诺在使用寿命结束后购买该资产,或者在交易平台上没有相似资产残值信息的,数据资产的残值应当视为零。另外,公司应当每年年终对数据资产的使用年限进行复核,如果有明确证据证明使用年限发生重大变化的,应当按照会计评估结果对使用年限进行调整。l 数据资产的税会差异应对难 一方面,以某企业为例,会计上数据资产在 3-10 年内加速摊销,但税法规定无形资产在不低于 10 年的摊销期限内,按照直线法计算的摊销费用准予扣除。由此产生的税会差异会使得企业前期需要调增应纳税所得额,支付较高的当期所得税费用。另一方面,该企业数据资产入表前部分数据资产当期支出基本费用化计入研发费用,并于企业所得税前加计扣除。入表后数据资产需要在 10年的摊销期内摊销计入营业成本,若无税务局不出台其他所得税优惠政策,无法在企业所得税前加计扣除,导致应纳税所得额和当期所得税费用大幅上升,较高的当期所得税费用会占用企业现金流,甚至影响企业正常经营。另外,由于公司的研发费用减少,对于公司申请高新技术企业或 IPO 申请上市是否能满足研发费用占收入的比例要求造成较大影响。本报告建议:在数据资产会计准则落地的同时,建议税法也应进行配套政策更新,例如灵活化数据资产摊销方法选择、扩大加计扣除范围,增加研发费用的核算范围等。l 数据资产时变性导致报表规模确认难 数据资产由于其价值更多依赖其应用场景,当应用场景改变或竞争对手或政府将数据资产对外共享时,数据资产的价值将产生巨大的波动。在极端情况下,如某类数据资产受政策因素等影响导致其无法对外提供服务时,将导致数据资产完全失效,相关数据资产账面价值直接变为零,当期财务报表的营业外支出大幅增加。数据资产失效产生的营业外支出符合非经常性损益的相关定义,因此数据资产的失效并不会导致公司扣非后的归母净利润增加,因此数据资产在早期出现失效将不利于对上市公司的监管。为降低数据资产入表的对现有财务报表的冲击,降低 IPO 企业或上市公司对财务报表操控的可能性,本报告建议:首先在现阶段数据要素市场仍未健全的情况下,建议企业在确定数据资产使用寿命或摊销期限时,应根据可观察的事实情况,合理确定数据资产的摊销年限。其次,定义数据资产失效的条件应属于不可抗力因素导致的,如受国家法律法规因素影响,尽量避免受人为因素干预;最后要重视数据资产的信息披露,满足不同报表使用者的需求,充分反映数据资产的相关重要信息。l 数据资产在集团层面的会计核算难 对于集团公司与子公司之间以数据授权方式进行加工处理形成数据资产的情况,集团公司层面的会计计量方式与子公司报表的会计计量方式需要重点关注。如果子公司依托于母公司的数据资源,通过授权的方式取得数据资源加工使用权,并形成数据产品对外经营,支付的授权费可以作为数据资产入子公司的报表。如果母公司并未严格对其数据资源成本进行单独核算和计量,则内部交易授权费收入与数据资产在集团合并报表层面抵消后,集团数据资产成本否能准确归集、计量将受到较大的挑战。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 23 本报告建议:对于通过集团内部授权方式进行数据资源加工经营的企业,集团应建立及完善与数据资源相关的成本核算制度,严格归集核算与数据资源相关的成本,使得内部合并抵消后的数据资产仍能准确完整地在集团财务报表中披露与列示。4.4 列报与披露细则 企业应当按照会计准则相关规定,根据数据资源的持有目的、形成方式、业务模式,以及与数据资源有关的经济利益的预期消耗方式等,对数据资源相关交易和事项进行会计确认、计量和报告。(一)确认为无形资产的数据资源相关披露:1.披露主体使用的的数据资源,符合企业会计准则第 6 号无形资产(财会【2006】3 号,以下简称无形资产准则)规定的定义和确认条件的,应当确认为无形资产,并根据取得方式,按照外购无形资产、自行开发无形资产、其他方式取得的无形资产类别,分别披露相应资产的期初、期末余额,以及报告期内的变动情况。2.企业应当按照无形资产准则、应用指南(财会【2006】18号,以下简称无形资产准则应用指南)等规定,对报告期内确认为无形资产的数据资源进行初始计量,初始计量的方法可以选择实际成本法。实际成本指的是企业取得无形资产并使之达到预定用途而发生的全部支出,通过外购方式取得确认为无形资产相关数据资源的成本,成本部分包括购买价款、相关税费,以及直接归属于使该项无形资产达到预定用途所发生的数据采集、脱敏、清洗、标注、整合、分析、可视化等服务所发生的有关支出,以及数据权属鉴证、质量评估、登记结算、安全管理等费用。3.披露主体在内部数据资源研究开发项目的支出,应当区分研究阶段支出与开发阶段支出。研究阶段的支出,应当于发生时计入当期损益。开发阶段的支出,披露主体应当按照企业会计准则第 6 号无形资产(财会【2006】3号)的规定,判断相应数据资源是否满足以下无形资产确认条件:(一)完成该无形资产以使其能够使用或出售在技术上具有可行性;(二)具有完成该无形资产并使用或出售的意图;(三)无形资产产生经济利益的方式,包括能够证明运用该无形资产生产的产品存在市场或无形资产自身存在市场,无形资产将在内部使用的,应当证明其有用性;(四)有足够的技术、财务资源和其他资源支持,以完成该无形资产的开发,并有能力使用或出售该无形资产;(五)归属于该无形资产开发阶段的支出能够可靠地计量。4.披露主体在对相关无形资产进行后续计量、处置和报废等相关会计处理时,应当充分考虑数据资源相关业务模式、权利限制、数据时效性、有关产品或技术迭代等因素,披露不同类别无形资产后续计量方法:对于使用寿命有限的数据资源无形资产,企业应当披露其使用寿命的估计情况及摊销方法;对于使用寿命不确定的数据资源无形资产,企业应当披露其账面价值及使用寿命不确定的判断依据。5.披露主体应当按照企业会计准则第 28号会计政策、会计估计变更和差错更正(财会【2006】3 号)的规定,披露对数据资源无形资产的摊销期、摊销方法或残值的变更内容、原因以及对当期和未来期间的影响数。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 24 6.披露主体应当单独披露对企业财务报表具有重要影响的单项数据资源无形资产的内容、账面价值和剩余摊销期限。7.披露主体应当披露所有权或使用权受到限制的数据资源无形资产,以及用于担保的数据资源无形资产的账面价值、当期摊销额等情况。8.披露主体应当披露计入当期损益和确认为无形资产的数据资源研究开发支出金额。9.披露主体应当按照企业会计准则第 8 号资产减值(财会【2006】3 号)等规定,披露与数据资产无形资产减值有关的信息。10.披露主体应当按照企业会计准则第 42 号持有待售的非流动资产、处置组和终止经营(财会【2017】13 号)等规定,披露划分为持有待售类别的数据资源无形资产有关信息。(二)确认为存货的数据资源相关披露:1.披露主体日常活动中持有、最终目的用于出售的数据资源,符合企业会计准则第 1 号存货(财会【2006】3 号,以下简称存货准则)规定的定义和确认条件的,应当确认为存货,并根据取得方式,按照外购存货、自行开发无存货、其他方式取得的数据资源存货类别,分别披露相应资产的期初、期末余额,以及报告期内变化的原因。2.其中,企业通过外购方式取得确认为存货的数据资源,其采购成本包括购买价款、相关税费、保险费,以及数据权属鉴证、质量评估、登记结算、安全管理等所发生的其他可归属于存货采购成本的费用。企业通过数据加工取得确认为存货的数据资源,其成本包括采购成本,数据采集、脱敏、清洗、标注、整合、分析、可视化等加工成本和使存货达到目前场所和状态所发生的其他支出。3.对于存货,披露主体应当披露主要的存货类别及相应金额,如原材料、在研产品等,并披露发出数据资源存货成本所采用的方法。4.披露主体应当披露数据资源存货可变现净值的确认依据、存货跌价准备的计提方法、当期计提的存货跌价准备的金额、当期转回的存货跌价准备的金额,以及计提和转回的有关情况。5.披露主体应当单独披露对企业财务报表具有重要影响的单项数据资源存货的内容、账面价值和可变现净值。6.披露主体应当披露所有权或使用权受到限制的数据资源存货,以及用于担保的数据资源存货的账面价值等情况。(三)其他自愿披露:1.披露主体应当披露数据资源的应用场景或业务模式、对企业创造价值的影响方式,与数据资源应用场景相关的宏观经济和行业领域前景等。建议披露主体应当披露所属行业的基本特点、发展状况、公司在行业中的地位等,并结合主体商业模式、竞争优势等进行分析和讨论。(1)数据资源的应用场景或业务模式:披露主体需说明数据资源在交易流通方面的应用场景、应用模式、业务模式等。(2)数据资源对企业创造价值的影响方式:披露主体需说明数据资源为企业创造价值的方式,具体包括相关数据业务的经营模式、主要客户特征、服务内容、销售模式、盈利模式等。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 25(3)宏观经济和行业领域前景等:披露主体需说明数据资源相关产品或服务应用场景的行业发展情况以及新发布的法规对行业的影响情况。2.用于形成相关数据资源的原始数据的类型、规模、来源、权属、质量等信息。(1)原始数据类型:披露主体需说明原始数据的类型,类型可分为结构化数据与非结构化数据,其中结构化数据包括表格、数据库或电子表格形式的数据;非结构化数据包括文本、图像、音频、视频、空间等形式的数据。(2)原始数据规模:披露主体需说明原始数据的规模,具体内容可包括数据库个数、数据品种个数、数据指标量、数据条数、数据覆盖范围、存储大小、数据时间跨度等。(3)原始数据来源:披露主体需说明原始数据的来源,按照公共数据开放/授权、企业系统生成、交易市场采购三个类别进行说明。公共数据开放/授权是指通过相关公共服务单位数据开放或授权运营获取数据;企业系统生成是指经营活动中,通过企业的信息化系统采集记录的数据;交易市场采购是指通过数据交易市场采购获取数据。(4)原始数据权属:披露主体需说明原始数据的权属,可依照原始数据的来源类别进行说明。(5)原始数据质量:披露主体需说明原始数据质量的管控体系,对于数据来源为企公共数据开放/授权,可披露主体的组织架构、专业人员和设施、行政许可审批或者备案管理等,以及原始数据的采编流程、管理模式、采集平台建设情况等;对于数据来源为交易市场采购的,可描述出售方相关信息。3.企业对数据资源的加工维护和安全保护情况,以及相关人才、关键技术等的持有和投入情况。(1)企业对数据资源的加工维护情况:披露主体需说明对数据资源的采集和加工情况,具体内容可包括数据采集加工的颗粒度、更新频率、加工技术、采集渠道、采集标准等。(2)企业对数据资源的安全保护情况:披露主体需说明对数据资源的安全保护情况,具体内容可包括数据安全风险的应对机制、管理模式、软硬件层面情况、相关资质证明等。(3)相关人才的持有和投入情况:披露主体需说明对数据资源相关的团队建设情况,具体内容可包括团队结构、技术水平、人员数量等。(4)关键技术的持有和投入情况:披露主体需说明对数据资源相关的关键技术以及专利的基本情况,具体内容可包括在各个环节使用的核心技术以及企业拥有的相关专利内容。4.数据资源的应用情况,包括数据资源相关产品或服务等的运营应用、作价出资、流通交易、服务计费方式等情况。(1)运营应用:披露主体需说明数据资源相关产品或服务的运营情况,包括:企业可按相关领域通用指标,披露数据产品或服务的运营数据,比如产品的使用情况、收入情况、注册用户数量、活跃用户数量、付费用户数量、每用户平均收入等;企业应对数据资源相关产品或服务的形态进行分类并披露,可基于需求特征和服务方式,按以下表格中的四类进行描述:数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 26 服务方式服务方式 需求需求特征特征 界面类(用户主动操作的界面,实现人机交互的过程来获得数据或信息,例如 SaaS 应用)非界面类(通过某个软件程序的功能,实现程序间交互方式,例如 API)非模型化(数据用于训练和优化使用者的模型或算法,提高模型算法的性能)数据应用(功能服务)数据信息服务 模型化(使用者利用分析模型形成的结果,支持企业的日常生产经营决策)数据应用(联合建模功能服务)数据集(2)作价出资:披露主体需根据数据资源相关产品和服务的用途来说明相关产品或服务作价出资的情况。(3)流通交易:披露主体需说明数据资源相关的产品或服务的交易收入情况,并分别披露在数据交易所挂牌的产品或服务收入情况和未挂牌的产品或服务收入情况。(4)服务计费方式:披露主体需说明数据资源相关的产品或服务的计费方式,计费方式包括但不限于预付款方式、按用量计费、按时间计费等等。5.重大交易事项中涉及的数据资源对该交易事项的影响及风险分析,重大交易事项包括但不限于企业的经营活动投融资活动、质押融资、关联方及关联交易、承诺事项、或有事项、债务重组、资产置换等。其中重大事项可以参考审计报告中的披露说明。6.数据资源相关权利的失效情况及失效事由、对企业的影响及风险分析等,如数据资源已确认为资产的,还包括相关资产的账面原值及数据资源无形资产的累计摊销、失效部分的会计处理。7.数据资源转让、许可或应用所涉及的地域限制、领域限制及法律法规限制等权利限制。披露主体可以按表格形式说明相关情况:8.企业认为有必要披露的其他数据资源相关信息。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 27 5.数据资产表案例研究 上海数据交易所推出了 20家典型企业数据资产入表案例研究工作计划,并纳入金融、能源、科技、制造业、医疗、交通等细分行业龙头企业作为研究对象,以探索形成数据资产入表的一般路径。结合前期案例企业的研究成果,我们初步总结了企业推进数据资产入表的主要挑战,并基于一些可行的处理办法来部署下一阶段的工作。5.1 主要挑战 根据企业真实财务数据和业务数据展开数据资产入表模拟研究,我们发现 2024 年 1 月 1 日之后,企业以暂行规定为指引推进数据资产入表的挑战主要是以下几点:1.企业对数据资产认知有限。上海数据交易所在推进企业数据资产入表案例研究和组织举办数据资产入表研修班的过程中发现,企业对数据要素认知不到位、对数据资产的定义不清晰、对数据资产确认范围不明确是目前暂行规定执行的最大挑战。2.企业对形成数据资产的路径理解不足。企业有很多的数据资源,如何确认权属、如何开发利用形成企业的数据资产,如何从计算机语言转换为会计语言,这一路径不明确是企业推进数据资产入表的第二大困难。3.会计处理存在困难。上海数据交易所在以企业真实业务数据和财务数据为基础,组织专业团队推进数据资产入表模拟的研究工作,发现企业前期的组织架构不利于数据资产形成路径中成本归集,进而导致企业数据资产入表会计处理存在挑战。暂行规定的指引是企业以实际成本法推进数据资产入表,必然要求企业对前期数据资产达到预定可使用状态的成本投入进行清晰记录和准确计量。4.数据资产信息披露规范和机制不明确。暂行规定虽然就企业数据资产信息披露提出了一些框架性的指引,但上海数据交易所在研究中发现,企业面对数据资产信息披露依然存在很大困惑。披露平台、披露规范、披露机制、披露内容如何编制,是目前企业数据资产入表的一大困难。5.专业服务机构对数据资产评估方法实践标准不统一。上海数据交易所一直致力于培育专业数商生态,通过组织专家研讨会、企业调研会等提升数商服务能力,加快推进企业数据资产入表。我们发现,专业机构对数据资产的认识不统一、数据资产评估方法标准不统一、数据资产市场价值难以有效发现和释放是企业数据资产入表的一个挑战。5.2 研究计划与标 上海数据交易所围绕“提升全社会对数据要素认知、推进企业数据资产入表和创新应用”为核心开展数据资产入表案例研究工作,具体包括以下方面:继续加强典型企业入表案例研究,形成企业数据资产形成的一般路径。一是聚焦重点领域、选择具有行业影响力的典型企业继续推进企业数据资产入表研究,并重点探索数据资产入表模式、路径、会计处理、披露形式以及金融创新应用等。二是明确企业数据资产形成条件,首先明确数据资产权属,以数据资产可确权为核心,以上海数据交易所数据资产登记凭证为依据,进一步确保数据要素流通市场各相关方的数据资源持有权、数据加工使用权、数据产品经营权及衍生权利获得方式的合法性,对于数据来源有权属争议的,可以数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 28 暂不进行资本化,沿用之前费用化的会计处理。之后按照“数据资源-数据产品-数据资产”的途径确认报表数据资产。三是明确数据产品为数据资产的计量载体,形成以数据产品开发投入为主要构成的初始计量、以数据产品使用场景为主要依据的后续计量方式。以此为基础推动数据要素交易市场的发展,推动标准化数据产品的价格生成、清结算等核心交易环节,探索数据产品公允价值形成与入表模式,并开展数据资产凭证服务及应用探索。建立数据资产披露规范和机制,形成数据资产入表统一手势。一是统一数据资产的披露方式。对于确认为无形资产或存货的数据资产,在资产负债表相关科目予以列报和披露;对于不符合资产确认条件的数据资源,协同上海数据交易所统一企业数据资源财务信息披露的规范和标准,并鼓励企业在财务报告的管理层讨论与分析部分以应批尽批为指导原则主动披露,有效支持国家数据要素战略落地。二是明确数据资产的披露内容。可以重点披露数据资源基本情况和加工情况,包括来源、属性、规模、加工投入等;可以重点披露数据产品的流通交易情况,以上海数据交易所的数据资产凭证为关键依据,通过观察周期内的合约记录形成数据资产公允价格;重点披露数据资产创新应用情况,以及企业涉及数据资产的重大事项,建立健全上海数据交易所依法监管体系下数据资产的披露规范。三是建立数据资产的披露机制。建立日常、重大事项、周期等披露机制,切实保护投资者及其他相关方的权益。四是推动形成入表编制的统一手势。继续加强培育数据资产入表和评估机构的数商生态。严守合规安全底线,统筹利用各类相关交易服务场所、机构和平台披露的数据资产相关信息,推进数商形成体系化、标准化、规范化、便捷化的数据资产入表、评估和监督工作流程,提升数据资产价值可信度,探索数据资产登记凭证应用于基础工作的可行性路径。此外,以数据资产凭证为关键信息来源推动数据资产市场法估值的理论与实践创新,探索形成数据资产市场价值评价体系,并与金融机构一起开发数据资产创新应用模式。5.3 数据资产表与创新应 类比传统资产的创新应用,我们认为,数据资产先形成报表资产,之后再以报表资产为基础推进数据资产市场价值评定与测算,进而进入交易与流通市场去发挥金融属性,将是一条清晰和简单的路线,也是数据要素市场繁荣的基础。如果数据资产游离于报表之外,必将损害交易与流通的效率。数据资产创新应用是指释放数据资产作为核心标的物经济价值的过程,一般包括数据资产增信贷款、出资融资、资产证券化等多种方式。在数据资产创新应用的过程中,一般涉及主体数据资产权属问题和预期收益问题,金融机构都会要求提供数据资产评估报告,需要审慎评估数据资产为企业带来预期现金流的业务模式,并估算收益现金流发生的情况。目前数据资产主要的创新应用的方向有:(1)数据资产增信(2)数据资产转让(3)数据资产出资(4)数据资产质押融资(5)数据资产保理(6)数据资产信托(7)数据资产保险(8)数据资产证券化。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 29 6.数据资产表小结 从国家层面来说,我国将数据作为一种新型的生产要素纳入经济体系之中,这是一项重大的理论创新。近几年,平台型企业逐渐取代传统寡头型企业的位置,标志着全球的经济形态早已经从人力密集型或者资本密集型转为技术驱动型或者数据驱动型,可是从生产函数的形态上或者从投入要素的角度看,我们并没有将技术、数据等实体经济的主要驱动力纳入生产函数的考量。从“数据二十条”的内容我们可以看到,我国将数据确认为生产要素的主要目标是为了促进数据合规高效流通使用,推进数据赋能实体经济,一方面是加速企业数字化转型的速度,另一方面是探索企业数据资产化的应用场景。从社会层面来看,企业数据资产化意味着三个方面:第一方面企业可以通过获取公共数据授权来激活公共数据流通使用,真正实现数据取之于民用之于民,让数据要素造福人民,提高社会效率和社会福利。第二方面企业可以通过采集使用自己运营生成的或者外部数据,通过赋予数据资源创新性劳动和实质性加工,输出至社会生产经营活动之中,最终提高整个社会的运营效率。第三方面金融机构可以推进数据资产化应用场景的研究,探索数据资产增信贷款、数据资产抵押等等企业直接或者间接融资的方式,有效赋能数字经济的发展。从企业的角度来看,虽然数据资产入表可能给自由裁量权较高的管理层提供了弹性的会计处理空间,但瑕不掩瑜,数据资产入表一方面数据赋能企业数字化转型,可以有效提高企业自身的生产运营效率;另一方面数据资源审慎入表可以有效提升企业资产规模、提升估值水平。以数据资产入表为起点,数据资产化的价值能通过数据资产的交易、金融创新应用等各种方式有效助力企业实现可持续发展。目前各地交易所已经在推进相关数据资产创新应用的研究,并且已经有很多“首单”记录产生,这也是数字经济蓬勃发展的象征之一。从个人角度来看,数据要素市场交易与流通的合规性提高有助于更好的保护个人数据资产。“数据二十条”指出要建立健全个人信息数据确权授权机制,探索由受托者代表个人利益,监督市场主体对个人信息数据的采集加工和使用机制。企业数据资产化方面理论和实践的成熟有助于更好地践行“数据二十条”对于个人信息数据相关应用的高层指引。数据资产入表应该服务于国家数据要素市场战略,积极推动数字经济的发展。从我国建设与繁荣数据要素市场的角度出发,数据资产入表应该从鼓励披露、加强排摸开始,通过企业实践和案例研究相结合的方式,形成入表一般路径,并通过强化数据交易所基础设施功能,提高数据资产入表的效率,提升数据资产管理工作的效率。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 30 图 4 数据资产入表政策建议 6.1 励披露,加强数据资产排摸 暂行规定以强制披露与自愿披露相结合的方式推进数据资产入表,一方面从企业使用数据资源方式的角度将数据资源分类为无形资产和存货科目进行确认、计量和报告,另一方面还对数据资源的列示与披露做出了细化规定。从这个角度看,暂行规定将助推数据要素报表化、显性化,推进数据资产化创新应用。归根结底,暂行规定最大的的亮点其实还是强调数据资源相关信息披露。数据资源打破了传统资源的特征,如主体多元性、高重塑性等,进而导致数据资源的确权和收益分配存在挑战,更进一步,数据相关的资源按照多少价格去可靠计量、计量的方法和属性,在财务报表上按照摊销还是减值处理等等关键实践操作,都存在着挑战。从服务于国家数据要素战略的角度出发,暂行规定的首要目标是排摸全国范围内的数据资产规模,因此鼓励企业加强披露是第一步。6.2 加强指引,形成表可路径 针对数据资产入表的实践挑战,国家应该加强研究并形成一般性的入表路径。针对不同数据来源的市场主体,如何结合分类分级授权确权机制确定企业数据资源入表也是一个重要课题。推进公共数据授权运营前提下的数据资产入表,可以有效发掘公共数据的使用价值,并促进公共数据合规高效流通使用。推进企业运营伴生数据在加工使用形成数据资产的前提下入表,可以有效支持数据要素型企业发展,改善拥有大量具备可使用价值数据的市场主体的财务报表,进一步发挥数据要素的二次甚至多次使用价值。推进个人数据依法合理采集并在特定使用场景发挥作用,可以有效保护个人数据隐私安全,促进个人数据合理合规交易与流通。6.3 数据资产凭证赋能国家数据资产管理作 数据资产凭证是上海数据交易所在数据资产登记与交易方面的理论与实践创新。该凭证记录数据产品成本、权属、交易价格等多项信息,依托全国数据交易链生成,实现数据资产凭证发放“智能生成,全链共识”数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 31 的全国统一的认证、发放与验证机制,打造数据资产生成器,为探索数据资产入表、资产估值以及数据资产创新应用提供基础。企业对数据资源加工和处理之后形成可供登记的数据产品,交易所进行登记时首先要求企业提供权属法律文件,其次提供成本信息,帮助企业进行成本梳理与确权登记,会计师事务所可以根据该信息进行数据资产的入表工作。数据资产凭证还可以记录企业数据资产在交易所平台的交易信息,包括价格、场景、交易时间等等多个维度标签,从而支持企业数据资产市场法估值工作。对于企业主体来说,数据资产凭证可以支持数据资产相关的管理工作。国家也可以通过交易所平台来管理全国范围内的数据资产,可以有效推进数据分类分级授权确权机制研究。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 32 第三部分 数据资产估值操作 7.数据资产评估基础理论 7.1 数据资产权利权属 数据资产评估第一步就是确认评估标的,即确权。数据资产的价值建立在相应的权利基础之上。数据资产的权利与权利主体之间存在权属问题,在面对不同来源的数据,需要厘清各主体之间的权利关系,通过法律制度、政策制定等方式明确数据产权的归属。从数据资产权利内容的研究来看,曹磊(2013)认为数据权利包括数据主权和数据权利两方面。其中,数据主权的主体是国家,是一个国家独立自主地对本国数据进行管理和利用的权力;从实施方式来看数据主权可以分为数据所有权和数据管辖权两方面:数据所有权是国家对其本国数据排他性占有的权利;数据管辖权是国家对其本国数据享有的管理和利用的权利。肖冬梅和文禹衡(2015)提出构建一种新的数据权利模式,基本框架可分为数据主权和数据权限两种模块。张毅菁(2016)认为个人数据权主要包括个人数据财产权、个人数据、人身权,其中个人数据人身权包括了隐私权、知情权和使用权、被遗忘权和删除权。朱扬勇等(2020)对数据资产的权利细分为探索权、使用权和所有权,认为针对数据资产不同权利的交易,会产生不同的费用。关于数据资产确权,国内外均进行了一定程度的探索。美国司法中针对近年来出现的一些与数据权属具有一定关联的案件中,法官和律师均回避了数据在企业之间的确权问题,而是从现行合同法的角度给予回应,类似于通过具体合同“一事一议”的形式来界定和分配不同主体的权利。这种对数据资产权属确定的灵活态度,在一定程度上促进了美国互联网和数字经济的发展。欧盟确定了“个人数据”与“非个人数据”二元架构。2016 年欧盟通过并于 2018 年 5 月正式生效的通用数据保护条例(GDPR)明确了个人数据的数据主体与数据控制者之间的严格界定,针对任何已经识别或者可以识别的自然人相关的个人数据,其权利归属于该自然人。该自然人享有包括数据知情权、访问权、拒绝权、纠正权、可携带权、删除权/被遗忘权、限制处理权、免受数据画像影响权等一系列权利。同时,欧盟委员会在建立欧盟数据经济这一政策性文件中呼吁,应当针对非个人的机器生成数据设立数据产权,规范市场和交易。针对非个人数据,企业享有“数据生产者权”。欧盟委员会希望通过“数据生产者权”鼓励并在特殊情况下强制企业授权第三方访问其数据,从而促进数据的流通和增值。我国民法典中规定了个人信息主体对个人信息的查阅权、复制权、更正权和删除权,同时明确了信息处理者对个人信息的安全保障义务,以及公权力机关及其工作人员相应的个人信息保密义务等。2022 年 6 月 22 日,习近平主持召开中央全面深化改革委员会第二十六次会议,会议指出,要建立数据产权制度,推进公共数据、企业数据、个人数据分类分级确权授权使用,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,健全数据要素权益保护制度。数据资产的权利和权属问题,关系着数据资产价值的发挥以及数据要素市场的培育,目前数据确权方面对数据资产所有权均采取了一定程度的搁置,明确了数据主体对数据享有的查阅权、复制权、更正权、删除权等,同时在合法、正当、必要且征得同意的前提下,也允许数据处理者(数据控制者)享有对数据处置和收益的权利。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 33 显然,“数据二十条”在数据产权方面的主要设计师基于搁置争执、避免侵权、合规拥有、合理受益的目标。从社会经济运行规律以及要素资源交易流动的本质来看,明确的权属认定和划分标准是保障市场主体利益、维护市场有序发展之根本。特别是对于数据资源来讲,确权始终是数据资产化无法逾越的第一步。以资产评估为例,本质上是对资产的某项权利/权益价值的测算,这一点在指导意见第十二条、第十四条中也有明确的规定。在评估实践中,如果评估报告没有特别强调一项资产的权利,那可以明确是基于所有权这项基本权利。一旦资产出现分权/授权的特性(例如土地使用权、著作权的授权等),那么明确主体对其拥有的权利就成为了评估的前提。“数据二十条”中指出,要“根据数据来源和数据生成特征,分别界定数据生产、流通、使用过程中各参与方享有的合法权利,建立数据资源持有权、数据加工使用权、数据产品经营权等分置的产权运行机制,推进非公共数据按市场化方式共同使用、共享收益的新模式,为激活数据要素价值创造和价值实现提供基础性制度保障。”实际上,产权分置的概念并不是从数据要素才出现的。2016 年 11 月,中共中央 国务院印发了关于完善农村土地所有权承包权经营权分置办法的意见,意见中要求做好农村土地集体所有权、农户承包权以及土地经营权的“三权分置”工作。随后,国务院新闻办公室在新闻发布会中对文件精神作出进一步解读,强调推动农村土地“三权分置”是新的历史条件下关于农村改革的重大制度创新,主要目的之一是促进土地资源优化配置,让土地作为要素流动起来,从而培育新型经营主体发展适度的规模经营,推进农业的供给侧结构性改革。从这个意义上讲,数据要素的“三权分置”与土地要素有很多相似之处,其意义都是在于通过权益的细分并分散权益承载主体,充分发挥要素的使用和经营作用,促进要素流转。农村土地的“三权分置”本质上是基于农村土地集体所有权的创新,产权与治权关系紧密,权利的派生和分置路径清晰。相对而言,数据要素的“三权分置”则在理论和实践中仍然有很多亟需达成共识的问题,如三权的明确定义到底是什么,包含哪些具体的权利权属问题,企业和第三方服务机构到底应该如何确认相应权属边界以及所对应的投入成本,这既是数据资产入表的前提,又是数据资产评估的关键一步。7.2 数据资产三重价值 价值链理论由迈克尔波特(Michael Porter)于 1985 年提出。该理论从价值创造的角度出发,运用现代管理理论和方法,识别和重构企业价值链,确定企业的竞争优势。本报告以价值链理论为基础,基于企业数据资源创造价值的过程,提出数据要素价值链理论4,探索数据资源形成数据资产的一般路径,如图所示。促进数据要素市场的交易与流通,一方面应积极推动数据资源化过程,推进以数据产品为载体的数据资产入表,推动数据资源使用价值和交换价值的充分释放;另一方面应通过数据资产创新应用,以数据资产经济价值结果显性化反向推动产业链各主体积极参与市场各项规则的建设。4 赵丽芳,林,李璞.基于数据要素价值链的企业数据资产评估法,2023.数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 34 图 5 数据要素价值链 从评估的角度来看,数据资产的价值来源主要从数据资产的成本构建、收益获取和市场供需的角度考虑。拥有数据资产的主体可以通过对数据的分析和加工,深度挖掘数据资产的价值。在有活跃交易市场的情形下,可从市场角度对结合类比数据资产特征对数据资产的价值进行分析。数据资产的构建成本,即数据资产形成过程中各环节投入的成本,反映的是投入视角下的数据资产价值,与数据资产的规模及结构、数据获取难度、数据更新周期及频率、安全级别及措施等因素具有较强的关联性。数据资产的成本属性是从数据资产所花费的成本的思路对形成数据资产花费的成本进行归集的一种思路,一般体现了处于开发初期的数据资产的价值,因为这类数据资产尚未形成显著的社会及经济价值,采用成本思路评估其价值存在一定的合理性。影响数据资产的价值主要从数据资产的收益和应用角度考虑,通常情况下数据资产都需要依托于特定的数据应用场景发挥经济效益,因此同一数据资产在不同的应用场景下体现的经济价值可能存在较大的差异。由于数据资产本身存在的可复制、可共享、可协同、可再加工等特点,具备可商业化应用场景的数据资产能够在购建成本基础上,以极低的边际成本获得收益的倍增,从而实现更大的社会和经济价值。7.3 评估与数据产品定价 传统经济学中,价格的本质是一种从属于价值并由价值决定的货币价值形式。价格需要遵循市场经济的一般规律,它反映企业的品牌形象、市场地位,直接影响企业盈利目标的实现,也是企业市场竞争的重要手段。一般来说,影响定价的因素多种多样,从宏观和微观的角度分析,包括不限于如产品的市场需求状况、产品成本、竞争状况、政府对价格的干预、货币价值与货币流通量、社会经济状况和消费者的心理因素等等。数据产品或者数据资产的定义,依然可以参考传统产品的定价方式。在传统产品定价研究中,有几种普遍的方式:数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 35 成本加成定价法:一般指的是将生产投入作为定价的基本依据,特点是简单、方便,能够保证企业不亏损。需求导向定价法:一般是以市场需求强度和消费者感受作为主要依据来定价的方法,比如认知定价法和反向定价法。竞争导向定价法:指的是市场上相互竞争的同类产品价格作为定价的基本依据,随着竞争状况的变化来确定和调整价格水平的一种定价方法,如随行就市定价法和密封投标定价法。目标利润定价法:指的是根据企业总成本、预期销售量、目标利润率,并以此作为定价的基础。数据产品相关的定价问题和信息产品相关的定价相似度较高,和传统产品又有显著区别,如数据的高重塑性导致数据产品和传统产品生命周期的演进上存在显著差别,导入期不能实现规模经济的特征不复存在。数据产品的使用依赖场景需求,不同使用主体、不同场景中数据的作用是完全不一样的,所以导致数据产品的定价具备较强的差异性。从数据资产三重价值出发,数据资源和产品的定价关系到其价值的充分挖掘和释放,如资源阶段的使用价值到底怎么定价,取决于供给方的成本和需求方的收益。供给方需要投入大量的人力和设备去采集、整理、加工等等,形成可进一步加工、可信任、有规模的数据资源,才有可能进入流通应用环节。从竞争规律和价值规律来看,供给方如果不能实现保本,那这种交换活动是不可持续的,所以数据资源的定价依赖于供给方的成本。需求方在某些收益场景中需要购买数据去降本增效或者提高收益,如银行购买很多数据去降低坏账率,如保险购买核验类的数据去规避风险,所以需求方对于不同的数据的需求程度和愿意付出的价格是具有显著差异性的。目前,供需双方都有惯性的一事一议定价法,即通过谈判来确定价格,那随着数据要素市场的发展,数据要成为一种生产要素,必然需要具备低成本、大规模可得的特点,也同时需要实现赋能实体经济的效果。数据产品和数据资产层面的定价,一方面依赖于企业投入开发的成本,另一方面也依赖于企业的品牌策略、渠道策略、营销策略,以及市场竞争程度等等。不同的竞争环境下,不同的市场地位,不同的营销诉求,会导致企业在定价决策方面做出不一样的选择,比如金融行业的 wind和数库虽然研发出应用场景相似、客群相似的产品,但两家公司不同的市场地位导致他们定价也不一样。而企业征信类产品,如合合、企查查、天眼查等,由于市场竞争激烈,目前三家产品的基础款几乎是同一价位。所以,结合企业层面的定价策略,我们也可以推广到公共数据的定价策略。“数据二十条”对公共数据的定价指引做了说明,对各级党政机关、企事业单位依法履职或提供公共服务过程中产生的公共数据,加强汇聚共享和开放开发,强化统筹授权使用和管理,推进互联互通,打破“数据孤岛”。鼓励公共数据在保护个人隐私和确保公共安全的前提下,按照“原始数据不出域、数据可用不可见”的要求,以模型、核验等产品和服务等形式向社会提供,对不承载个人信息和不影响公共安全的公共数据,推动按用途加大供给使用范围。要求推动用于公共治理、公益事业的公共数据有条件无偿使用,探索用于产业发展、行业发展的公共数据有条件有偿使用。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 36 对于有条件有偿使用的公共数据,我们需要借助数据产品估值技术来合理定价,即首先梳理数据资源的开发成本,其次根据特定使用场景预期现金流的测算,来辅助公共数据产品定价。这种定价方式本质上是数据资产评估成本法和收益法的结合。从更长远的角度来看,数据要素市场的发展将推动数据资产创新应用的新局面,也就是说,进入企业资产负债表的数据资产,将有可能像其他类型的资产一样,以其质量、公信力、收益预期作为偿付基准来发行证券产品。目前,数据资产的市场法还没有形成统一的衡量指标,也没有足够多的可比案例支持市场法评估。但目前国际上已经有多起以数据资产作为核心标的的并购案例,各地数据交易所也挂牌了很多数据产品,这些将成为数据资产市场法定价的基础支撑。8.数据资产评估法 资产的价值评估主要基于三大路径,即成本途径、收益途径和市场途径。数据资产与传统资产比较尤其独特的特征,但资产形成和价值实现的路径与传统资产也基本类似。目前对数据资产价值评估的方法研究中,主要为在成本法、收益法、市场法三大基本方法的基础上,考虑数据资产的特殊因素对评估模型加以修正和改进。成本法是以待估资产实际成本为基础的一种评估方法。德勤评估(2019)认为,基于成本法的数据资产价值应为重置成本扣除贬值因素,对数据资产而言,贬值因素主要来源于数据资产丧失时效性带来的经济性贬值。林腾飞(2020)认为贬值因素除了经济性贬值外还应包括功能性贬值,功能性贬值为功能性贬值率与重置成本的乘积。普华永道(2021)提出将数据资产价值形成的过程分为三个阶段,对于初探应用场景和进一步深度开发实现商业价值的数据,定义为处于数据价值势能向动能转化的阶段,基于数据系统的构建成本,通过潜在经济价值呈现因子、潜在社会价值呈现因子进行修正。中国资产评估协会综合考虑数据资产的成本与预期使用溢价,加入数据资产价值影响因素,建立成本法的修正模型,基本公式为:评估值=数据资产总成本(1 数据资产成本投资回报率)数据效用。收益法是基于数据的应用场景,通过数据资产预期带来的经济效益并考虑相关风险后折现计算的价值。胥子灵(2022)等人以某通讯企业为例,研究了多期超额收益法在数据资产评估中的应用,并根据通讯行业企业的特点,加入客户留存率参数对数据资产的价值进行修正。孙文章(2023)等人以互联网金融企业为例,使用多期超额收益法进行评估,并通过梳理互联网金融行业企业数据资产的特征、价值来源及价值影响因素,运用层次分析法提出互联网金融企业数据资产价值变化系数及影响权重。陈星(2022)在运用层次分析法的基础上,引入了熵权法对层次分析法得出的因素进行二次修正,以尽可能减少层次分析法中的不足。权忠光(2022)等人基于数据资产的生命周期探讨分析了不同阶段的数据资产适用的评估方法,将数据资产划分为开发阶段、赋能阶段、活跃交易阶段和处置阶段,结合数据资产评估目的和实现价值的商业模式探索分析了各种评估方法的适用性。因数据要素交易市场尚未完善,评估中难以获得公开的价值参数,基于市场法的研究较为少见。数据资产凭证是上海数据交易所在数据资源确权方面的探索,也有很多学者参与探讨数据资产凭证的应用场景和功能定位。数据资产凭证是一种用于记录数据资产交易、交付、权属等信息的电子凭证,该凭证依托于全国数据交易链,基于不同的应用场景发挥相应的作用,可用于各层次数据要素市场。依托全国数据交数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 37 易链的数据资产凭证生成标准化协议与智能合约,结合交易链上数据产品挂牌、数据产品交易存证,实现数据资产凭证发放“智能生成,全链共识”的全国统一的认证、发放与验证机制。数据资产凭证通常包括记录数据产品登记;每一次链上交易信息,并将电子订单、数字签名、发票等信息上链保存;同时包含价格、交易量、复购率、使用场景、用户评价等参数的指标清单。首先,数据资源持有权的确权途径是数据资源登记,数据资产凭证登记了数据资源用于形成数据产品或服务的相关信息,可作为数据产品经营权的确权凭证。数据资产凭证包含了数据资源的来源,通常可分为公共数据、企业数据两类,采集这两类数据后进行加工可以形成具有资产价值的数据资源。对于授权运营的公共数据,凭证记录了被授权企业进行数据资源登记,并与公共机构分享数据资源持有权的情况。对于企业相关业务自主生产的数据,可以进行数据资源登记,由企业取得数据资源持有权。其次,对于通过爬取的公共数据,不宜登记取得数据资源持有权,企业只要遵循行业规则,没有采用非法侵入计算机信息系统和非法获取计算机信息系统数据等非法方式,就可以获得数据加工使用权。对于通过交易市场采购的数据,在签订数据交易合约时,便赋予数据购买方数据加工使用权。对于企业间委托加工的数据,要求在合约允许范围内加工数据,形成数据产品,可以获得数据加工使用权。由于数据加工使用权是一种灵活的、有限的“防御性权利”,不能作为资产性权益,也无需登记机构颁发确权凭证。最后,企业对数据资源需要付出了实质性加工和创新性劳动,从而形成可交易的数据产品。数据资产凭证记录企业加工使用数据的过程,可以作为企业可以登记取得数据产品经营权的重要依据。文献对于数据资产评估的理论逻辑讨论已比较充分,基本上基于传统的评估思路,并考虑数据资产的特征,通过衍生方法或创新模型加以修正,以弥补传统评估模型在数据资产评估中的不足。综上所述,数据资产在估值方法层面与传统评估不存在重大差异,主要还是基于成本法、收益法及市场法进行测算。其中市场法由于现有数据资产的研究正处于初期阶段,目前形成的市场交易主要针对的还是单一数据产品或是特异性很高的数据资产相关合同权利等,因此短期内无法提供流通性较强的市场案例作为对比。此外成本法及收益法的适用性均较为充分。成本法选用历史投入归集的角度,分析相关的数据标注、整合、分析、可视化加工等生产过程,汇总其前期规划成本、建设成本、运维成本和其他成本,此外还需包括与数据资产直接相关的或者可进行合理分摊的软硬件采购、基础设施成本及公共管理成本,合理利润和相关的税费。收益法可根据数据资产未来的收益期限和收益预计,确定合适的折现率,选用收入分成法、利润分成法或多期超额收益等等评估模型进行计算。8.1 数据资产评估指导意解读 指导意见是继财政部 2023 年 8 月 21 日发布企业数据资源相关会计处理暂行规定(以下简称暂行规定)后的又一部推动数据资产化的财会文件。暂行规定的正式发布意味着推进数据成为一种新型生产要素从会计上开始显性化,一方面为企业披露数据资源形成强有力的指引,另一方面更是为推进数据要素市场交易与流通奠定基础,标志着我国正式迈出了数据资源入表从 0 到 1 的关键一步。指导意见则是数据资产评估执业人员的行动准则,一方面从微观层面推进数据资产价值的计量,能更加充分反映出数据资产对实体经济的赋能作用,另一方面能为数据资产的交易与流通奠定基础,进而发现数据资产公允价值,真正助力全国大统一数据要素市场的发展建设。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 38 数据作为一项新型的生产要素,要想实现大规模、低成本可得,真正赋能实体经济发展,还需要依赖高效合规的交易与流通市场。这就意味着,一方面企业要充分利用国家数据交易所的官方途径去披露和交易数据资产,另一方面国家需要培养一批数商去为企业提供相关审计、评估等的服务。指导意见既在微观层面界定了数据资产价值的测算方式,充分反映出数据资产对实体经济的赋能作用,也在宏观层面为数据资产的价值发现、价值释放、价值流动提供了操作指引,真正助力于全国数据要素市场的全面建设和统一发展。但关于数据资产评估,早在 2019年年底,中国资产评估协会就曾以专家指引的方式,构建了关于数据资产评估的整体执业框架(中国资产评估协会专家指引第9 号:数据资产评估(以下简称“专家指引”)。中国资产评估协会此次将数据资产价值评估的相关执业要求以准则形式发布,既是为了适应数字经济时代的加速到来,也是为了在后续进一步发掘数据资源价值,提前做好规范性布局,为暂行规定的实施做好充分的衔接工作。指导意见为专业资产评估机构提供数据资产评估工作提供了指引,但在具体实践中更加强调数据资产应用场景,而基于应用场景的评估与其他资产评估存在较大不同,给评估师带来很多挑战。从内容来看,指导意见分为七章二十八条,分别从基本原则、评估对象、操作方法、评估方法、披露要求等方面对数据资产评估执业做出了规定。与其他指导意见类准则的一般结构不同,数据资产评估的指导意见特别增加了对于评估方法的描述,从另一个角度体现出数据资产具有一定的特殊性。指导意见中对于数据资产的定义,与暂行规定基本保持一致,即“特定主体合法拥有或者控制的,能进行货币计量的,且能带来直接或者间接经济利益的数据资源”。这个定义,与“专家指引”中的相关内容有所不同,但更加贴合了会计学意义上对于资产的认定。指导意见中的基本遵循一章,强调了资产评估机构在执行数据资产评估业务时,应当秉持的职业操守以及一些原则性的专业判断,总体上与其他指导意见类的准则相似。但同时,指导意见也重点强调了资产评估专业人员应当关注数据资产的安全性和合法性,遵循保密原则;提醒资产评估专业人员应当具备相应的专业知识、技术手段和经验,具备开展数据资产评估业务的胜任能力。从评估对象一章开始,指导意见开始围绕数据资产的特性逐条规范相关资产评估业务的基本要素和具体操作要求。指导意见首先明确了数据资产的三个基本属性:信息属性、法律属性和价值属性,以及数据资产的五个特征:非实体型、依托性、可共享性、可加工性和价值易变性。三个属性和五个特征,既是对数据资产有别于其他资产的高度抽象,也是对特定数据资产作为评估对象的限定标准。资产评估专业人员在执业过程中应当充分关注数据资产的属性和特征,掌握数据资产的基本信息并意识到相关属性和特征对界定评估对象的影响。需要说明的是,与“专家指引”中所描述的数据资产特征相比,“指导意见”不再提及“多样性”的概念,同时新增了数据资产的“可共享性”,这说明资产评估行业对于数据资产基本特性的认知,尤其是如何比较准确的界定数据资产,也在不断地更新迭代。不可忽略的是,评估对象一章中,也特别强调了数据要素的“三权分置”,并与“数据二十条”的表述完全保持一致。在此基础上,指导意见要求资产评估专业人员在确定数据资产评估对象时,应当根据评估目的、权利证明材料等,确定评估对象的权利类型。在操作要求一章,指导意见进一步提出影响数据资产价值的四个因素,包括成本因素、场景因素、市场因素和质量因素。其中比较值得关注的是场景因素和质量因素。指导意见认为,场景因素包含了数据资产的使用范围、应用场景、商业模式、市场前景、财务预测和应用风险等维度,并强调同一数据资产在数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 39 不同的应用场景下,通常会发挥不同的价值。场景因素实际上是一个比较综合的概念,既包括了数据资源在不同分级分类下的应用,也包括了数据产品生命周期的演进,更包括了针对数据资产的经济行为/评估目的,而不同的经济行为/评估目的又与数据资产评估结论的价值类型密切相关。将数据质量纳入数据资产价值的考量因素之一,是指导意见在所有资产评估准则系列中的独创和亮点。指导意见认为,数据质量因素,包括数据的准确性、一致性、完整性、规范性、时效性和可访问性等,对数据资产价值具有比较重要的影响,要求资产评估专业人员采取恰当方式执行数据质量评价程序或者获得数据质量的评价结果,必要时可以利用第三方专业机构出具的数据质量评价专业报告或者其他形式的数据质量评价专业意见等。对于数据资产的评估方法,尽管指导意见单设一章,但本质上与资产评估执业准则无形资产并无本质区别。也就是说,对于纳入数据资源无形资产的价值评估,其理论框架和模型并未超出无形资产的范围。指导意见中重点列举了收益法、成本法以及市场法在数据资产价值评估中的应用,并要求资产评估专业人员在采用该些评估方法时注意其适用性、合理性及各类参数的科学性。关于数据资产的评估方法,有两点值得注意,一是指导意见中要求在采用成本法和市场法时应当考虑数据质量对价值的影响,将数据质量评价结果作为成本法和市场法的调整参数,但是对收益法并无此类要求,也未说明理由。二是指导意见对于三种评估方法的介绍具有一定的先后顺序,这也代表了在当前情况下三种评估方法的使用优先度。由于目前尚未形成活跃的数据资产交易市场,市场法的使用相对劣后也在情理之中,但是这并不意味着是数据资产价值评估的常态。自第一次工业革命以来,人类社会通过发掘生产要素、创新生产工具,极大地提高了生产效率。从蒸汽到电力、核能,再到互联网通讯,人类社会工业化的路径归根到底是在开发资源禀赋,并将其广泛运用于生产经营过程中。如今,数据作为一项实际上一直伴随着人类发展历史的客观存在,由于算法和算力的突飞猛进,正日益展现出强大的生命力,人类生产效率的提升也逐渐从产能产量角度向解决信息不对称过度。数据要素在时代的催生下,无论是在宏观层面还是在微观层面,均被赋予了重要的经济乃至金融属性。虽然不可否认的是,数据资产化依然处于前期探索阶段,包括指导意见在内的一系列制度还需要在未来的实践中不断完善优化,基于指导意见的数据资产评估执业对于资产评估行业而言,依然存在一定的挑战和疑虑,如数据资产权属问题、收益年限问题、质量评价实践问题、市场法适用范围问题等。但更加不可否认的是,指导意见的出台对于深入贯彻“数据二十条”的顶层设计,构建数据基础制度,充分发挥我国海量数据规模和丰富应用场景优势,激活数据要素潜能,做强做优做大数字经济,增强经济发展新动能,构筑国家竞争新优势等方面具有重要的意义:一是规范数据资产评估。指导意见将数据资产定义为特定主体合法拥有或控制、能进行货币计量,且能带来直接或间接经济利益的数据资源,这与暂行规定中的定义保持一致,有利于统一数据资产的专业认知。指导意见还详细规范了数据资产的评估对象、操作要求、评估方法和披露要求,为数据资产评估提供了专业的指导和标准,有助于资产评估机构在开展数据资产评估时有可遵循的准则依据,降低了执业行为的随意性,增加了评估结论的可信度和可比性。二是促进数据要素流通。生产要素的流动,是体现要素价值的核心,数据要素也是如此。从“数据二十条”中设计数据要素“三权分置”的本意来看,也是为了强调在加工使用和经营过程中盘活数据资源价值。指数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 40 导意见的出台,首先在数据具有价值这个基本问题上释放了明确的信号,同时也通过专业的价值判断标准鼓励数据资源的拥有者或控制者发现数据潜在价值,开发数据产品,推动数据开放共享,促进数据要素合法合规的跨领域、跨行业、跨境流动,形成活跃的数据资源交易市场,最大程度发挥数据要素价值。三是引导资源合理配置。按照暂行规定的要求,数据资源按照历史成本入表,特别是对于企业内部生成的数据资源,资产评估值不能作为入表依据。尽管如此,数据资产评估依然可以在入表前的历史成本归集、数据资源价值了解、预期收益分析等方面提供专业咨询建议。数据资产评估的核心作用体现在数据资源入表后的后续计量以及交易、融资、出资、证券化等经济行为中,这些都需要从市场价值/公允价值的角度衡量数据资源的潜在经济利益,从而实现数据资源价值属性的切换。指导意见的出台,使得数据资源的价值具备了切实可行的量化标准,有利于维护市场交易的公平、繁荣、稳定,也有利于帮助市场主体意识到数据资产的重要性,在战略规划和经营决策过程中获得透明有效的参考信息,为优化资源配置、引导生产要素有序流动提供重要依据。四是加强数据治理能力。数字经济的可持续发展和数据要素价值的合理体现,离不开全社会数据治理体系的建设。数据治理,不仅是制度建设、流程建设和系统建设,更依赖于数据治理意识的根本提升。指导意见中对于执行数据资产评估业务提出了较为严格的程序要求,对于数据资产作为评估对象的关注要点涉及到了信息技术、法律、财务、管理等方方面面,实际上是倒逼拥有或控制数据资源的市场主体扎实做好数据治理体系建设,努力提升数据治理能力,在数据资产化过程中保障数据合规和数据安全,在遵循数据伦理的基础上维护社会责任。五是打造国际竞争优势。中国拥有庞大的数据资源,这为数据资产化以及数字经济发展提供了强有力的基础资源保障。特别是近几年来,中国政府在数字基础建设方面投入巨大,包括 5G 网络、宽带互联网和数据中心的建设高速发展,人工智能、工业物联、电子商务等领域不断涌现出新的科技企业和创业公司,数据要素的活力绽放和数据资源的沉淀积累,为我国参与和主导新的国际竞争格局奠定了一定的先发优势。任何投入和产出,均需要进行价值量化;竞争实力的大小,也需要具备衡量标准。指导意见的出台,恰逢其时。通过规范数据资产的价值评估,有利于提升国内企业的数据管理和利用能力,有利于了解数据要素市场的容量和潜力,有利于统计数字经济对国民经济发展的贡献程度,有利于我国在国际合作及一带一路过程中加强与世界多个国家的合作联系,推动信息基础设施建设和数据跨境服务,扩大数字经济的全球影响力。8.2 基于数据资源分类分级的数据资产评估法 根据“数据二十条”,我国将推进数据分类分级确权授权使用和市场化流通交易,主要指的是公共数据、企业数据、个人数据的分类分级。从数据要素型企业实践来看,有些企业是以公共数据授权运营作为业务基础,如上海随申行智慧交通科技有限公司在上海数据交易所挂牌的“城市智慧泊车”的数据产品,通过输入坐标定位数据可以查询周边的公共停车场信息及停车场可用泊位空余度;如上海金润联汇数字科技有限公司深耕交通行业,构建了人、车、路、卡等多维数据融合服务于交通生态的数据科技服务平台。有些企业则是基于公开市场自行采集的数据开展业务,如恒生电子股份有限公司(简称恒生电子)、万得信息技术股份有限公司(简称万得资讯)和数库(上海)科技有限公司(简称数库科技)等都是基于采集上司公司年度报告等公开数据来构建核心业务;也数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 41 有些企业是基于在运营过程中自行生成的或者外部市场采购的数据来开展业务,如商业银行和证券公司等金融机构,一方面会购置大量企业征信或者工商等多种数据,另一方面在己方业务运行过程中也会生成大量数据。目前,数据要素型企业的数据来源大多是公共数据授权、公开市场采集或者企业自身业务运营生成。企业在进行数据资产评估工作时,需要根据自身数据资源的来源来选择适合的评估方法。来源为公共数据 根据“数据二十条”,公共数据运营的宗旨是“推动用于公共治理、公益事业的公共数据有条件无偿使用,探索用于产业发展、行业发展的公共数据有条件有偿使用”,因此公共数据具有显著的公益属性和共享属性。公共数据部门一般不会以垄断形式对企业进行授权,但数据开发利用是一个长期的过程,因此更换合作企业可能面临更高的重置成本。各个部门的公共数据呈现差异性,基于公共数据开发的数据产品很难在市场上找到可比类型,故不适用市场法。基于公共数据的公益属性以及企业与有关部门长期合作的关系,本文建议企业以授权合作协议为评估对象,以成本法为主,并将收益法作为参考。其中,收益法可以发现公共数据授权合约的真实价值,体现公共数据赋能实体经济的真实效果。来源为公开采集或者企业业务运营 企业通过公开市场合法采集数据形成的数据资源显然不具备排他性,且供需市场呈现竞争对手多、市场竞争激烈的特征。企业的战略水平、市场运营能力、渠道治理能力、目标顾客群开发与维护能力存在较大差异,这些能力是决定企业在市场竞争中能否形成比较优势的关键。因此,在评估这一类型企业的数据资产时,本文认为收益法和市场法更能反映企业的商业价值。例如,在评估万得资讯和数库科技的数据资产时,相比于底层数据资源,资产评估机构应该侧重于对他们技术赋能能力的评估。如果企业的数据资源是业务运营中衍生出来的,那么一方面这些数据资源具有一定的排他性,另一方面企业的技术和市场能力也会对数据资产的价值释放产生重要影响,所以企业在评估数据资产时应该以成本法和收益法综合评估的结果为主,同时在企业在应用场景中加入市场价值调节变量。这种类型的案例有以商业银行、证券公司、基金公司为代表的金融行业企业,也有以中国移动、中国电信、中国联通等运营商为代表的企业。8.3 基于数据产品命周期的数据资产评估法 产品生命周期是市场营销学的传统概念,指产品在市场竞争中的经济寿命,是产品从准备进入市场开始到被淘汰退出市场为止的全部过程,一般分为导入期、成长期、成熟期、衰退期四个阶段。产品生命周期存在的原因主要是在市场流通过程中,消费者需求发生变化,或者其他影响产品市场竞争的因素产生,如出现竞品等。数据产品具有传统产品生命周期的特征,叠加数据价值时变性的特点,数据产品的生命周期可能会呈现阶段跳跃性或者各个阶段生命周期更短的特征。假设企业相关数据产品满足暂行规定资产确认的条件,那么对于生命周期阶段区分比较明确的数据产品,本文认为不同阶段的数据资产评估应该选取不同的方法。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 42 本文将数据产品生命周期阶段分为导入期、成长期、成熟期和衰退期,分别分析数据资产不同生命周期阶段适用的评估方法。导入期 导入期是指数据产品进入市场的初始阶段。导入期的数据产品存在顾客群画像不清晰、应用场景不明确等特征。企业为了挖掘用户需求、拓展数据产品的销路,需要进行宣传和促销等一系列的活动,进而会导致数据产品相关的运营费用增加。需要注意的是,数据产品与传统产品不同,数据产品本身具有高重塑性和可复制性的特点,不存在传统产品在导入期不能大批量生产的技术问题。因此,本文认为导入期的数据产品更适合选择成本法进行估值。成长期 成长期指的是数据产品已经有比较成熟的应用场景,已经被大多数消费者所熟悉,同时市场竞争加剧的阶段。对于成长期的数据产品,顾客群相当稳定、销售量持续上升、企业相关的费用投入也出现明显下降,企业应该结合各个渠道产品的销售情况来合理预计数据产品给企业带来经济利益流入的情况,并采用收益法或者市场法进行数据资产估值。成熟期 成熟期是指企业数据产品经过成长期的快速增长之后,销售量增速放缓的阶段。成熟期是数据产品生命周期中持续时间最长、由顶峰转入低谷的转折时期。企业在成熟期可能采用的市场策略有市场开发、产品应用场景开发等等。综合来看,企业如果要评估处于成熟期的数据资产,应该优先选择收益法或者市场法。衰退期 进入衰退期的数据产品可能面对应用场景饱和、市场竞争激烈、顾客使用习惯发生变化等问题,进而导致企业原来的销售渠道和销售额出现下降。企业对这一类型的数据产品再去开发新的应用场景可能投入小于产出,因此,企业可能会一方面维护老顾客群体,另一方面放弃继续投入该产品。从这个角度看,该类型产品预期流入原企业的现金流是明确可计量的,因此对企业来说采用收益法评估更合理。如果市场上有其他企业需要基于该类型产品进行其他类型的研发活动,也就是直接购买该数据产品包,意味着原先产品的适用场景发生变化、适用人群也可能发生变化,此时就需要基于活跃的交易与流通市场来为该产品定价,那么企业应该优先选择市场法评估。8.4 基于数据资产经济为的数据资产评估法 1.不同经济行为类型下数据资产评估方法的选择 数据资产评估涉及的经济行为类型主要包括转让、许可使用、出资、质押融资、企业清算、司法诉讼、司法执行财产处置、财务报告、资产证券化。以下对不同经济行为类型下数据资产评估方法的选择进行具体分析。(1)转让 数据资产转让是指转让数据资产的数据资源持有权、数据加工使用权或数据产品经营权等权利。以下分卖方视角和买方视角分别探讨数据资产转让中评估方法的选择。卖方视角 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 43 卖方即将转让数据资产,转让后数据资产在新的企业利用方式和产生收益的模式均会发生变化,通常难以预测转让后数据资产未来的收益,故从卖方角度采用收益法评估可能存在一定困难。而卖方掌握数据资产的成本信息,因此可采用成本法评估,作为转让价格的下限参考。若卖方认为其数据资产盈利能力较强,实际价值远高于成本法评估值,也可在假设数据资产不转让情况下编制未来收益预测并采用收益法得出评估值,作为转让价格的参考。买方视角 买方收购数据资产主要着眼于数据资产能为企业未来收益产生贡献,并且在进行收购决策时已对拟收购的数据资产未来利用方式和收益模式有明确规划,因此从买方角度首选采用收益法评估。另外,若市场中存在类似数据资产的交易案例信息,也可同时采用市场法评估作为价格参考。最后,由于买方并不掌握数据资产的成本信息明细,一般不采用采用成本法评估。(2)许可使用 企业可通过普通许可、独占许可、排他许可等方式将数据资产许可其他单位使用,此时可通过评估确定许可费率。许可费率可参考类似数据资产许可案例中的许可费率分析调整确定。(3)出资 中华人民共和国公司法第二十七条规定,“股东可以用货币出资,也可以用实物、知识产权、土地使用权等可以用货币估价并可以依法转让的非货币财产作价出资;但是,法律、行政法规规定不得作为出资的财产除外。对作为出资的非货币财产应当评估作价,核实财产,不得高估或者低估作价。法律、行政法规对评估作价有规定的,从其规定”。股东若采用数据知识产权作价出资,需进行资产评估。采用数据资产出资的意义主要在于数据资产能为企业的未来收益产生贡献,出资人通常也会对数据资产出资到新公司后的利用方式有明确规划,因此作价出资情况下数据资产评估方法首选收益法。若数据资产未来收益难以合理预测,也可考虑采用市场法或成本法。(4)质押融资 在我国,数据知识产权可以用于质押。中华人民共和国民法典第四百四十条规定,“债务人或者第三人有权处分的下列权利可以出质:(五)可以转让的注册商标专用权、专利权、著作权等知识产权中的财产权”。数据知识产权的价值通常难以直接从市场取得,金融机构等质权人通常会要求对数据资产质押物价值进行评估。关于加强知识产权评估管理工作若干问题的通知(财企2006109 号)第一条规定,“知识产权占有单位符合下列情形之一的,应当进行资产评估:(二)以知识产权质押,市场没有参照价格,质权人要求评估的”。由于质权人对于质押物最看重的是其可变现价值,而市场法采用数据资产实际的市场交易案例(或挂牌价)进行计算,能较好地反映数据资产的可变现价值,因此在可收集到数据资产交易案例的前提下,首选市场法作为数据知识产权质押物的评估方法。若不具备开展市场法评估条件,由于出质人通常可提供数据知识产权未来的收益预测,也可对数据知识产权采用收益法进行评估,计算数据知识产权未来收益可支撑的价值,近似作为可变现价值。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 44 对于一些盈利能力一般甚至较差的数据知识产权,其成本可能会超过实际可变现价值,因此数据资产质押融资评估中应慎用成本法。(5)企业清算 企业清算是指企业按章程规定解散以及由于破产或其他原因宣布终止经营后,对企业的财产、债权、债务进行全面清查,并进行收取债权,清偿债务和分配剩余财产的经济活动。企业清算情形下,数据资产将不再被企业使用,数据资产未来的归属、利用方式和经营规划通常尚不明确,通常难以编制数据资产未来的收益预测,采用收益法评估存在较大障碍。企业清算中数据资产将被处置变现,而市场法采用数据资产实际的市场交易案例(或挂牌价)进行计算,能较好地反映数据资产的变现价值,因此在能够收集到数据资产交易案例的前提下,企业清算情形下数据资产的评估方法首选市场法。若不具备采用市场法评估的条件,由于清算组或破产管理人可掌握企业的财务资料,也可采用成本法进行数据资产评估,此时需关注企业清算对数据资产功能性贬值和经济性贬值的影响。(6)司法诉讼 司法诉讼的数据资产侵权损害赔偿案件中涉及数据资产价值损失的,可通过数据资产评估确定侵权损失金额。此类案件中数据资产评估可分为人民法院委托和当事人委托两种情形。人民法院委托评估情形:根据人民法院委托评估工作规范(法办2018273 号)第九条,具有下列情形之一,人民法院应当委托评估机构进行评估:(一)涉及国有资产或者公共利益等事项的;(二)企业国有资产法、公司法、合伙企业法、证券法、拍卖法、公路法等法律、行政法规规定必须委托评估的;(三)双方当事人要求委托评估的;(四)司法网络询价平台不能或者在期限内均未出具网络询价结果的;(五)法律、法规有明确规定的。人民法院委托评估中,数据资产评估通常直接用于确定赔偿金额。当事人委托情形:数据资产评估通常作为当事人提供的证据之一用于佐证产生了数据资产侵权损失或证明数据资产拥有较高价值,但一般不会被法院直接用于确定赔偿金额。由于此类评估中数据资产产权持有人通常为被侵权人,配合提供数据资产未来收益预测,且通过收益能较好地刻画侵权行为带来的损失,故评估方法首选收益法。而市场法和成本法一般难以反映侵权行为对数据资产价值的直接影响,此类评估中一般不适合采用。(7)司法执行财产处置 人民法院对需要拍卖、变卖的财产确定财产处置参考价时,标的可能涉及数据资产。根据最高人民法院关于人民法院确定财产处置参考价若干问题的规定(法释201815 号),人民法院查封、扣押、冻结财产后,对需要拍卖、变卖的财产,应当在三十日内启动确定财产处置参考价程序。人民法院确定财产处置参考价,可以采取当事人议价、定向询价、网络询价、委托评估等方式。双方当事人议价无法达成一致,且定向询价不能或者不成,全部司法网络询价平台均未在期限内出具或者补正网络询价报告,且未按照规定申请延长期限的,人民法院应当委托评估机构进行评估。数据资产处置案件中,双方当事人议价通常难以达成一致,且数据资产通常难以定向询价或网络询价,需要借助评估确定处置参考价。由于数据资产即将被处置,未来利用规划通常尚不明确,通常难以取得数据资产未来的收益预测并采用收益法评估。而市场法采用数据资产市场交易案例计算,能较好地反映数据资产的变现价值,因此在能够收数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 45 集到数据资产交易案例的前提下,首选市场法进行数据资产评估。若不具备采用市场法评估的条件,由于产权持有人可提供企业的财务资料,也可采用成本法评估。(8)财务报告 根据财政部企业数据资源相关会计处理暂行规定(财会202311 号),企业使用的数据资源,符合企业会计准则第 6 号无形资产规定的定义和确认条件的,应当确认为无形资产;企业日常活动中持有、最终目的用于出售的数据资源,符合企业会计准则第 1 号存货(财会20063 号,以下简称存货准则)规定的定义和确认条件的,应当确认为存货。以下分别讨论无形资产性质和存货性质数据资产在财务报告目的下的评估方法选择。数据资产为无形资产性质的情形 数据资产为无形资产性质情形下,财务报告目的评估主要涉及减值测试评估、非同一控制下企业合并时合并对价分摊评估。根据企业会计准则第 8号资产减值要求,若作为寿命不确定的无形资产,应每年进行减值测试;若作为寿命有限的无形资产,应在出现减值迹象的资产负债表日进行减值测试。减值测试时需要借助数据资产价值评估确定数据资产的可收回金额。根据企业会计准则第 8号资产减值,可收回金额应当根据资产的公允价值减去处置费用后的净额与资产预计未来现金流量的现值两者之间较高者确定。资产的公允价值减去处置费用后的净额,应当根据公平交易中销售协议价格减去可直接归属于该资产处置费用的金额确定;不存在销售协议但存在资产活跃市场的,应当按照该资产的市场价格减去处置费用后的金额确定。资产的市场价格通常应当根据资产的买方出价确定;在不存在销售协议和资产活跃市场的情况下,应当以可获取的最佳信息为基础,估计资产的公允价值减去处置费用后的净额,估值技术根据企业会计准则第 39 号公允价值计量,可采用成本法、收益法或市场法。预计未来现金流量现值根据其定义仅可采用收益法评估。另外,根据企业会计准则第 20 号企业合并,非同一控制下的企业合并中,购买方在购买日应当对合并成本进行分配,确认所取得的被购买方各项可辨认资产、负债及或有负债。根据企业会计准则解释第 5号,非同一控制下的企业合并中,购买方在对企业合并中取得的被购买方资产进行初始确认时,应当对被购买方拥有的但在其财务报表中未确认的无形资产进行充分辨认和合理判断,满足以下条件之一的,应确认为无形资产:(一)源于合同性权利或其他法定权利;(二)能够从被购买方中分离或者划分出来,并能单独或与相关合同、资产和负债一起,用于出售、转移、授予许可、租赁或交换。数据资产属于可辨认的无形资产,企业合并中若被购买方的可辨认资产中含有数据资产,需要对数据资产进行评估,并在购买方合并报表中确认为无形资产。根据 企业会计准则第 20号企业合并应用指南,企业合并中取得的无形资产的公允价值确定方法如下:存在活跃市场的,应以购买日的市场价格为基础确定其公允价值;不存在活跃市场,但同类或类似资产存在活跃市场的,应参照同类或类似资产的市场价格确定其公允价值;同类或类似资产也不存在活跃市场的,应采用估值技术确定其公允价值。其中估值技术根据企业会计准则第 39 号公允价值计量,可采用成本法、收益法或市场法确定。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 46 数据资产为存货性质的情形 数据资产为无形资产性质情形下,财务报告目的评估主要涉及会计期末可变现净值评估、非同一控制下企业合并时合并对价分摊评估。根据企业会计准则第 1号存货,资产负债表日,存货应当按照成本与可变现净值孰低计量。可变现净值的评估方法为:在日常活动中,存货的估计售价减去至完工时估计将要发生的成本、估计的销售费用以及相关税费。另外,根据企业会计准则第 20 号企业合并,非同一控制下的企业合并中,购买方在购买日应当对合并成本进行分配,确认所取得的被购买方各项可辨认资产、负债及或有负债。根据 企业会计准则第20号企业合并应用指南,企业合并中取得的存货的公允价值确定方法如下:对其中的产成品和商品按其估计售价减去估计的销售费用、相关税费以及购买方出售类似产成品或商品估计可能实现的利润确定;在产品按完工产品的估计售价减去至完工仍将发生的成本、估计的销售费用、相关税费以及基于同类或类似产成品的基础上估计出售可能实现的利润确定;原材料按现行重置成本确定。(9)资产证券化 数据资产证券化是以数据资产未来产生的现金流为偿付支持,发行数据资产支持证券的过程。数据资产证券化中,评估机构的角色为预测数据资产未来现金流量,通常采用收益法,市场法和成本法不适用。表 4 基于数据资产经济行为的评估方法选择 经济行为类型 评估方法选择优先度 转让 卖方:成本法、收益法 买方:收益法 许可使用 市场法 出资 收益法市场法/成本法 质押融资 市场法收益法 企业清算 市场法成本法 司法诉讼 收益法 司法执行财产处置 市场法成本法 财务报告 数据资产为无形资产 减值测试:公允价值减去处置费用后的净额与资产预计未来现金流量的现值孰高。合并对价分摊:收益法/成本法/市场法 数据资产为存货 期末计价:可变现净值 合并对价分摊:产成品、在产品、库存商品按市场法,原材料按成本法。资产证券化 收益法 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 47 9.数据资产估值案例研究 上海数据交易所组建专业研究团队,以企业真实财务数据和业务数据为基础,以企业数据资产模拟入表为起点,研究数据资产评估方法实践操作。一般来说,资产评估就是资产评估机构对评估基准日特定目的的资产价值进行评定和估算,并出具专业资产评估报告的服务行为,但本报告出于研究目的,以企业历史线形成报表数据资产,再对该项资产进行评定和估算,形成以下路径。其中,明确评估对象、梳理业务模式和产品、成本归集、收入成本匹配是资产评估成本法的基础步骤,也是企业未来收入预测的基础。评估阶段,我们以前期的基础数据作为支撑,先与管理层讨论得到未来收入预测,接着用成本法和收益法对数据资产的市场价值进行测算。图 6 数据资产评估操作步骤 对于内部使用的数据资产,在成本法评估时,数据资产的边界可能会较为模糊。如经营过程中伴生的数据进行加工后形成的数据资产,其日常经营投入的部分成本是否可作为数据资产的投入。同时在收益法评估时,也大多选用许可费节约等模型进行计算,此时如何确定资产对企业的成本节约,对于目前市场数据交易尚不成熟的前提下,也成为了较大的难点。在采用收益法进行数据资产评估时,我们需分析数据资产与其他资产对企业现金流的贡献程度,避免资产价值上的重复确认。而数据资产对于不同行业的价值会有所不同,目前业内尚无成熟的数据标准,更多的需要依赖于专家的评价与分析,建议未来在数据资产评估业务推广后,可建立成熟的数据库及分析框架。本报告根据前期数据资产评估案例研究,总结了企业进行资产评估时的主要挑战和处理办法,并以评估方法为基础,讨论数据资产可能的创新应用场景与评估方法的选择。9.1 主要挑战与处理办法 数据资产估值的难点主要在于权属和权利确认、投入成本归集和匹配、收入预测、市场法适用难度较高,以下将通过展开论述数据资产评估的主要挑战,并对可行的处理办法进行探讨。数据资产的高重塑性导致数据资产确认存在困难。数据资产与一般的存货不同,可以重复销售或使用,因此在单次实现销售并结转销售成本时,需将存货的初始成本按照预计可销售的情况进行分摊。另外,虽然可重复售卖,但数据资产还具备较强时效性特点,随着时间推移,其价值会相对下降。因此在销售初期,该数据产品的整体销售量、销售周期、未来的降价幅度都无法准确估计,分摊标准也难以合理确定。因此现有的存货计量模式可能更适用于销售情况较为明确的数据产品。数据资产的多重用途导致成本归集存在困难。企业的数据资产多在其自身日常经营中积累,除了将部分标准化数据对外销售以外,可能还会将相关数据再次进行加工整理,应用于其他的非标准化服务中。上述业务基于的底层数据资产可能是大致相同的,因此会计处理时,如何拆分资产的持续使用及对外销售价值即是数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 48 否要将其拆分至无形资产或存货科目也将成为问题。因此,对于企业来说,首先应当建立完善的数据资产管理核算体系,可以将数据资产的生产、加工与未来业务收入、产品情况进行合理对应。这样即可根据自采、外购、或者作为存货、作为无形资产等多种方式对其进行拆分,并合理进行会计处理。数据资产的预计可使用寿命难确定导致预计流入企业现金流测算困难。数据资产的使用寿命与传统无形资产也存在差异。虽然数据资产的时效性十分重要。但历史的数据积累也存在较大的价值,特别是对于分析预测类数据产品,历史沉积的数据时间越长,覆盖的特殊情形越多,预测的准确性就越高。因此若采用摊销模式进行会计处理,则需合理判断使用寿命。同时,也需要确认是否适用于加速折旧或摊销的方法。例如对于案例企业一数据资产的网页端及移动端的用户来说,他们主要关注的是价格情况对当下决策的影响,因此现行数据资产是最具有价值的,之后随着时效性的减弱,数据资产的价值会有较大的衰减。对于这种情况,数据资产评估时首选还是应当按照相关数据对应的使用频率统计情况,合理的确定不同期间数据在基准日的时效性。在资料缺乏的情况下,也可采用年数总和法等加速折旧方法来进行折现。同时,由于对于同一类数据的使用情况不同,可能导致对数据的时效要求不同。如案例企业一有两种类型客户分别是网页端/移动端的客户,更关注当下时效性,但数据终端/数据对接的用户研究及预测性的需求较高,对于他们来说历史的数据可能更为重要。另外,不同类别的商品的行业周期也会存在一定差异,进而影响到对于客户对于数据周期的需求情况。因此在对不同使用类型的数据进行未来会计计量时,也应当区分业务特点,考虑按照不同的方式确定折现期。数据资产评估市场法适用的有限性。目前上海数据交易所正稳步推进场内登记、挂牌、交易相关业务,随着未来数据资产场内交易市场的逐步成熟,企业数据资产的交易记录会更为丰富。因此,企业在数据资产入表估值时,也可以进行市场法估值的探索,或将相近行业数据资产的交易对价纳入分析考虑,使得数据资产的价值在财务报表上能得到更加合理的反映。9.2 数据资产创新应 数据资产评估服务于数据资产应用,数据资产创新应用是指释放数据资产作为核心标的物经济价值的过程,一般包括数据资产增信贷款、出资融资、资产证券化等多种方式。在数据资产创新应用的过程中,一般涉及主体数据资产权属问题和预期收益问题,金融机构都会要求提供数据资产评估报告,需要审慎评估数据资产为企业带来预期现金流的业务模式,并估算收益现金流发生的情况。目前数据资产主要的创新应用的方向有:(1)数据资产增信。基于现有银行信用贷款体系,以数据资产价值及其运营产品的能力作为企业增加信用的手段,提升企业可申请的贷款额度。数据资产增信将数据资产的货币价值提前变现,帮助企业获得再生产所需的资金,降低企业的融资成本。一般来说,授信主体会参考数据资产预期现金流状况来决定授信额度。(2)数据资产转让。市场主体也可以转让数据资产相关权益来获得收益,数据资产转让从买方视角和卖方视角来看,都需要主体重新评估标的资产的市场价值。(3)数据资产出资。根据公司法,股东可以用货币出资,也可以用实物、知识产权、土地使用权等可以用货币估价并可以依法转让的非货币财产作价出资。企业将其合法拥有的数据资产,作为财产作价出资,数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 49 参与其他企业的股权合作,将数据的货币价值转换为股权价值,激励企业挖掘数据内在价值,加速数据流通,促进数据共享共创。显然,数据资产作价入股一定要以数据资产市场价值作为基础,而这一价值需要资产评估公司参考足够多的市场可比案例,基于企业运营情况和收入预测情况来审慎合理计算。(4)数据资产质押融资。在现有质押体系下,企业将基于数据产品交易合约的应收账款或数据资产作为信用担保质押给银行,以获取银行贷款,发挥数据要素的资产属性,助力企业基于优质数据资产而非主体信用拓宽融资途径。数据资产质押融资涉及数据资产权属、现金流等多种问题,主体一般需要提供数据资产评估报告。(5)数据资产保理。企业将基于数据交易合约形成的现有应收账款转让给保理机构,以获得及时的资金融通,帮助企业释放数据资产价值,实现低成本、高效率的融资,降低坏账风险。(6)数据资产信托。数据所有者以信托模式委托市场主体对其数据资产进行管理。委托方既可以是自然人,也可以是政府部门或者企业。数据资产信托是一项可以提高数据要素市场可信性的制度创新。(7)数据资产保险。围绕数据资产在流通、交易、应用方面风险管理需要,开发相应的数据资产保险产品。数据资产保险业务模式中,保险机构一般都要估测标的资产投入成本和预期现金流状况。(8)数据资产证券化。数据资产证券化是以数据资产未来产生的现金流为偿付支持,发行数据资产支持证券的过程。数据资产证券化可以将分散的数据资产打包形成更优质、更具规模的底层资产,盘活存量数据资产,将企业融资需求对接到金融市场,提升资源配置效率。数据资产证券化中,评估机构通常需要为双方主体提供数据资产未来现金流量预测服务,通常采用收益法进行。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 50 10.数据资产估值小结 2023 年 9 月 8 日,中国资产评估协会推出数据资产评估指导意见,该意见是在财政部的指导下完善的,是数据资产评估执业人员的行动准则,一方面从微观层面推进数据资产价值的计量,能更加充分反映出数据资产对实体经济的赋能作用,另一方面能为数据资产的交易与流通奠定基础,进而发现数据资产公允价值,真正助力全国大统一数据要素市场的发展建设。数据作为一项新型的生产要素,要想实现大规模、低成本可得,真正赋能实体经济发展,还需要依赖高效合规的交易与流通市场。这就意味着,一方面企业要充分利用国家数据交易所的官方途径去披露和交易数据资产,另一方面国家需要培养一批数商去为企业提供相关审计、评估等的服务。指导意见为专业资产评估机构提供数据资产评估工作提供了指引,但在具体实践中更加强调数据资产应用场景,而基于应用场景的评估与其他资产评估存在较大不同,给评估师带来很多挑战。本报告根据对数据资产理论内涵的探索,在实践中从确权、入表、估值的路径中研究数据资产估值技术和方法,并以此为基础探讨数据产品和数据资产的定价问题,并形成以下主要结论:数据资产评估的实践挑战主要是:企业对数据资产认知不足、对数据资产形成路径理解不足、数据资产的会计计量存在挑战、专业服务机构包括资产评估公司对数据资产的理解不足。为了应对这一挑战,本报告将从数据要素和数据资产的基础概念梳理开始,从数据要素化的理论内涵理解企业数据资产的形成路径,结合“数据二十条”三权分置的指引明确数据资产评估的步骤和实践操作。数据资产评估应该从明确数据资产的概念和边界,识别数据资产的权利和权属特征,确定数据资产的价值和评估路径等维度去推进。数据资产评估第一步就是确认评估标的,即确权。数据资产的价值建立在相应的权利基础之上。数据资产的权利与权利主体之间存在权属问题,在面对不同来源的数据,需要厘清各主体之间的权利关系,通过法律制度、政策制定等方式明确数据产权的归属。资产的价值评估主要基于三大路径,即成本途径、收益途径和市场途径。数据资产与传统资产比较尤其独特的特征,但资产形成和价值实现的路径与传统资产也基本类似。目前对数据资产价值评估的方法研究中,主要为在成本法、收益法、市场法三大基本方法的基础上,考虑数据资产的特殊因素对评估模型加以修正和改进。本报告在解读数据资产评估指导意见的基础上,结合数据资产评估方法,对于不同数据资源来源、不同数据产品生命周期、不同数据资产经济行为的数据资产评估方法进行深入探讨,为资产评估公司日后进行数据资产评估提供理论依据和实践指引。数据产品的定价一方面依赖于企业投入开发的成本,另一方面也依赖于企业的品牌策略、渠道策略、营销策略,以及市场竞争程度等等。不同的竞争环境下,不同的市场地位,不同的营销诉求,会导致企业在定价决策方面做出不一样的选择。本报告通过研究发现,企业可以借助数据产品估值技术来合理定价,即首先梳理数据资源的开发成本,其次根据特定使用场景预期现金流的测算,来辅助公共数据产品定价。这种定价方式本质上是数据资产评估成本法和收益法的结合。公共数据形成的数据产品定价的基础是投入成本和基于场景的预期现金流测算结果,本质是数据资产评估成本法和收益法结合。根据“数据二十条”,对于有条件有偿使用的公共数据,我们需要借助数据产品估值数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 51 技术来合理定价,即首先梳理数据资源的开发成本,并推进相关数据产品入表形成报表数据资产;其次根据特定使用场景预期现金流的测算,来辅助公共数据产品定价。公共数据形成的数据资产在入表时如何操作,取决于公共数据运营模式,尤其是参与主体之间的协议约定等等。显然,公共数据形成的数据产品定价本质上是数据资产评估成本法和收益法的结合。企业内部使用的数据资产估值依赖于场内交易的数据资产。目前,企业推进数据资产入表和评估相关的研究,其中最大一个挑战就是内部使用的数据资产如何估值的问题。一方面,企业需要数据资产达到预定可使用状态的历史投入,形成数据资产入表的基础成本构成;另一方面,企业需要参考场内交易的数据产品形成的数据资产,来确定其资产的公允价值,并以此为基础来支持数据资产入表的后续计量实践操作。数据资产估值是数据要素交易与流通价值释放的基础。从更长远的角度来看,数据要素市场的发展将推动数据资产创新应用的新局面,也就是说,进入企业资产负债表的数据资产,将像其他类型的资产一样,以其质量、公信力、收益预期作为偿付基准来发行证券产品。目前,数据资产的市场法还没有形成统一的衡量指标,也没有足够多的可比案例支持市场法评估。但目前国际上已经有多起以数据资产作为核心标的的并购案例,国内也开始探索数据资产计价入股、融资和出资相关金融业务模式,各地数据交易所也挂牌了很多数据产品,这些将成为数据资产市场法估值的基础支撑。数据资产创新应用的方向包括:数据资产增信、转让、出资、质押融资、保理、信托、保险、资产证券化等,这些场景一般都需要主体提供标的资产预期现金流测算结果或者资产评估报告等。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 52 第四部分 附录 11.附录:企业数据资源相关会计处理暂规定 为规范企业数据资源相关会计处理,强化相关会计信息披露,根据中华人民共和国会计法和企业会计准则等相关规定,现对企业数据资源的相关会计处理规定如下:一、关于适用范围本规定适用于企业按照企业会计准则相关规定确认为无形资产或存货等资产类别的数据资源,以及企业合法拥有或控制的、预期会给企业带来经济利益的、但由于不满足企业会计准则相关资产确认条件而未确认为资产的数据资源的相关会计处理。二、关于数据资源会计处理适用的准则企业应当按照企业会计准则相关规定,根据数据资源的持有目的、形成方式、业务模式,以及与数据资源有关的经济利益的预期消耗方式等,对数据资源相关交易和事项进行会计确认、计量和报告。1企业使用的数据资源,符合企业会计准则第 6 号无形资产(财会20063 号,以下简称无形资产准则)规定的定义和确认条件的,应当确认为无形资产。2企业应当按照无形资产准则、企业会计准则第 6号无形资产应用指南(财会200618 号,以下简称无形资产准则应用指南)等规定,对确认为无形资产的数据资源进行初始计量、后续计量、处置和报废等相关会计处理。其中,企业通过外购方式取得确认为无形资产的数据资源,其成本包括购买价款、相关税费,直接归属于使该项无形资产达到预定用途所发生的数据脱敏、清洗、标注、整合、分析、可视化等加工过程所发生的有关支出,以及数据权属鉴证、质量评估、登记结算、安全管理等费用。企业通过外购方式取得数据采集、脱敏、清洗、标注、整合、分析、可视化等服务所发生的有关支出,不符合无形资产准则规定的无形资产定义和确认条件的,应当根据用途计入当期损益。企业内部数据资源研究开发项目的支出,应当区分研究阶段支出与开发阶段支出。研究阶段的支出,应当于发生时计入当期损益。开发阶段的支出,满足无形资产准则第九条规定的有关条件的,才能确认为无形资产。企业在对确认为无形资产的数据资源的使用寿命进行估计时,应当考虑无形资产准则应用指南规定的因素,并重点关注数据资源相关业务模式、权利限制、更新频率和时效性、有关产品或技术迭代、同类竞品等因素。3企业在持有确认为无形资产的数据资源期间,利用数据资源对客户提供服务的,应当按照无形资产准则、无形资产准则应用指南等规定,将无形资产的摊销金额计入当期损益或相关资产成本;同时,企业应当按照企业会计准则第 14 号收入(财会201722 号,以下简称收入准则)等规定确认相关收入。除上述情形外,企业利用数据资源对客户提供服务的,应当按照收入准则等规定确认相关收入,符合有关条件的应当确认合同履约成本。4企业日常活动中持有、最终目的用于出售的数据资源,符合企业会计准则第 1 号存货(财会20063 号,以下简称存货准则)规定的定义和确认条件的,应当确认为存货。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 53 5企业应当按照存货准则、企业会计准则第 1 号存货应用指南(财会200618 号)等规定,对确认为存货的数据资源进行初始计量、后续计量等相关会计处理。其中,企业通过外购方式取得确认为存货的数据资源,其采购成本包括购买价款、相关税费、保险费,以及数据权属鉴证、质量评估、登记结算、安全管理等所发生的其他可归属于存货采购成本的费用。企业通过数据加工取得确认为存货的数据资源,其成本包括采购成本,数据采集、脱敏、清洗、标注、整合、分析、可视化等加工成本和使存货达到目前场所和状态所发生的其他支出。6企业出售确认为存货的数据资源,应当按照存货准则将其成本结转为当期损益;同时,企业应当按照收入准则等规定确认相关收入。7企业出售未确认为资产的数据资源,应当按照收入准则等规定确认相关收入。三、关于列示和披露要求(一)资产负债表相关列示。企业在编制资产负债表时,应当根据重要性原则并结合本企业的实际情况,在“存货”项目下增设“其中:数据资源”项目,反映资产负债表日确认为存货的数据资源的期末账面价值;在“无形资产”项目下增设“其中:数据资源”项目,反映资产负债表日确认为无形资产的数据资源的期末账面价值;在“开发支出”项目下增设“其中:数据资源”项目,反映资产负债表日正在进行数据资源研究开发项目满足资本化条件的支出金额。(二)相关披露。企业应当按照相关企业会计准则及本规定等,在会计报表附注中对数据资源相关会计信息进行披露。1确认为无形资产的数据资源相关披露。(1)企业应当按照外购无形资产、自行开发无形资产等类别,对确认为无形资产的数据资源(以下简称数据资源无形资产)相关会计信息进行披露,并可以在此基础上根据实际情况对类别进行拆分。具体披露格式如下:数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 54 (2)对于使用寿命有限的数据资源无形资产,企业应当披露其使用寿命的估计情况及摊销方法;对于使用寿命不确定的数据资源无形资产,企业应当披露其账面价值及使用寿命不确定的判断依据。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 55(3)企业应当按照企业会计准则第 28 号会计政策、会计估计变更和差错更正(财会20063 号)的规定,披露对数据资源无形资产的摊销期、摊销方法或残值的变更内容、原因以及对当期和未来期间的影响数。(4)企业应当单独披露对企业财务报表具有重要影响的单项数据资源无形资产的内容、账面价值和剩余摊销期限。(5)企业应当披露所有权或使用权受到限制的数据资源无形资产,以及用于担保的数据资源无形资产的账面价值、当期摊销额等情况。(6)企业应当披露计入当期损益和确认为无形资产的数据资源研究开发支出金额。(7)企业应当按照企业会计准则第 8 号资产减值(财会20063 号)等规定,披露与数据资源无形资产减值有关的信息。(8)企业应当按照企业会计准则第 42 号持有待售的非流动资产、处置组和终止经营(财会201713 号)等规定,披露划分为持有待售类别的数据资源无形资产有关信息。2确认为存货的数据资源相关披露。(1)企业应当按照外购存货、自行加工存货等类别,对确认为存货的数据资源(以下简称数据资源存货)相关会计信息进行披露,并可以在此基础上根据实际情况对类别进行拆分。具体披露格式如下:数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 56 (2)企业应当披露确定发出数据资源存货成本所采用的方法。(3)企业应当披露数据资源存货可变现净值的确定依据、存货跌价准备的计提方法、当期计提的存货跌价准备的金额、当期转回的存货跌价准备的金额,以及计提和转回的有关情况。(4)企业应当单独披露对企业财务报表具有重要影响的单项数据资源存货的内容、账面价值和可变现净值。(5)企业应当披露所有权或使用权受到限制的数据资源存货,以及用于担保的数据资源存货的账面价值等情况。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 57 3其他披露要求。企业对数据资源进行评估且评估结果对企业财务报表具有重要影响的,应当披露评估依据的信息来源,评估结论成立的假设前提和限制条件,评估方法的选择,各重要参数的来源、分析、比较与测算过程等信息。企业可以根据实际情况,自愿披露数据资源(含未作为无形资产或存货确认的数据资源)下列相关信息:(1)数据资源的应用场景或业务模式、对企业创造价值的影响方式,与数据资源应用场景相关的宏观经济和行业领域前景等。(2)用于形成相关数据资源的原始数据的类型、规模、来源、权属、质量等信息。(3)企业对数据资源的加工维护和安全保护情况,以及相关人才、关键技术等的持有和投入情况。(4)数据资源的应用情况,包括数据资源相关产品或服务等的运营应用、作价出资、流通交易、服务计费方式等情况。(5)重大交易事项中涉及的数据资源对该交易事项的影响及风险分析,重大交易事项包括但不限于企业的经营活动、投融资活动、质押融资、关联方及关联交易、承诺事项、或有事项、债务重组、资产置换等。(6)数据资源相关权利的失效情况及失效事由、对企业的影响及风险分析等,如数据资源已确认为资产的,还包括相关资产的账面原值及累计摊销、减值准备或跌价准备、失效部分的会计处理。(7)数据资源转让、许可或应用所涉及的地域限制、领域限制及法律法规限制等权利限制。(8)企业认为有必要披露的其他数据资源相关信息。四、附则 本规定自 2024 年 1 月 1 日起施行。企业应当采用未来适用法执行本规定,本规定施行前已经费用化计入损益的数据资源相关支出不再调整。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 58 12.附录:数据资产评估指导意 第一章 总则 第一条 为规范数据资产评估行为,保护资产评估当事人合法权益和公共利益,根据资产评估基本准则及其他相关资产评估准则,制定本指导意见。第二条 本指导意见所称数据资产,是指特定主体合法拥有或者控制的,能进行货币计量的,且能带来直接或者间接经济利益的数据资源。第三条 本指导意见所称数据资产评估,是指资产评估机构及其资产评估专业人员遵守法律、行政法规和资产评估准则,根据委托对评估基准日特定目的下的数据资产价值进行评定和估算,并出具资产评估报告的专业服务行为。第四条 执行数据资产评估业务,应当遵守本指导意见。第二章 基本遵循 第五条 执行数据资产评估业务,应当遵守法律、行政法规和资产评估准则,坚持独立、客观、公正的原则,诚实守信,勤勉尽责,谨慎从业,遵守职业道德规范,自觉维护职业形象,不得从事损害职业形象的活动。第六条 执行数据资产评估业务,应当独立进行分析和估算并形成专业意见,拒绝委托人或者其他相关当事人的干预,不得直接以预先设定的价值作为评估结论。第七条 执行数据资产评估业务,应当具备数据资产评估的专业知识和实践经验,能够胜任所执行的数据资产评估业务。缺乏特定的数据资产评估专业知识、技术手段和经验时,应当采取弥补措施,包括利用数据领域专家工作成果及相关专业报告等。第八条 执行数据资产评估业务,应当关注数据资产的安全性和合法性,并遵守保密原则。第九条 执行企业价值评估中的数据资产评估业务,应当了解数据资产作为企业资产组成部分的价值可能有别于作为单项资产的价值,其价值取决于它对企业价值的贡献程度。数据资产与其他资产共同发挥作用时,需要采用适当方法区分数据资产和其他资产的贡献,合理评估数据资产价值。第十条 执行数据资产评估业务,应当根据评估业务具体情况和数据资产的特性,对评估对象进行针对性的现场调查,收集数据资产基本信息、权利信息、相关财务会计信息和其他资料,并进行核查验证、分析整理和记录。核查数据资产基本信息可以利用数据领域专家工作成果及相关专业报告等。资产评估专业人员自行履行数据资产基本信息相 关的现场核查程序时,应当确保具备相应专业知识、技术手段和经验。第十一条 执行数据资产评估业务,应当合理使用评估假设和限制条件。第三章 评估对象 第十二条 执行数据资产评估业务,可以通过委托人、相关当事人等提供或者自主收集等方式,了解和关注被评估数据资产的基本情况,例如:数据资产的信息属性、法律属性、价值属性等。信息属性主要包括数据名称、数据结构、数据字典、数据规模、数据周期、产生频率及存储方式等。法律属性主要包括授权主体信息、产权持有人信息,以及权利路径、权利类型、权利范围、权利期限、权利限制等权利信息。价值数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 59 属性主要包括数据覆盖地域、数据所属行业、数据成本信息、数据应用场景、数据质量、数据稀缺性及可替代性等。第十三条 执行数据资产评估业务,应当知晓数据资产具有非实体性、依托性、可共享性、可加工性、价值易变性等特征,关注数据资产特征对评估对象的影响。非实体性是指数据资产无实物形态,虽然需要依托实物载体,但决定数据资产价值的是数据本身。数据资产的非实体性也衍生出数据资产的无消耗性,即其不会因为使用而磨损、消耗。依托性是指数据资产必须存储在一定的介质里,介质的种类包括磁盘、光盘等。同一数据资产可以同时存储于多种介质。可共享性是指在权限可控的前提下,数据资产可以被复制,能够被多个主体共享和应用。可加工性是指数据资产可以通过更新、分析、挖掘等处理方式,改变其状态及形态。价值易变性是指数据资产的价值易发生变化,其价值随应用场景、用户数量、使用频率等的变化而变化。第十四条 执行数据资产评估业务,应当根据数据来源和数据生成特征,关注数据资源持有权、数据加工使用权、数据产品经营权等数据产权,并根据评估目的、权利证明材料等,确定评估对象的权利类型。第四章 操作要求 第十五条 执行数据资产评估业务,应当明确资产评估业务基本事项,履行适当的资产评估程序。第十六条 执行数据资产评估业务,需要关注影响数据资产价值的成本因素、场景因素、市场因素和质量因素。成本因素包括形成数据资产所涉及的前期费用、直接成本、间接成本、机会成本和相关税费等。场景因素包括数据资产相应的使用范围、应用场景、商业模式、市场前景、财务预测和应用风险等。市场因素包括数据资产相关的主要交易市场、市场活跃程度、市场参与者和市场供求关系等。质量因素包括数据的准确性、一致性、完整性、规范性、时效性和可访问性等。第十七条 资产评估专业人员应当关注数据资产质量,并采取恰当方式执行数据质量评价程序或者获得数据质量的评价结果,必要时可以利用第三方专业机构出具的数据质量评价专业报告或者其他形式的数据质量评价专业意见等。数据质量评价采用的方法包括但不限于:层次分析法、模糊综合评价法和德尔菲法等。第十八条 同一数据资产在不同的应用场景下,通常会发挥不同的价值。资产评估专业人员应当通过委托人、相关当事人等 提供或者自主收集等方式,了解相应评估目的下评估对象的具体应用场景,选择和使用恰当的价值类型。第五章 评估方法 第十九条 确定数据资产价值的评估方法包括收益法、成本法和市场法三种基本方法及其衍生方法。第二十条 执行数据资产评估业务,资产评估专业人员应当根据评估目的、评估对象、价值类型、资料收集等情况,分析上述三种基本方法的适用性,选择评估方法。第二十一条 采用收益法评估数据资产时应当:数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 60(一)根据数据资产的历史应用情况及未来应用前景,结合应用或者拟应用数据资产的企业经营状况,重点分析数据资产经济收益的可预测性,考虑收益法的适用性;(二)保持预期收益口径与数据权利类型口径一致;(三)在估算数据资产带来的预期收益时,根据适用性可以选择采用直接收益预测、分成收益预测、超额收益预测和增量收益预测等方式;(四)区分数据资产和其他资产所获得的收益,分析与之有关的预期变动、收益期限,与收益有关的成本费用、配套资产、现金流量、风险因素;(五)根据数据资产应用过程中的管理风险、流通风险、数据安全风险、监管风险等因素估算折现率;(六)保持折现率口径与预期收益口径一致;(七)综合考虑数据资产的法律有效期限、相关合同有效期限、数据资产的更新时间、数据资产的时效性、数据资产的权利状况以及相关产品生命周期等因素,合理确定经济寿命或者收益期限,并关注数据资产在收益期限内的贡献情况。第二十二条 采用成本法评估数据资产时应当:(一)根据形成数据资产所需的全部投入,分析数据资产价值与成本的相关程度,考虑成本法的适用性;(二)确定数据资产的重置成本,包括前期费用、直接成本、间接成本、机会成本和相关税费等;(三)确定数据资产价值调整系数,例如:对于需要进行质量因素调整的数据资产,可以结合相应质量因素综合确定调整系数;对于可以直接确定剩余经济寿命的数据资产,也可以结合剩余经济寿命确定调整系数。第二十三条 采用市场法评估数据资产时应当:(一)考虑该数据资产或者类似数据资产是否存在合法合规的、活跃的公开交易市场,是否存在适当数量的可比案例,考虑市场法的适用性;(二)根据该数据资产的特点,选择合适的可比案例,例如:选择数据权利类型、数据交易市场及交易方式、数据规模、应用领域、应用区域及剩余年限等相同或者近似的数据资产;(三)对比该数据资产与可比案例的差异,确定调整系数,并将调整后的结果汇总分析得出被评估数据资产的价值。通常情况下需要考虑质量差异调整、供求差异调整、期日差异调整、容量差异调整以及其他差异调整等。第二十四条 对同一数据资产采用多种评估方法时,应当对所获得的各种测算结果进行分析,说明两种以上评估方法结果的差异及其原因和最终确定评估结论的理由。第六章 披露要求 第二十五条 无论是单独出具数据资产的资产评估报告,还是将数据资产评估作为资产评估报告的组成部分,都应当在资产评估报告中披露必要信息,使资产评估报告使用人能够正确理解评估结论。第二十六条 单独出具数据资产的资产评估报告,应当说明下列内容:(一)数据资产基本信息和权利信息;数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 61(二)数据质量评价情况,评价情况应当包括但不限于评价目标、评价方法、评价结果及问题分析等内容;(三)数据资产的应用场景以及数据资产应用所涉及的地域限制、领域限制及法律法规限制等;(四)与数据资产应用场景相关的宏观经济和行业的前景;(五)评估依据的信息来源;(六)利用专家工作或者引用专业报告内容;(七)其他必要信息。第二十七条 单独出具数据资产的资产评估报告,应当说明有关评估方法的下列内容:(一)评估方法的选择及其理由;(二)各重要参数的来源、分析、比较与测算过程;(三)对测算结果进行分析,形成评估结论的过程;(四)评估结论成立的假设前提和限制条件。第七章 附则 第二十八条 本指导意见自 2023 年 10 月 1 日起施行。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 62 13.附录三:企业数据资源表会计处理例5 1、案例介绍 企业 A 是一家数据服务商,属于轻资产公司,假设该企业自 2024 年 1 月 1 日开始执行暂行规定,并采用未来适用法模拟财务报表,模拟期限是 2024 年 1 月 1 日至 2024 年 12 月 31 日。企业 A 同时还是高新技术企业,所得税税率为 15%,研发费用满足加计扣除的条件。如果企业 A 在 2024 年不按照暂行规定进行入表处理,则企业 A 在 2024 年的收入为 3 亿元,资产规模为 10 亿元,经营活动产生的现金流量净额为 5,000 万元。假定企业A 持有两种类型的数据资产:一种是以数据资源经过创新型投入和实质性加工形成准备对外提供服务并且满足无形资产准则的数据资产,且这种类型的数据资产占比较高;另一种是存在企业日常活动中持有、最终目的用于出售、且满足存货准则的数据资产。企业 A数据资产相关成本主要包括:取得数据采集、脱敏、清洗、标注、整合、分析、可视化等服务所发生的有关支出,在暂行规定出台之前,企业 A数据资产相关的成本均在当期费用化,主要归集在营业成本科目,部分研发费用部门人员参与数据加工环节,相应成本归集在研发费用。而在暂行规定出台之后,这部分原来费用化的即可以在满足资产确认条件之后进行资本化处理。2、入表模拟 本节将通过模拟企业A 数据资产入表路径,探讨其对企业报表产生的影响,以及可能产生的经济后果。首先,根据暂行规定,不同业务模式下的数据资产的确认流程如下:5 参考献:赵丽芳,吕梦,钟英才.数据资产表的价值效应及经济后果初探,2023.数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 63 图 7 不同业务模式的数据资产确认流程 一般而言,企业数据资源入表应该包括几个关键步骤:第一步是对满足资产确认条件的数据资源资产进行分类,按照暂行规定,目前基本是两大类:数据资源无形资产、数据资源存货;第二步对相关数据资产的成本进行归集;第三步对相关数据资产成本和收入进行匹配;第四步按照成本法进行初始计量;第五步按照成本模式进行后续计量和终止确认等;第六步则在最终的财务报表中进行列示。由于我们是以模拟企业入表的形式进行研究,所以这里我们跳过中间成本归集和收入成本匹配的步骤,直接假设企业相关数据资产产生的成本和收入项然后进行报表模拟。在企业进行数据资源入表的实践操作中,相关成本归集和收入成本匹配会存在较大挑战,主要原因是数据产品的可塑性较高,底层的数据库可以通过多种建模方式进行后续加工使用,应用场景也非常多样化,顾客可能一次性购买多个数据产品组合,导致企业在数据产品的投入方面相关人力成本、设备投入成本可能难以清晰归集,收入匹配到具体产品中也存在困难。以下我们将分数据资源无形资产和数据资源存货两部分展开论述。(1)满足无形资产确认条件的企业数据资源 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 64 第一部分我们将描述企业 A满足无形资产计量准则的数据资源入表的会计政策和会计估计方法。根据暂行规定要求,这部分数据资源将按照成本法进行初始计量。对于使用寿命有限的数据资产,在使用寿命内按照与该项无形资产有关的经济利益的预期实现方式系统合理地摊销,无法可靠确定预期实现方式的,采用直线法摊销。根据企业 A 对提供数据产品最长回溯 3 年或 10 年的历史数据等因素进行综合分析,本文模拟报表采用不同类型产品不同摊销年限的做法。同时考虑到数据时效性一般呈现逐年递减的特征,本文采用年数总和法进行摊销。企业 A 数据资产具体年限如下:表 5 企业 A 主要数据资产摊销年限 项 目 摊销年限(年)数据资源无形资产-数据应用 3 数据资源无形资产-数据集 10(2)满足存货确认条件的企业数据资源 第二部分我们将描述企业A 满足存货计量准则的数据资源入表的会计政策和会计估计方法。根据暂行规定要求,存货包括在日常活动中持有,最终目的用于出售的数据资源。本文模拟报表采用个别计价法来发出存货。数据资源存货可变现净值的确定依据为:资产负债表日,存货采用成本与可变现净值孰低计量,通常按照单个存货成本高于可变现净值的差额计提存货跌价准备。直接用于出售的存货,在正常生产经营过程中以该存货的估计售价减去估计的销售费用和相关税费后的金额确定其可变现净值;需要经过加工的存货,在正常生产经营过程中以所生产的产成品的估计售价减去至完工时估计将要发生的成本、估计的销售费用和相关税费后的金额确定其可变现净值;资产负债表日,同一项存货中一部分有合同价格约定、其他部分不存在合同价格的,分别确定其可变现净值,并与其对应的成本进行比较,分别确定存货跌价准备的计提或转回的金额。基于上述判断标准和成本确认方法,企业 A 的数据资源无形资产和存货的列报情况如表 5 所示。其中有 1000 万元数据资产原本计入研发费用,且数据资源无形资产中有 7500 万元按 10 年摊销,2500 万按 3年摊销,计算摊销时无形资产残值为 0 且当年新增的无形资产平均分配至当年 12 个月。表 6 企业 A 自行加工的数据资源无形资产和存货列报 单位:人民币万元 a.自行开发的数据资源无形资产 b.自行加工的数据资源存货 项目 2024.12.31 项 目 2024.12.31 一、账面原值 一、账面原值 1.期初余额 1.期初余额 2.本期增加金额 10,000.00 2.本期增加金额 2,000.00 其中:购置 其中:购入 内部研发 10,000.00 采集加工 2,000.00 其他增加 其他增加 数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 65 3.本期减少金额 3.本期减少金额 1,600.00 其中:处置 其中:出售 1,600.00 失效且终止确认 失效且终止确认 其他减少 其他减少 4.期末余额 10,000.00 4.期末余额 400 二、累计摊销 二、存货跌价准备 1.期初余额 1.期初余额 2.本期计提金额 1,415.72 2.本期计提金额 3.本期减少金额 3.本期减少金额 其中:处置 其中:转回 失效且终止确认 转销 其他减少 4.期末余额 4.期末余额 1,415.72 三、账面价值 三、减值准备 1.期末账面价值 400 1.期初余额 2.期初账面价值 -2.本期增加金额 3.本期减少金额 4、期末余额 四、账面价值 1.期末账面价值 8,584.28 2.期初账面价值 -(3)入表前和入表后的财务报表变化 首先,我们重点分析入表前后资产负债表的变化。入表前,企业A 的资产负债表中不存在数据资产相关的科目列表。入表后,我们将表 5 中的满足无形资产确认条件的数据资产和满足存货确认条件的数据资产计入资产负债表,如表 6 所示,其中数据资产的确认导致存货账面价值对应增加 400 万元,导致无形资产账面价值对应增加 8,584.28万元(已扣除当年摊销额)。同时,由于原本费用化的数据资产入表后确认为无形资产或存货,导致利润总额增加 8,984.28 万元(=8,584.28 400),当期无形资产按年数总和法摊销及税务按 10年直线摊销形成递延所得税资产增加 131.11 万元,6研发费用重分类至数据资产导致研发费用加计扣除减少150 万元,进而综合导致应交所得税(体现在应交税费中)增加 1,628.76。表 7 企业 A 数据资产入表前和入表后的简化资产负债表 6 会计处理上当年摊销额=1415.72=7500/12*10/(1 2 3 4 5 6 7 8 9 10)*(1 2 3 4 5 6 7 8 9 10 11 12)/12 2500/12*3/(1 2 3)*(1 2 3 4 5 6 7 8 9 10 11 12)/12;税务处理上当年摊销额 541.67=(7500 2500)/12*1/10*(1 2 3 4 5 6 7 8 9 10 11 12)/12;税会摊销差异形成的可抵扣暂时性差异=1415.72-541.67=874.05;递延所得税=税会摊销差异形成的可抵扣暂时性差异*所得税税率=874.05*15%=131.11。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 66 单位:人民币万元 项目 入表前 2024.12.31 入表后 2024.12.31 差异 存货 400.00 400 流动资产合计 18,000.00 18,400.00 400 递延所得税资产 300.00 431.11 131.11 无形资产 2,000.00 10,584.28 8,584.28 非流动资产合计 82,000.00 90,715.40 8,715.40 资产总计 100,000.00 109,115.40 9,115.40 负债和所有者权益 应交税费 1,000.00 2,628.76 1,628.76 流动负债合计 15,000.00 16,628.76 1,628.76 非流动负债合计 20,000.00 20,000.00 0 负债合计 35,000.00 36,628.76 1,628.76 未分配利润 25,000.00 32,486.64 7,486.64 所有者权益合计 65,000.00 72,486.64 7,486.64 负债和所有者权益总计 100,000.00 109,115.40 9,115.40 其次,我们分析入表前后利润表的变化。入表前,企业 A是以费用化的方式处理与数据资产相关的支出;入表后,企业 A 将满足资产确认条件的支出予以资本化,可以从表 7 中看到,营业成本和研发费用分别下降 7,984.28 万元和 1,000 万元,因入表调整导致企业当期的利润总额和净利润显著上升,同时所得税费用也显著上升。表 8 企业 A 数据资源入表前和入表后的简化利润表 单位:人民币万元 项 目 入表前 2024 年度 入表后 2024 年度 差异 营业收入 30,000.00 30,000.00 0.00 减:营业成本 15,000.00 7,015.72 -7,984.28 研发费用 3,500.00 2,500.00 -1,000.00 营业利润(亏损以“-”号填列)5,000.00 13,984.28 8,984.28 利润总额(亏损总额以“-”号填列)5,000.00 13,984.28 8,984.28 减:所得税费用 750.00 2,247.64 1,497.64 净利润(净亏损以“-”号填列)4,250.00 11,736.64 7,486.64 接着,我们分析入表前后现金流量表的变化。从表 8 可以看出,企业 A 数据资产入表对现金流量表的影响主要是投资活动产生的现金流量和经营活动产生的现金流量,由于数据资源无形资产的增加导致入表后购建无形资产支付的现金部分增加10,000 万元,同时入表前原本计入营业成本或者研发费用的经营活动现金流量支付相应减少 10,000 万元。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 67 表 9 企业 A 数据资源入表前和入表后的简化现金流量表 单位:人民币万元 项 目 入表前 2024 年度 入表后 2024 年度 差异 一、经营活动产生的现金流量:支付给职工以及为职工支付的现金 15,000.00 6,000.00 -9,000.00 支付其他与经营活动有关的现金 3,000.00 2,000.00 -1,000.00 经营活动产生的现金流量净额 5,000.00 15,000.00 10,000.00 二、投资活动产生的现金流量:购建固定资产、无形资产和其他长期资产支付的现金 10,000.00 10,000.00 投资活动产生的现金流量净额 -10,000.00 -10,000.00 三、筹资活动产生的现金流量:筹资活动产生的现金流量净额 3、财务指标分析 首先,根据以上模拟报表,我们计算了入表前和入表后的关键财务指标情况,包括流动比率、资产负债率、净资产收益率和毛利率,如表 9 所示。基于入表模拟和对比分析,我们可以直观看到数据资产入表会带来的变化主要有:(1)因存货与无形资产增加导致总资产增加,而负债前后变化幅度小于资产,使得资产负债率下降,即企业的杠杆率下降;(2)数据资产入表导致所得税费用上升,应交税费等流动负债增加,流动负债增加幅度大于流动资产,使得流动比率下降;(3)数据资源形成无形资产后需要按照预计可使用年限进行摊销,虽然入表当年部分费用化的数据资产因纳入资产负债表而导致当期成本或费用降低,但因为无形资产摊销导致后续年份的数据资源无形资产摊销额将再次计入当期成本或费用,直至无形资产最终处置或报废,即入表可能导致企业成本或费用的确认存在时间差异,呈现先低后高的规律;(4)假定企业收入平稳,由于当期成本或费用先低后高,则利润呈现出先高后低的状态,毛利率和净资产收益率同样也会呈现先高后低的状态;(5)由于利润先高后低的变化,可能导致所得税也表现为先高后低。数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 68 参考献 1 Nolin,J.M.Data as Oil,Infrastructure or Asset?Three Metaphors of Data as Economic ValueJ.Journal of Information,Communication and Ethics in Society,2020,18(1):28-43.2 申卫星.论数据用益权J.中国社会科学,2020,(11):110-131.3 A.Berczi,Information as a factor of production,Bus.Econ.(1981)14-20.4 Hestness,J.et al.(2017)“Deep Learning Scaling is Predictable,Empirically”.Available at:http:/arxiv.org/abs/1712.00409 5 黄丽华,杜万里,吴蔽余.基于数据要素流通价值链的数据产权结构性分置J.大数据,2023(2).6 陈国青,曾大军,卫强,等.大数据环境下的决策范式转变与使能创新J.管理世界,2020,36(2):95-105.7 Veldkamp,L.Valuing Data as an AssetJ.Review of Finance,2023,27(5):1545-1562.8 张新民,金瑛.资产负债表重构:基于数字经济时代企业行为的研究J.管理世界,2022,38(9):157-175.9 蔡继明,刘媛,高宏,等.数据要素参与价值创造的途径基于广义价值论的一般均衡分析J.管理世界,2022,38(7):108-121.10 许宪春,张钟文,胡亚茹.数据资产统计与核算问题研究J.管理世界,2022,38(2):16-30.11 黄世忠,叶丰滢,陈朝琳.数据资产的确认、计量和报告基于商业模式视角J.财会月刊,2023,44(8):3-7.12 荣健欣,王大中.前沿经济理论视野下的数据要素研究进展J.南方经济,2021,(11):18-43.13 Stigler,G.J.(1961).The Economics of Information.Journal of Political Economy,69(3),213-225.14 Valavi,E.,Hestness,J.,Ardalani,N.,&Iansiti,M.(2022).Time and the Value of Data.arXiv preprint arXiv:2203.09118.15 Veldkamp,L.,&Chung,C.(2019).Data and the Aggregate Economy.Journal of Economic Literature.16 1朱扬勇,叶雅珍.从数据的属性看数据资产J.2021(2018-6):65-76.17 陈信元,何贤杰,邹汝康,等.基于大数据的企业“第四张报表”:理论分析、数据实现与研究机会J.管理科学学报,2023,26(5):23-52.18 Veldkamp,L.Valuing Data as an AssetJ.Review of Finance,2023,27(5):1545-1562.19 彭刚,李杰,朱莉.SNA 视角下数据资产及其核算问题研究J.财贸经济,2022,43(5):145-160.20 Liu,E.,Ma,S.,Veldkamp,L.(2023).Data sales and data dilution J.Working Paper.21 徐涛,尤建新,曾彩霞,等.企业数据资产化实践探索与理论模型构建 J.外国经济与管理,2022,44(06):3-17.22 Enache,L.,Srivastava,A.Should Intangible Investments be Reported Separately or Commingled with Operating Expenses?New EvidenceJ.Management Science,2018,64(7):3446-3468.23 Banker,R.D.,Huang,R.,Natarajan,R.,et al.Market Valuation of Intangible Asset:Evidence on SG&A Expenditure J.The Accounting Review,2019,94(6):61-90.24 Sloan,R.G.Do Stock Prices Fully Reflect Information in Accruals and Cash Flows about Future EarningsJ.The Accounting Review,1996,71(3):289-315.25 Elliott,W.B.,Hobson,J.L.,Jackson,K.E.Disaggregating Management Forecasts to Reduce Investors Susceptibility to Earnings Fixation.The Accounting Review,2011,86(1):185-208.26 李健,董小凡,张金林,等.数据资产对企业创新投入的影响研究J.外国经济与管理,2023:1-16.27 宋炜,曹文静,周勇.数据要素赋能、研发决策与创新绩效来自中国工业的经验证据J.管理评论,2023,35(7):112-121.28 Beraja,M.,Yang,D.Y.,Yuchtman,N.Data-Intensive Innovation and the State:Evidence from AI Firms in ChinaJ.The Review of Economic Studies,2023,90(4):1701-1723.数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 69 29 Jain,P.K.,Rezaee,Z.The Sarbanes-Oxley Act of 2002 and Capital-Market Behavior:Early EvidenceJ.Contemporary Accounting Research,2006,23(3):629-654.30 Armstrong,C.S.,Barth,M.E.,Jagolinzer,A.D.,et al.Market Reaction to the Adoption of IFRS in EuropeJ.The Accounting Review,2010,85(1):31-61.31 Larcker,D.F.,Ormazabal,G.,Taylor,D.J.The Market Reaction to Corporate Governance RegulationJ.Journal of Financial Economics,2011,101(2):431-448.32 张俊瑞,危雁麟.数据资产会计:现状、规制与展望J.财会月刊,2023,44(12):3-11.33 崔吉峰,闫斌,张朋.数据资产管理研究与探索J.中国电力企业管理,2014(12):2.DOI:10.3969/j.issn.1007-3361.2014.12.028.34 黄世忠,叶丰滢,陈朝琳.数据资产的确认,计量和报告基于商业模式视角J.财会月刊,2023,44(8):3-7.35 高伟.数据资产管理:盘活大数据时代的隐形财富:Data asset management:how to activate hidden wealth of the big data eraM.机械工业出版社,2016.36 吴 超.从 原 材 料 到 资 产 数 据 资 产 化 的 挑 战 和 思 考 J.中 国 科 学 院 院 刊,2018.DOI:CNKI:SUN:KYYX.0.2018-08-007.37 PETERSON R E.A Cross Section Study of the Demand for Money:The United States,1960-62J.Journal of Finance,1974,29(1):73-88.38 Untied States Government US Army.Army information technology implementation instructionsM.Charleston:CreateSpace Independent Publishing Platform,2013.39 中国信息通信研究院云计算与大数据研究所.数据资产管理实践白皮书(2.0)版R.北京:中国信息通信研究院,2018.40 国家市场监督管理总局,全国信息技术标准化技术委员会.信息技术服务 治理 第 5 部分:数据治理规范:GB/T 34960.5-2018S北京:中国标准出版社,2018.41 黄丽华,杜万里,吴蔽余.基于数据要素流通价值链的数据产权结构性分置J.大数据,2023(2).42 蔡继明,刘媛,高宏,等.数据要素参与价值创造的途径基于广义价值论的一般均衡分析J.管理世界,2022,38(7):108-121.43 黄世忠,叶丰滢,陈朝琳.数据资产的确认、计量和报告基于商业模式视角J.财会月刊,2023,44(8):3-7.44 国家市场监督管理总局,全国信息技术标准化技术委员会.电子商务数据资产评价指标体系:GB/T 37550-2019S北京:中国标准出版社,2019.45 中国资产评估协会.资产评估专家指引第 9 号数据资产评估:中评协201940 号S.2019.46 HAWLEY R.Information as an asset:the board agendaJ Information Management and Technology,1995,28(6):237-239.47 TOYGAR A,ROHM C E T,ZHU J.A new asset type:digital assetsJ.Journal of International Technology&Information Management,2013,22(4):113-119.48 曹磊.网络空间的数据权研究J.国际观察.2013.49 肖冬梅,文禹衡.数据权谱系论纲J.湘潭大学学报(哲学社会科学版),2015.50 张毅菁.数据开放环境下个人数据权保护的研究J.情报杂志,2016.51 朱扬勇,熊贇.数据的经济活动及其所需要的权利J.大数据,2020,6(06):140-150.52 瑞柏律师事务所.欧盟一般数据保护条例 GDPRM.北京:法律出版社,2018.53 赵刚.数据要素:全球经济社会发展的新动力M.北京:人民邮电出版社,2021.54 E BRYNJOLFSSON,L M HITT,H H KIM.Strength in Numbers:How Does Data-Driven Decisionmaking Affect Firm Performance.SSRN.(2011-04-22).55 OECD.Data-Driven Innovation Big Data for Growth and Well-BeingR.OECD Publishing.(2015-10-06).56 肖翔,何琳.资产评估学教程(修订本)M.北京:清华大学出版社,2006.数据资产表及估值实践与操作指南 Data Assets Incorporating Into The Balance Sheet and Valuation Practice and Operations Guidebook 70 57 MOODY D L,WALSH P.Measuring the value of information an asset valuation approachC/Proceedings of the 7th European Conference on Information Systems.S.L.:s.n.,1999:496-512 58 李永红,张淑雯.数据资产价值评估模型构建J.财会月刊,2018(09):30-35.59 郭邑彤.互联网金融企业数据资产价值评估方法研究D.西安科技大学,2019.60 陶怡然.基于 AHP 法的平台数据资产价值评估研究D.中国矿业大学,2019.61 梁艳.互联网企业数据资产价值评估D.河北经贸大学,2020.62 林佳奇.发电企业数据资产价值评估研究D.华北电力大学(北京),2020.63 张驰.数据资产价值分析模型与交易体系研究D.北京:北京交通大学,2018.64 倪渊,李子峰,张健.基于 AGA-BP 神经网络的网络平台交易环境下数据资源价值评估研究J.情报理论与实践,2020,43(01):135-142.65 王静,王娟.互联网金融企业数据资产价值评估基于 BS 理论模型的研究J.技术经济与管理研究,2019(07):73-78.66 陆岷峰.构建我国微观主体数据资产市场化管理体制与机制的研究J.南都学坛,2021,41(5):92-100.DOI:10.3969/j.issn.1002-6320.2021.05.012.67 Veldkamp,L.Valuing Data as an AssetJ.Review of Finance,2023,27(5):1545-1562.68 Veldkamp,L.,&Chung,C.(2019).Data and the Aggregate Economy.Journal of Economic Literature.69 罗玫、李金璞、汤珂:企业数据资产化:会计确认与价值评估,清华大学学报(哲学社会科学版)2023 年第 5 期,第 195209 页.70 吴蔽余、黄丽华:数据定价的双重维度:从产品价格到资产价值,价格理论与实践2023 年第 7 期,第 7075 页.71 尹传儒、金涛、张鹏等:数据资产价值评估与定价:研究综述和展望,大数据2021 年第 4 期,第1427 页.72 俞明轩、王逸玮:资产评估,中国人民大学出版社,2017 年.73 杨凯.企业数据资产价值评估方法研究J.中国管理信息化,2022,25(23):88-91.74 谢刚凯,蒋骁.超越无形资产数据资产评估研究J.中国资产评估,2023(02):30-33.75 张 志 刚,杨 栋 枢,吴 红 侠.数 据 资 产 价 值 评 估 模 型 研 究 与 应 用 J.现 代 电 子 技 术,2015,38(20):5.DOI:10.3969/j.issn.1004-373X.2015.20.012.76 高伟.数据资产管理:盘活大数据时代的隐形财富:Data asset management:how to activate hidden wealth of the big data eraM.机械工业出版社,2016.77 吴 超.从 原 材 料 到 资 产 数 据 资 产 化 的 挑 战 和 思 考 J.中 国 科 学 院 院 刊,2018.DOI:CNKI:SUN:KYYX.0.2018-08-007.
中国开放数据白皮书20232 科学数据的开放、共享和应用,会促进科学界带来新的知识。而大数据、人工智能和大模型的融合发展,也将激活科学研究的创新力和生命力,破解更多科学密码。陈润生 中国科学院院士 中国科学院生物物理研究所研究员开放数据状况报告是一项全球调查,旨在深入了解科研人员对于开放数据的态度和体验。我们很高兴与中国科学院计算机网络信息中心携手,合作发布一份有关中国开放数据情况的报告,以便出版机构、科研资助机构和科研机构更好地了解科研人员的看法,以及需要以哪些支持来帮助他们将数据公开。作为科研界的积极合作伙伴,施普林格 自然致力于开创数据共享的新方法,并支持科研人员使数据共享成为新常态。STEVEN INCHCOOMBE(史蒂文 印驰库姆)施普林格 自然科研市场总裁DOI:https:/10.6084/m9.figshare.24638301中国开放数据白皮书2023目录前 言 42023年中国开放数据情况分析 6我国科学数据的新型知识产权保护规则 12中国科学院推动数据开放的政策与实践 14中国空间科学领域数据开放实践与思考 16全球微生物大数据共享平台的建设与应用 18中国对地观测科学数据开放共享的现状和趋势 20中国农业科学数据开放共享实践与进展 22基于SI数字框架的计量数据开放共享特点介绍 24中国科技期刊开放研究数据政策与实践 28开放数据在中国施普林格 自然的政策、实践和愿景 31 中国开放数据白皮书20234开放数据是开放科学的重要组成部分,数据密集型科学发现的新型科研范式正在对科学数据开放共享提出迫切需要。经过中国政府、政策制定者等多方努力,中国的开放数据和开放科学数据事业正迎来蓬勃发展。中国在全球开放科学的舞台上扮演着重要角色。在2023年的调查问卷反馈中,中国受访者占全球参与人数的11%,排全球第二。同时,中国科研群体对于开放科学有比较高的接受度和支持度。有78%的受访者赞成公开研究数据成为惯例。然而,数据共享在实践中还在敏感数据许可、数据滥用等问题上存在一定阻碍因素。因此,报告对国家政策法规体系、科研评价体系、科研机构的指导作用和数据共享最佳实践提出了相关建议。同时,报告邀请中国数据开放共享领域的专家共同参与此次报告的撰写。在政策研究与法规层面,来自国家知识产权局的顾昕等介绍了中国对于科学数据这一新型知识产权的保护规则,并对大规模科学数据集合提出保护建议,较于个体科学数据已开展的系列知识产权合规工作,大规模数据集合还缺乏完善的制度保障,亟待构建一种新型产权制度。在建设实践层面,来自中国科学院科学数据总中心的陈昕等从数据政策建设实践、科学数据管理与共享服务实践、科学数据治理能力实践、项目数据汇交实践几个方面系统介绍了中国科学院在科学数据开放的政策与实践上的建设情况。涉及具体学科领域的数据共享工作,报告邀请了5篇来自国家科学数据中心的观点报告。科学数据是重要的国家基础性和战略性资源,而地球科学、生物学、农业农村等领域产生的科学数据,具有极高的经济价值和社会价值,做好这些数据的收集、储存、保护、开发与利用工作,将对我国国民经济和社会发展产生深远影响。微生物和农业等领域均重视数据平台建设,促进领域数据的海量汇聚,形成了有效的整合效应,促进科学数据资源的共享利用。另一方面是数据标准建设达成一定成效,形成数据共享的基础,提升数据质量,实现数据互联互通。来自国家空间科学数据中心的邹自明等介绍了国内外空间科学领域数据开放发展情况,从领域科学数据的高质量供给、高水平开放共享、开放生态建设等方面具体阐述了中国在推动空间科学领域开放共享过程中的实践与进展,并提出了面向数据与智能融合驱动的新型科研范式持续推进领域科学数据开放与利用的展望。来自国家微生物科学数据中心的马俊才的介绍,国家微生物科学数据中心以世界微生物数据中心(WDCM)为平台,倡导了全球微生物菌种保藏目录(GCM),在微生物资源共享和挖掘方面建立一套国际标准体系,建立全球权威的微生物组学参考数据库和数据分析平台,有效促进全球微生物数据的汇聚、融合、共享与利用。国家对地观测科学数据中心的李国庆系统地介绍了中国对地观测数据的特点,并分析了中国对地观测数据开放共享的参与方、开放现状及各方态度;总结了中国对地观测领域开放数据存在的问题及机遇。前 言陈润生 中国科学院生物物理研究所周园春 中国科学院计算机网络信息中心国家农业科学数据中心的周国民从分析农业科学数据的特点为入口,全面梳理了国家农业科学数据中心在促进农业科学数据开放共享上的系列举措,分享了相关工作成效,并对未来工作进行了展望。国家计量科学数据中心的熊行创首先介绍了基于SI数字框架的计量数据开放共享特点,并提出计量可追溯性和机器可读、可理解、可操作性是数字时代计量数据作为质量信任之锚的显著特点。科学数据在学术出版中起到了保障科研诚信、促进学术交流的重要作用。本次问卷的大部分受访者也赞同这一观点,认为“论文出版是最主要的数据获取方式”。在中国科技期刊的开放数据实践进展上,来自 中国科学数据 的孔丽华研究表明“中国科技期刊卓越行动计划”的资助刊物中有超过81%的“领军期刊”已制定了数据政策,但这在中国科技期刊总量(5000多种)中占比,仍微乎其微。此外,数据论文出版作为一种新型出版模式,正在积极推动数据引用和重用,释放数据更大的价值。中国创办的数据期刊的论文发文量正处于上升期,并开展了数据共享和出版、数据政策建设的丰富实践。作为出版机构的施普林格 自然介绍了其在中国的数据政策、实践与愿景。施普林格 自然支持中国的开放数据政策和数据存储库,并建议了在中国鼓励数据共享的最佳实践。我们高兴地看到,本次调查中大部分科研群体赞成开放科学数据成为常态,并且希望得到共享数据能够带来更多的学术认可,这也反映了科研群体对开放科学数据这一概念具有较为正面的认知,并希望以此开展更多学术交流、获得学术认可。当然,政策法规体系建设、科研评价的激励、科研机构的实践指导等,都能够极大帮助科研群体在科学数据开放共享过程中消除障碍、提供便利,逐步形成驱动数据开放的强大动因。我们呼吁,科研机构、高校、学术期刊、出版商、数据存储库、技术提供商等科研共同体,在拥抱开放科学的道路上继续携手前行,共同为构建开放科学和开放数据大家庭努力。62023年,是figshare与Springer Nature连续面向全球科学家发放开放数据状况调查问卷 的第八年。据统计,此次调查中,共收到来自中国的有效问卷反馈642份,中国受访者占全球参与人数的11%,位列第二。本报告以本次调查收到的这642份中国学者的问卷数据为依据,对中国科研群体在开放数据的动机、存在的挑战、看法和实践行为等方面展开调查分析。根据对中国受访者的数据分析,报告呈现以下要点:有78%的受访者赞成将公开研究数据作为常规惯例;56%的受访者认为其在共享数据的学术认可上“获得太少”,20%回答“不知道”;74%的受访者表示不清楚“数据管理计划”的概念,49%的人表达需要相关培训支持;49%的受访者重复使用过他人或团队公开共享的数据;已发表的论文是最主要的数据获取方式(69%)。在参与此次调查的中国受访者中,60%来自高校,是占比最高的人群,16%来自医院或医疗组织,14%来自研究机构,6%来自医学院,3%来自企业,另有1%来自政府机构。在学科分布上,从事医学(29%)研究的受访者比例最高,其次是生物(18%),工程(9%)和地球与环境科学(9%)领域。从职业阶段分布上看,约有47%的受访者处于职业早期(于近5年内发表了第一篇论文)。因此,本次调查可能在一定程度上反映出中国青年科研群体对待开放数据的认识。姜璐璐 张泽钰 李宗闻中国科学院计算机网络信息中心图 1 受访者机构类型图 2 受访者从事的学科分布2023年中国开放数据情况分析78%的受访者赞成将公开研究数据作为常规惯例一、报告情况介绍1.数据共享的驱动与阻碍中国科研群体对于开放科学有比较高的接受度和支持度。有78%的受访者赞成将公开研究数据作为学术研究惯例。其中,73%的受访者认为开放数据可促进合作,70%认为“有助于验证我的研究发现”,63%认为“可避免重复劳动”,57%认为“可补充现有数据”,仅1%的受访者从未从数据共享中获益。50.3%的受访者认为资助方应将研究数据的共享作为获得经费的要求之一(29.4%反对,20.2%回答“不清楚”);若经费申请人没有遵循项目的强制共享数据要求时,44.9%的人认为申请应遭拒绝或给予其他相应处罚(30.4%反对,24.8%回答“不清楚”)。数据共享依旧存在诸多阻碍因素。在问及关于数据共享的潜在问题或担忧时,57%的受访者担心数据“包含敏感信息或数据共享前须获研究参与者许可”,医学领域的受访者对此的担忧尤为突出(31.96%);此外,中国是全球(43%)受访者中对此表达最多顾虑的国家。中国受访者担忧的其他问题还包括“数据滥用(39%)”,“其他实验室抢发研究成果(36%)”以及“不确定数据版权和数据许可(36%)”等;只有约10%的受访者表示对数据共享没有顾虑。提升学术认可与影响力是最重要的数据共享驱动因素。调查发现,科研群体最关注的仍是研究成果是否获得认可,及产生的学术影响力。获得“完整的数据引用(69%)”“研究论文被引用(62%)”“提高研究的影响力和知名度(51%)”是中国受访者数据共享的最主要驱动因素。此外,政策要求也发挥着重要的驱动作用,有48%的受访者会因“期刊/出版商的要求”共享数据,38%和36%的人会应资金资助方或所属机构的要求共享数据。但数据共享尚未获得足够的学术认可。当被问及研究人员目前是否因共享数据而获得足够的承认或认可时,超半数的受访者(56%)选择了“不,他们获得的承认太少”,值得注意的是,较上一年度相比这一比例正在降低。24%的受访者认为数据共享者已获得足够的认可(18%)或过多认可(6%)且这一比例正在上升。在认可形式上,论文的完整引用(41%)是研究人员在数据共享上获得最多的认可形式。其次是数据共享者作为论文的合著者(33%),次之是作为工作考核的内容(22%)。但是,有30%的受访者表示从未在数据共享上获得过任何认可,67%的学者表示他们并未因数据共享而有机会加入任何合作项目。数据共享尚未获得足够的学术认可图 4 受访者对共享数据的担忧图 5 促使受访者共享数据的驱动因素图 3 中国科研群体对开放科学的支持度及赞成开放数据的原因二、主要发现82.科学数据管理的实践中国受访者关于数据管理计划(Data Management Plan,DMP)的认知、实践能力及实施支持上普遍需要提升。调查显示,有72%的中国受访者不清楚或者不知道DMP的概念。涉及DMP的制定能力评估,近半(49%)的中国受访者表示自己不具备制定可实施的DMP能力,需要更多培训和信息,仅51%的受访者在不同程度上表示能够胜任。谈及DMP的制定动因上,40%的受访者表示制定数据管理计划是出于行业规范或期望的考虑,39%的人出于项目资助方的要求,36%的人出于机构要求考虑,也有部分人表示会出于个人选择而非其他人要求制定DMP(32%)。在数据管理计划的实施上,80%的中国受访者有过创建数据管理计划的经历,但实施过程面临诸多挑战。40%的受访者认为缺乏受过训练的专业人员开展工作,39%的人认为实施数据管理计划过于耗时,31%的人认为过于耗资。此外,技术上的挑战诸如数据存储、数据组织等问题也较为突出(37%)。相比于全球其他国家和地区,中国受访者在项目进行阶段尤其倾向将数据存储在个人计算机上(88%),40%的人选择使用个人云存储。选择使用机构服务的人群比例明显较低(机构云存储16%,机构存储库12%,机构网络6%)。此外,约有36%的人选择使用物理方式(如纸质笔记本等)保存数据。较少的受访者(15%)会整理所有收集到的数据以便分享。有34%的受访者表示会整理计划公开的数据,21%的受访者会整理部分数据用于公开,18%的受访者仅对计划分享给同事或他人的数据进行整理。另有约7%的学者表示缺乏相关资源,但乐于开展此项工作。在数据整理的支持工作上,中国学者更倾向通过所在机构获取支持。全球受访者中50%的学者选择从所在机构获取专家帮助,而中国学者中这一比例占到70%,他们通过实验室(46%)、所在部门(35%)、机构图书馆(17%)获得过专家帮助。较多数中国受访者(56%)倾向在研究发表后再公开自己的数据。此外,14%的学者会选择在提交研究论文时公开数据,只有3%的受访者会在数据收集的当下立即公开数据。另有9%的受访者表示在他人提出要求后才会公开数据,8%的受访者表示不会和主要合作学者以外的人进行数据分享。在共享方式上,大多数中国受访者倾向使用机构存储库(60%)来共享数据,次之是以论文补充材料的形式(46%)共享数据。关于资金来源,36%的受访者共享数据的资金支持来自所属机构,35%的人表示不清楚,27%的人表示更支持有明确数据共享预算的项目。相当比例的中国受访者有过数据再利用的经历。统计发现,有一半的中国受访者(50%)再利用过自己的数据,49%的人再利用过他人的开放数据,14%的人再利用过非公开的数据用于研究。图 6 DMP的制定能力评估图 7 受访者希望得到的有关数据管理计划的培训内容图 8 研究数据的存储方式图 9 开放数据的获取途径完全可以胜任21%可以胜任30%我需要适度的培训/更多的信息43%我需要大量的培训/更多的信息6%如果您需要制定一个实用的数据管理计划,您认为自己在多大程度上有能力这样做?界定要产生的数据以及如何获得这些数据%了解并确定访问、分享和重用的政策%长期存储和数据管理策略%元数据描述%成本核算和预算规划%以上皆不包括在内%您认为从数据管理计划中的哪些方面可通过进一步技能培训/信息中受益?国家国家个人计算机(硬盘)个人云存储机构计算机(硬盘)机构云存储机构网络机构存储库项目云存储物理存储China 中国%India印度%Brazil巴西%Japan日本%Italy意大利%France法国nada加拿大%Australia澳大利亚%Spain西班牙%United States美国CH德奥瑞地区%United Kingdom英国%在项目进行中,您会将研究数据存储在哪?80%的受访者有过创建数据管理计划的经历,但实施过程面临诸多挑战已发表的学术论文是最主要的开放数据获取途径(69%)。其次分别是通过数据存储库获得数据(62%)和通过数据论文获得数据(46%)。在谈及数据质量的决定因素时,53%的中国学者认为“数据是新的(如最近一年内发布的数据)”是重要的决定因素(26%认为“格外重要”,27%认为“十分重要”);此外,“可视化的数据反应了原始数据的真实其情况(45%)”、“数据与已发表的研究结论一致(45%)”以及“具备完整的相关元数据(45%)”也是“格外重要”或“有些重要”的因素。3.数据管理的基础支撑需求大多受访者希望得到同事或导师、数据存储库、机构图书馆和开放数据软件提供商的帮助。关于科研人员管理和共享数据,过半受访者希望得到同事或导师(58%)、数据存储库(53%)、机构图书馆(52%)和开放数据软件提供商(52%)的帮助。这与现实情况较为接近,有超六成(61%)的受访者表示已接受过关于如何计划、管理、共享科研数据的相关帮助,这些帮助主要来自于同事或导师(63%)、开放数据软件提供商(58%)、机构图书馆(57%)。对于科研人员已得到的帮助支持,有三成左右的受访者认为机构或组织(29%)、资助方(37%)、出版商(32%)提供了很好的帮助,20%左右的受访者得到了一般的帮助。在帮助内容上,超六成受访者希望了解数据版权和数据许可协议的相关知识(63%),以及他们如何规划管理数据的时间(60%)。还有近半受访者表示需要了解如何寻找合适的数据存储库(49%)、理解适于自己的数据管理政策(47%)。多数受访者认为中国在数据开放共享上给予了较强力度支持。从政策制定上,接近半数受访者在最近的科研过程中找到了机构(47%)、出版商(45%)、资助方(37%)以及校方(36%)的数据政策。多数受访者希望机构(67%)、资助方(58%)、校方(54%)和出版商(52%)指导他们了解对应的数据政策,以使研究数据开放可用。多数受访者认为中国对于研究数据开放共享给予了较强力度的支持(65%)。此外,调查数据还显示,较多的中国数据受访者已在使用人工智能工具辅助他们进行数据收集(62%)、数据处理(55%)和元数据创建(53%)工作。%同事或导师数据存储库机构图书馆开放数据软件提供商受访者希望得到谁的帮助?%机构资助方校方出版商受访者需得到数据政策指导的来源图 10 受访者所需帮助的内容图 11 受访者希望得到谁的帮助图 12 受访者需得到数据政策指导的来源101.完善国家政策法规体系为研究人员提供规范指引科学数据管理办法 至今已颁布五年,“数据二十条”(关于构建数据基础制度更好发挥数据要素作用的意见)已于2022年底发布,但关于科学数据的权属究竟应如何界定和规制,目前仍无明文规定予以落实。实践中,科学数据权益、论文版权、出版转让协议等内容往往相互交织,其中所涉权利纷繁复杂,研究人员在共享数据时不免顾虑。近六成受访者表示共享数据时担忧数据包含敏感信息或数据共享前须获得研究参与者许可。值得注意的是,受访者中有近五成来自医学(29%)和生物(18%)领域,这些领域的研究活动更多涉及个人信息、人体器官、人类遗传资源等敏感数据,准确厘清数据共享与保护的边界对很多科研人员而言存在诸多困难。此外,36%的受访者表示对数据版权和数据许可协议事宜不太确定,超过六成受访者表达期望了解数据版权和数据许可协议的相关知识。针对中国开放数据过程中存在的诸多现实困境,建议尽快完善相关政策法规体系,如尽快出台有关科学数据权属、数据共享规范等内容的管理细则,为研究人员合法合规合理的开展科学数据共享活动提供指引。2.优化科研评价体系激励研究人员共享数据提升学术认可与影响力是最重要的数据共享驱动因素,如完整的数据引用(69%)、研究论文被引用(62%)和提高研究的影响力/知名度(51%)。但有三成受访者认为其并未从数据共享中获得任何认可或承认,超五成受访者认为研究人员在数据共享中获得的认可和承认太少了(56%)。因此,数据开放共享需要进一步的激励机制建设:(1)完善配套措施,规范数据引用,在科研共同体内建立数据引用惯例与共识,将数据引用情况纳入学术影响力评价体系,认可数据共享在科研全生命周期的重要性及价值。(2)在科研职业晋升,人才评优评定,项目申请、项目验收结题等过程,认可接收科学数据作为学术成果项并开展评估评价,以激励科研数据共享实践。(3)在学术论文发表过程中,期刊可考虑为共享数据的文章开通绿色通道(如优先评审、优先出版等),并建立论文和关联数据的对应关系,增强论文与数据的连接性。三、主要结论和建议提升学术认可与影响力是最重要的数据共享驱动因素3.科研机构和高校应在数据管理实践中有效发挥指导作用中国受访者关于数据管理计划的认知、实践能力及实施支持上普遍需要提升,在专业训练、耗时耗资、技术难题等实操问题,仍面临诸多困难,也迫切期望获得相关培训和信息。调查发现,所在机构和高校是中国受访者最为希望得到数据管理计划、数据开放共享实践相关帮助的来源。因此,我们的机构、高校以及图书馆应在数据管理实践上发挥更大的作用:(1)机构、高校及图书馆应肩负起普及数据管理和开放共享实践的职责,广泛宣传数据管理计划,提升科学数据管理认知与数据开放共享的认同程度;(2)为科研人员提供更全面的数据开放共享实践指导,针对数据管理计划、数据版权、数据许可协议等重要内容开展配套培训,帮助科研人员提升科学数据管理的基础素养;(3)与数据存储库、软件提供商开展深度合作,共同建设数据管理和开放共享的基础设施,为机构内科研人员提供便捷可信的数据出版服务平台和数据传播引用通路。4.鼓励数据共享的最佳实践问卷调研结果显示,有很多中国学者有过重用他人数据的经历。其中,通过已发表的论文而获得数据是最主要的数据获取途径,次之是通过数据存储库和数据论文。同时,大部分的中国学者乐于将其共享的数据服务于重用(包括重复研究、重新分析、重新解读、单独性重用和结合性重用)。因此,项目资助方、期刊、机构等应在科研共同体内广泛鼓励数据共享的最佳实践:(1)鼓励更多的科研工作者在研究论文发表时撰写“数据可用性声明”,提升成果支撑数据的可获取性和研究的透明性。(2)鼓励数据成果作为数据论文的形式进行出版,一方面提升共享的数据的可理解性和可重用性,另一方面可纳入现有科研评价体系获得相应的学术认可。(3)鼓励科研工作者把可共享的科学数据存储在专业的数据存储上,确保数据的长期、稳定、可靠存储的同时,在FAIR共享原则框架下有效实现数据共享。机构、高校以及图书馆应在数据管理实践上发挥更大的作用12在开放科学的背景下,科学数据的开放共享具有支撑各领域科学研究、降低研究成本、增强科技创新能力等重要意义。近些年,我国科学数据的开放共享工作取得了显著成效。科学数据需要开放共享,2018年国务院出台的 科学数据管理办法 规定,对于“政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则面向社会和相关部门开放共享”。在各项政策的引导和鼓励下,越来越多的中国学者开始发表数据论文,将优质的科学数据开放全球共享1。一、科学数据作为整体数据集合的价值一方面,基于社会发展对科学数据的巨大需求,科学数据需要开放共享。但另一方面,如何进一步发挥由大量个体数据所形成的整体数据集合的作用,是当前数据时代发展面临的重要议题。与个体数据不同,整体数据是指具有相当数量级的个体数据经一定算法加工处理所形成的数据集合,体现了数据处理者所付出的劳动和投入的资本,典型的例子是人工智能大模型产品,个体科学数据除了作为通用人工智能大模型的优质训练数据之外,往往也汇集形成诸多科学方面的人工智能大模型产品,譬如在算法加持下形成的ChatGPT数据集合,在个体数据提供的信息价值之外,具有全新的功能。科学数据管理办法 在规定科学数据共享遵循“非营利原则”的同时,也鼓励社会组织和企业等对科学数据进行分析挖掘,形成有价值的科学数据产品,开展市场化增值服务。二、大规模科学数据集合的保护规则有待完善随着我国科技、知识产权等法律制度的不断完善和保护意识的不断提高,围绕着个体科学数据的保护开展了一系列合规工作,包括个体数据包含的信息是否侵犯著作权,是否违反个人信息保护规定,如何与相关主体签署合同获得授权等等。但是,相较于对个体数据的重视,科学数据作为整体数据集合发挥作用时,目前并没有十分完善的制度予以保障。尽管在信息层面上,整体数据结合在满足一定条件时可以沿用现有的法律制度获得保护,譬如作为 著作权法 的汇编作品、利用商业秘密制度,或主张 反不正当竞争法 的一般条款,但对于个体科学数据汇集形成的具有全新功能的大规模数据集合本身应如何保护,目前没有明确的法律规定。三、构建数据知识产权保护规则的试点探索国家知识产权局正在探索构建数据知识产权保护规则,尝试建立符合这种全新产权客体的保护方式。自2022年11月开始,确定北京市、上海市、江苏省、浙江省、福建省、山东省、广东省、深圳市等8个地方作为试点地方,在制度构建、登记实践、权益保护、交易使用等方面进行探索。具体而言,数据知识产权是借鉴知识产权思路所构建的一种新型产权制度,与 数据二十条 2淡化所有权、强调使用权的理念相一致,数据知识产权也是从数据使用权的角度考虑来构建。1.保护对象。数据知识产权的保护对象是依法依规获取的、经过一定规则处理的、具有实用价值的数据集合。其中,“依法依规获取”指的是数据知识产权保护对象的安全合规性要求,主要指原始数据的获取应符合 网络安全法数据安全法个人信息保护法 等相关法律、法规有关规定或者合同约定。“经过一定规则处理的”数据集合可以简单表述为“数据 规则”,是指是将经过数据处理者付出劳动和投入改造后进入经济领域的、已经作为生产要素形态存在的数据作为产权的对象,这就排除了可能包括多方主体的原始数据。这里言及的“规则”在当前的实践中主要体现为算法。2.保护方式。考虑到后续潜在竞争者的行为自由,为了最大限度避免干扰数据的正常流转,构建的数据知识产权是一种有限的排他权,仅禁止他人不正当获取以及不正当披露和使用数据集合的行为。顾昕 国家知识产权局知识产权发展研究中心刘洁 中国科学技术大学知识产权研究院我国科学数据的新型知识产权保护规则1 中国科协技术协会、国际科学、技术与医学出版商协会联合编写,中国开放获取出版发展报告2022,科学出版社出版2023年第1版第47页。2 2022年12月,中共中央、国务院印发 关于构建数据基础制度更好发挥数据要素作用的意见(简称 数据二十条)。四、对大规模科学数据集合的保护建议符合前述条件的科学数据集合的持有者,对于其在数据收集和处理中所付出的劳动及资本投入,建议可以尝试通过目前八个数据知识产权地方试点进行登记寻求保护。针对科学数据集合的持有者可能存在的顾虑,以下予以简要解释说明:第一,保护对象不是个体数据,而是整体数据,是经过一定规则处理的具有相当规模的科学数据集合,典型的保护对象是科学领域的人工智能大模型产品。第二,数据登记并不意味着必然选择商业化道路,数据持有者登记后可以选择向使用者收费,也可以选择免费,登记仅仅在一定程度上起到明确整体数据集合权属的作用。第三,数据登记并不妨碍他人正当利用数据的自由。譬如对于某家研发自动驾驶技术的公司,如果是自主合法采集用于人工智能训练的街道数据,即便已经存在类似甚至相同的数据知识产权在先登记,在先登记人也不能禁止他人后续合法的数据利用行为。在先登记人只能禁止他人不正当获取和利用同样或类似数据集合的行为。第四,登记规则设计尽量避免对数据持有者产生不利的市场影响。登记程序并不要求数据持有者提供全部数据集合,譬如北京、浙江等试点的登记办法规定,数据持有者提供数据来源、应用场景、数据特征、存证情况、算法规则、样例数据等内容后即可获得登记,充分考虑了数据持有者在商业秘密上的顾虑。可以尝试通过数据知识产权地方试点进行登记寻求保护14科学数据已成为科技创新的基础性资源和重要驱动力。中国科学院作为国家战略科技力量主力军,长期高度重视科学数据管理与开放共享工作,自上世纪七十年代末启动科学数据库建设以来,科学数据开放共享程度日益提高。过去一年来,为积极响应联合国 开放科学建议书 和 中华人民共和国科学技术进步法,充分发挥科学数据价值,中国科学院积极推动科研活动全流程的科学数据管理,在保护科研人员权益的前提下,实现科学数据的长期保存、便捷访问与可重复利用,推动开放数据实践。一、完善科学数据政策,推动项目数据汇交共享的规模化实施2019年2月,中国科学院发布了 中国科学院科学数据管理与开放共享办法(试行),提出科学数据应按照分等级、可发现、可访问、可重用的原则,适时开放共享,并提出将数据管理计划作为项目立项的必要条件等科技项目数据汇交要求。随后,中国科学院及院属各部门、各单位制定并发布了进一步落实的政策和制度,协同推进科学数据政策制度体系的发展与实践。其中,2022年,中国科学院战略性先导科技专项管理办法 和 中国科学院战略性先导科技专项科学数据汇交管理实施细则(试行)相继发布,明确了专项科学数据工作方面的若干要求:1)科学数据管理工作应贯穿专项各个环节,并作为项目阶段性考核和综合绩效评价的重要依据;2)院科学数据中心作为科学数据接收和管理方,为专项提供数据管理方面的专业化技术支撑和服务,并提供相关数据的共享服务;3)全院层面对科学数据汇交、共享的进展等进行统筹管理和动态监督,统筹管理。自此,中国科学院科技项目数据规范化管理进一步强化,项目数据汇交与共享开始规模化实施。二、科学数据中心提供科学数据管理与共享的专业化服务为保障科学数据管理与开放共享服务的常态化开展,自2019年起,中国科学院启动了院科学数据中心体系建设,并在2021年底完成了首批32家院科学数据中心的认定,逐步发展地域分布、资源协同的科学数据中心服务网络。科学数据中心作为专业机构,其基础设施环境、科学数据治理人才队伍、以及数据共享的技术平台,为推动项目数据开放共享发挥了非常重要的作用。在项目科学数据汇交与管理工作中,院科学数据中心除提供科学数据存储服务外,还提供了专业化的指导与技术支持,包括:在项目立项初期,指导科研人员形成科学数据管理的工作方案科学数据管理计划;在实施阶段,支持科学数据的汇交,审核数据质量;按照协议对数据整编与开放共享。三、发展面向开放科学的科学数据治理能力中国科学院也特别关注了面向开放科学的科学数据治理能力提升,形成了政策、标准、软件工具三位一体的开放数据解决方案。发展机器可操作的标准规范,重点规范了数据共享中的访问权限、授权许可、数据引用等要求,发布了具有开放兼容性的元数据词表,构成了科学数据开放共享的机制基础。研发的覆盖科学数据全生命周期管理的科学数据中心软件栈,将数据政策和标准要求融入其中,为科研团队和研究机构提供了低时间成本和经济成本的开放科学综合服务。通过开放的科学数据互操作协议,实现了科学数据中心资源的互联互通,在线可共享资源量超过了45 PB。四、统筹服务的项目数据汇交实践面向项目数据汇交的业务需求,建设了院项目科学数据汇交管理平台(https:/ 刘宁 周园春中国科学院科学数据总中心 中国科学院计算机网络信息中心中国科学院推动数据开放的政策与实践截至2023年8月底,已有30个战略性先导科技专项通过该平台开展了科学数据管理计划的编制,其中13个专项已开始汇交数据,汇交的资源总量达到102.05TB。这些汇交的资源,按照“开放为常态,不开放为例”的原则,除少数需质控加工后上线外,在审核通过后立即按作者设定的策略在各科学数据中心网站发布共享,已汇交数据开放性达87.2%(完全公开56.5%,保护期10.6%,有条件公开20%)。在此过程中,吸引了2039名科学家个人或团队熟悉开放科学技能,成为数据作者,覆盖164家研究机构,初步形成由一线科学家组成的高水平数据作者团队,为形成高度活跃和可持续的科学数据共享生态奠定基础。五、进一步发展面向开放科学的科学数据治理能力过去的一年,项目数据汇交工作的推进为全院科学数据规范化管理水平的提升和开放科学文化的建立奠定了重要基础。同时,科学数据银行(Science Data Bank)通过领域和专题社区的建立,探索同科研社区的深入连接,在服务科研共同体方面做出了积极的实践。未来,将进一步加强同科研创新的联系,以促进开放科学和科技创新为目标,推动科技项目、大科学装置、野外台站等多元场景科学数据的规范化管理与共享服务,提升技术赋能的科学数据治理能力,推动科学数据引用文化和新型科研评价机制的形成,发展开放科学学术环境。协同的科学数据中心服务网络为项目科学数据的管理与开放共享发挥了重要作用。一线科研人员的参与,为开放数据生态奠定基础。16本文介绍了国内外空间科学领域数据开放发展情况,从领域科学数据的高质量供给、高水平开放共享、开放生态建设等方面具体阐述了中国在推动空间科学领域开放共享过程中的实践与进展,并提出了面向数据与智能融合驱动的新型科研范式持续推进领域科学数据开放与利用的展望。一、引言人类对太空的探索是一个永恒的话题,从古代诗人屈原在 天问中提出的“日月安属?列星安陈?”的好奇,到现代空间科学的蓬勃发展,人类一直渴望揭示宇宙的奥秘和探索未知的领域。在漫长的空间探索过程中,源源不断产生的空间科学数据成为了全人类共有的宝贵财富。加强空间科学领域的国际合作与数据开放共享有助于推动空间科学取得新的突破和更大的进步。尽管面临着国际合作形势、隐私安全与知识产权保护等挑战,空间科学领域的国际主要机构与组织长期以来仍为空间科学数据开放作出了诸多努力。例如,国际空间研究委员会(Committee on Space Research,COSPAR)自1958年成立以来,致力于加强国际空间合作开放,推动全球空间科学研究的发展。由美国地球物理学会(AGU)主导发起的地球和空间科学数据出版联盟(COPDESS1)于2014年联合领域相关基金会、学术出版机构、仓储库、科研社区组织和研究人员,发起了关于支持和遵循开放数据最佳实践的倡议 地球、空间与环境科学承诺声明。2021年联合国教科文组织(UNESCO)发布 开放科学建议书2,标志着国际社会推动开放科学的努力进入新阶段,也为空间科学领域的数据开放与利用带来了新机遇。世界主要空间强国均启动部署了开放科学相关战略规划与项目,如美国国家航空航天局NASA推出了开源科学倡议(Open Science Initiative,OSSI3)以及向开放科学转型项目(Transition to Open Science,TOPS4),提出将2023年定为开放科学年;加拿大航天局(CSA)发布了2021-2024开放科学行动计划5,制定了开放数据、开放获取出版物、利益相关方参与等3个关键领域实施的优先级别和策略;欧洲航天局(ESA)发布 数据与信息开放获取的政策6 等。这些举措旨在促进空间科学数据应用与创新生态的健康发展,以加速空间科学进步,寻求重大科学发现。二、中国空间科学数据开放实践经过多年努力,中国空间科学数据开放与利用取得了显著进展,具体实践着力点包括发展提供高质量的数据供给,积极推动高水平的数据开放出版,以及营造构建开放合作的数据创新应用生态等方面。这些举措极大促进了中国空间科学数据价值发挥,为推动突破性的科学发现和服务公共利益提供了有力支撑。其中,国家空间科学数据中心(以下简称“数据中心”)作为2019年6月中国首批成立的国家科学数据中心7之一,以及目前空间科学领域唯一的国家级科学数据中心,在空间科学数据的治理、开放与利用中发挥了国家平台的积极作用。1.高质量数据供给高质量的数据供给首先需要推进空间科学数据的有效汇聚。数据中心推动了子午工程、空间科学先导专项、月球与深空探测等中国空间科学重大任务产生的科学数据汇交,积极整合国家重点研发计划、国家自然科学基金等百余个不同类型的科研项目产生的数据资源,并通过国际观测网络合作及数据镜像站建设等方式与英国、美国、加拿大、日本、巴西等十多个国家开展空间探测数据交换。这些举措使空间科学数据逐步脱离了分散孤立的状态,加强了数据资源之间的互联互通。高质量的数据供给同时也需要强化空间科学数据的有序治理。高水平治理离不开标准规范的基础支持,在面向科技资源管理的科技平台标准体系8基础上,数据中心团队进一步发展了通用科学数据标准体系及面向空间科学领域的科学数据标准体系,并针对科学数据治理实践域中的关键环节开展标准研究,已相继立项了一批国家标准如 空间科学数据元数据 和 科研项目数据管理指南等,立项并批准了若干团体标准如 空间环境数据安全分级指南等。依据相关标准规范形成的空间科学数据全生命周期管理标准化流程,有效促进了领域数据的质量提升、有序管理与安全保存。2.高水平开放出版在国家和主管部门相关办法9,10,11指导和相关国际倡议推动下,中国空间科学领域以“开放为常态,不开放为例外”的原则,尽可能地促进科学数据的公益性开放,同时积极推动领域数据开放从传统数据发布向规范数据出版模式转变,涉及基于数据仓储平台出版、邹自明 胥鑫 胡晓彦 佟继周 许琦 汤惟玮中国科学院国家空间科学中心 国家空间科学数据中心中国空间科学领域数据开放实践与思考学术论文关联数据出版和数据论文出版等多种模式,以促进空间科学数据的可发现、可访问、可操作和可重用(FAIR),提升研究成果的价值和影响力12。在重大任务数据开放共享方面,推动了一大批中国空间科学任务数据基于数据中心仓储平台面向全球范围开放获取,如“嫦娥”系列任务产品级科学数据、“天问一号”部分2级及以上科学数据、“悟空”卫星伽马光子数据、“慧眼”卫星提案观测数据、“极目”卫星伽马射线暴数据、“夸父一号”首批科学数据等,受到了国内外空间科学领域科研共同体的关注。在研究者科研数据出版方面,数据中心与科学数据银行开展战略合作,建立了空间科学领域社区ScienceDB Space,面向科研人员、科研期刊等利益相关者,提供论文关联数据的提交、审核、保存、出版、共享和获取等服务。ScienceDB Space受到美国地球物理学会(AGU)、施普林格 自然(Springer Nature)科学出版社等国际主流学术出版集团认可,其出版数据集被数据引用索引(Data Citation Index)、谷歌数据集搜索(Google Dataset Search)等多个国际数据索引库收录。在数据论文出版方面,数据中心与子午工程联合,在 中国科学数据 期刊推出的子午工程数据专刊,对子午工程运行多年来积累的数据产品体系与其中的优质数据集进行了系统介绍。这是中国空间科学领域内首次在专业数据期刊以专刊形式出版数据论文,是拓展重大任务数据开放共享方式、提高数据成果价值认可的有益尝试。基于在领域数据仓储管理与开放出版方面的积极努力,中国国家空间科学数据中心入选了AGU发布的“领域-学科仓储库推荐名单”,成为AGU旗下多期刊推荐的全球21个仓储库之一。中国的空间科学团队也在全球范围内逐步从“数据使用者”转变为更多承担“数据贡献者”的重要角色。3.开放合作生态建设开放合作的数据创新应用生态对于产生科学数据价值的辐射与倍增起到重要作用。中国空间科学领域通过跨领域合作促进交叉融合应用,以更好地解决空间科学及其邻近领域的重大科学问题与公共议题。例如国家空间科学数据中心与国家高能物理科学数据中心、国家天文科学数据中心开展战略合作,在数据技术、数据融合、数据安全、人才培养等方面开展深入合作,并尝试探索联合主题数据目录发布等方式促进跨领域数据发现与应用。同时,中国空间科学领域的数据与研究团队也正逐步深度参与到各项国际合作与国际组织活动。国家空间科学数据中心作为世界数据系统(World Data System,WDS)正式成员,获得CoreTrustSeal(CTS)国际资质认证,联合签署了COPDESS 地球、空间与环境科学承诺声明,其团队成员也在WDS、RDA以及CODATA&GOSC等国际合作组织工作组中发挥了积极的作用。三、未来发展的思考随着人工智能技术的日新月异发展和以大数据为核心的新一代数字技术融合发展,数据与智能融合驱动的科研范式正在发挥新型创新引擎作用,空间科学领域同样正处于科研范式变革的关键时期13。新范式对空间科学数据开放与利用提出了新需求。未来,中国的空间科学数据工作者将在提升数据FAIR化水平的基础上积极发展AI-ready的空间科学数据,着力研发领域专用的AI模型与数据应用工具,建设集大数据、大模型、强算力于一体的空间科学领域开放研究平台,大力推动开放数据、开放模型、开放工具和开放设施相结合的开放共享氛围,形成面向新型科研范式的体系化数据服务能力。参考文献1 COPDESS.Commitment statement in the Earth,space,and environmental sciences EB/OL.https:/copdess.org/enabling-fair-data-project/commitment-statement-in-the-earth-space-and-environmental-sciences.2023-09-122 UNESCO,UNESCO Recommendation on Open Science EB/OL https:/unesdoc.unesco.org/ark:/48223/pf0000379949.locale=en.2023-09-123 NASA.Open-Source Science Initiative EB/OL.https:/science.nasa.gov/open-science-overview 2023-09-124 NASA.SDMWG Strategy_Final-v4(nasa.gov)EB/OL.https:/science.nasa.gov/science-pink/s3fs-public/atoms/files/SDMWG_Full Document_v3.pdf.2023-09-125 Canadian Space Agency.2021-2024Open Science Action Plan EB/OL.https:/www.asc-csa.gc.ca/eng/publications/open-science-action-plan-2021-2024.asp.2023-09-126 ESA-ESA affirms Open Access policy for images,videos and data.EB/OL.https:/www.esa.int/About_Us/Digital_Agenda/ESA_affirms_Open_Access_policy_for_images_videos_and_data2023-09-127 科技部,财政部.科技部财政部关于发布国家科技资源共享服务平台优化调整名单的通知EB/OL.(2019-06-05)2023-09-12.http:/ 许东惠,赫运涛,王志强等.面向科技资源管理的科技平台标准体系研究J.中国科技资源导刊,2020(2):1-6,16.9 科技部,财政部.科技部财政部关于印发 国家科技资源共享服务平台管理办法 的通知EB/OL.(2018-02-13)2023-09-12.http:/ 国务院办公厅.国务院办公厅关于印发科学数据管理办法的通知EB/OL.(2018-02-17)2023-09-12.http:/ 中国科学院科学数据管理与开放共享办法(试行)印发EB/OL.(2012-02-11)2023-09-12.https:/ 袁雅琴,胡晓彦,佟继周等.大数据开放背景下的我国空间科学数据出版实践J.中国科技资源导刊,2022(1):89-96.13 胡晓彦,徐寄遥,邹自明.“大数据&人工智能”驱动的空间天气科研范式变革初步探索J.数据与计算发展前沿,2023,5(02):24-36.18国家微生物科学数据中心以世界微生物数据中心(the World Data Center of Microorganisms,WDCM)为平台,倡导全球微生物菌种保藏目录(Global Catalogue of Microorganisms,GCM),对全球主要微生物资源保藏中心的目录进行标准化整理,搜集、清理并整合全球微生物领域的微生物资源、组学、文献、专利等数据进行挖掘利用,在微生物资源共享和挖掘方面建立一套国际标准体系,建设全球权威的微生物组学参考数据库和数据分析平台。该计划的全球推广,有效促进了全球微生物数据的汇聚、融合、共享与利用。一、共同构建全球微生物资源大数据平台,建立国际合作网络,促进全球微生物数据的汇聚微生物资源是生态系统的基本组成部分,是人类生产、生活资料的基本来源和人类赖以生存的重要物质基础,是生物技术和产业发展的重要基石。对生物资源的收集、保藏、保护、开发与利用是保障人民生命健康、支撑国民经济可持续发展的重要基础。而微生物资源目录是科学家和产业用户从各国微生物资源保藏机构获取微生物资源的重要有效途径。世界微生物数据中心(the World Data Center of Microorganisms,WDCM)由世界菌种保藏联盟在上世纪60年代建立,是全球微生物领域最重要的实物资源数据平台。2010年,WDCM落户中国科学院微生物研究所,这是我国生命科学领域的第一个世界数据中心。国家微生物科学数据中心作为其依托单位,有效利用区块链技术、生物信息技术、云服务平台和超算资源,牵头搭建了全球微生物资源数据共享平台。该平台是由中国引领,52个国家和地区的151家机构参与构建的全球微生物大数据平台基础设施,平台92%的数据来自于国际合作伙伴,在国际微生物数据领域产生良好的“全球虹吸效应”,使大量的全球微生物资源数据系统性地向我国的数据平台聚集,对全球微生物模式菌株资源进行了有效整合。平台有效促进了全球微生物资源的共享利用,进一步拓展和深化网络空间国际交流与合作,共筑全球微生物领域网络空间命运共同体,促进全球开放科学、经济发展与产业进步。二、为中国牵头的全球国际合作计划提供数据平台支撑,促进全球微生物实物资源与数据融合生物资源是人类社会经济发展和技术进步的重要物质基础,生物资源有效挖掘利用也是世界各国科技竞争的重要体现。微生物研究所以WDCM为平台,坚持开展“以我为主”的国际合作,倡导全球微生物菌种保藏目录(Global Catalogue of Microorganisms,GCM),发起全球模式微生物基因组测序计划(GCM 2.0),对全球主要微生物资源保藏中心的目录进行标准化整理,进而从中选择目前未进行测序的模式微生物菌株,5年内完成超过10,000种的细菌、真菌、古菌模式菌株基因组测序。作为中国牵头的国际大科学计划,该计划将覆盖全球主要合作伙伴,帮助解决领域基础和前沿的重大科学问题,促进微生物分类领域全球开放科学的发展,也为全球一站式微生物鉴定和认知平台的建立提供重要的数据支撑。全球微生物资源数据共享平台作为国际合作计划支撑平台,已汇聚超过52万株微生物实物资源的信息,对全球微生物模式菌株资源进行了有效整合,有效促进了全球微生物资源的共享。三、打造国际ISO数据标准,提升全球微生物高质量基础设施建设,实现全球数据的互联互通数据标准是全球数据共享的基础,是提升数据质量的关键,是建立国际一流数据库的前提。为了打造高质量国际性数据平台,中国科学院微生物研究所国家微生物科学数据中心与国家科技基础条件平台中心等单位联合美国、日本、俄罗斯、韩国等九个国家,共同制定了ISO 21710:2020 Biotechnology Specification on data management and publication in microbial resource centers(微生物资源中心数据管理和数据发布规范)。该标准于2020年11月9日,由国际标准化组织生物技术委员会(ISO/TC 276)正式发布。这是国际微生物领域的第一个ISO级别的数据标准,也是我国在国际生物技术标准委员会(ISO TC276)主导制定的第一个国际标准。该标准由中国科学院微生物研究所、国家微生物科学数据中心马俊才团队牵头起草。马俊才 中国科学院微生物研究所全球微生物大数据共享平台的建设与应用本标准提供了一组供数据发布的数据字段集,旨在通过应用唯一标识符和统一的数据形式提高微生物资源中心(MRC)在线目录间的数据交换,并有助于通过共享微生物资源来促进实现后续惠益共享。本标准还规定了数据管理和内部数据质量控制的要求,以提高MRC以文件形式记录的数据和信息的整体准确性和可靠性,这是高效数据共享和交换的基础。本标准规定了MRC数据管理和发布的要求,包括实现一致格式化的数据格式和提高数据整体质量的质量控制工作流程。这将对数据访问、获取、认证、保存、存储、分发和处置等程序产生影响。还为MRC提供了建议,以促进与微生物资源相关的数据共享和数据整合。标准适用于MRC、监管机构、认证机构组织以及使用同行评估的方案,以确认或认可微生物资源中心数据发布和共享中的数据管理的能力。参考文献1 Wu L,Ma J.The Global Catalogue of Microorganisms(GCM)10K type strain sequencing project:providing services to taxonomists for standard genome sequencing and annotation J.Int J Syst Evol Microbiol,2019,DOI 10.1099/ijsem.0.0032762 Wu L,Sun Q,Ma J.World data centre for microorganisms:an information infrastructure to explore and utilize preserved microbial strains worldwide J.Nucleic Acids Research.2017,45(D1):D611-D618.20对地观测数据是人类借助航天、航空以及地面观测平台实施对地球不间断地观测和监测产生的原始数据,以及通过信息处理再现和客观反映出和人类活动相关圈层的地物状况、地理过程,确定地学现象的内容、过程及其空间定位和分布的衍生数据。经过几十年的发展,中国对地观测已具备面向近地空间、大气、海洋和陆地的高精度、高时空分辨率的数据获取能力。据统计,自1970年4月24日发射第一颗人造地球卫星“东方红一号”以来,中国在轨运行的卫星已超过600颗,其中对地观测卫星有约200颗,目前已形成了“风云”“海洋”“资源”“高分”“遥感”等多个对地观测卫星体系。对地观测数据不仅在科学研究、生态环境、农业、土地资源、自然灾害、健康、能源、气候、天气和重大工程的监测与评估等方面得到广泛应用,而且在数字地球、智慧城市建设中也发挥着重要作用,并逐步深入到大众生活,产生了巨大的经济价值和社会价值。对地观测数据已成为国家基础性和战略性资源,在国民经济、社会发展和国家安全中发挥着不可或缺的作用。对地观测数据具有海量、多源、多时相、高价值、异构、多尺度、非平稳等特征,应用于科学研究的对地观测数据被称为对地观测科学数据。中国政府和学术机构历来重视对地观测科学数据的开放共享,2019年由国家财政部和科技部成立国家对地观测科学数据中心负责专门统筹协调中国对地观测科学数据的开放共享。一、我国对地观测科学数据开放共享的相关参与方中国对地观测科学数据的生态链涉及数据生产者、数据管理者、数据分发者、数据使用者等。数据生产者包含对地观测仪器平台(例如卫星)制造商、卫星发射机构、卫星数据接收和处理机构、对地观测衍生数据生产的科学家和工程师等;数据管理者主要是具有数据所有权的机构及其代理机构,例如管理公益性陆地卫星数据的中国资源卫星应用中心、公益性海洋卫星数据的国家卫星海洋应用中心、公益性气象卫星数据的国家卫星气象应用中心等;数据分发者主要是从事对地观测数据销售、共享、传输等活动的机构,例如各个代理国内外卫星数据销售的商业公司,一些具有对地观测科学数据分发权的科学数据中心,具有对地观测科学数据仓储或者出版业务的期刊出版商、提供卫星数据在线分析或云计算服务的商业公司、企事业单位等;数据使用者包含科学研究人员、工程技术人员。二、我国对地观测科学数据开放的现状据统计,中国对地观测科学数据相关参与方所在的机构超过7万家,生产和管理的数据总规模接近150PB。这些数据主要以在线形式和离线形式存储,其中在线存储的数据总量超过95PB,离线存储的数据规模接近55PB。中国有50%的对地观测科学数据机构提供数据免费开放共享服务,免费开放共享的数据资源总量占数据总量的47%。中国对地观测科学数据的总用户数超过53万人,其中在线注册认证登记的用户数超过47万人,使用对地观测科学数据的机构超过12万家,总数据使用量超过293PB,其中以直接下载的方式使用的数据量为149PB。三、对地观测领域各主体对开放科学数据的态度我们把对地观测领域的主体按照行业划分为对地观测企业工作人员、行业应用工作人员、科学研究人员,分别调研他们对对地观测科学数据开放的态度。结果发现,科学研究人员认为对地观测科学数据开放共享非常必要,有95%的人员希望进一步加强对地观测领域科学数据的开放共享。同时有63%的科学研究人员在保证合法权益的前提下愿意共享自己的科学数据给其他人。其次是行业应用工作人员,有60%的人员希望扩大对地观测科学数据的开放共享,但他们大多数表示自己所掌握的对地观测科学数据所有权不归自己所有,不能决定共享给其他人员。最后是对地观测企业工作人员,他们大多数不希望数据免费公开共享给别人,除非公开共享数据能使他们获取诸如企业声誉的提升,产品得到广泛宣传等。总体来看,科学数据开放共享最相关的群体科学家群体,非常支持和赞同对地观测科学数据开放共享,并且愿意付诸实际的行动。李国庆 陈祖刚 中国科学院空天信息创新研究院中国对地观测科学数据开放共享的现状和趋势 四、我国对地观测领域开放科学数据的机遇与挑战由于对地观测科学数据具有巨大商业价值,并且涉及众多类型的主体,中国对地观测领域开放数据既面临重大的机遇也面临一些挑战。我们面临的机遇有:第一,在科学界,对地观测科学数据开放共享已经是科学家的共识和需求,有较多的科学家愿意积极参与其中;第二,中国有巨量的对地观测科学数据生产者和从业机构,能保证对地观测科学数据资源的充足供应;第三,政府和管理机构积极支持和促进对地观测科学数据的开放共享;第四,对地观测科学数据治理和管理技术能力不断提升,能不断地采取新的技术手段促进对地观测科学数据的开放共享。例如,国家对地观测科学数据中心利用云计算资源,搭建对地观测知识枢纽,实现海量对地观测科学数据按需在线分析,既免除了科学家搬运巨量数据资源的不便,又保证了一些按照管理政策要求不能分发的数据资源的被使用。我们面临的挑战有:第一,在对地观测领域科学数据开放共享的背景下,如何平衡商业利益和科学家需求。只有实现不同群体间利益的平衡才能进一步促进对地观测科学数据的开放共享。第二,对地观测领域的科学数据资源越来越多,通过网络传输、离线使用的方式越来越满足不了科学家分析使用的需求,如何构建新型对地观测科学数据开放共享基础设施环境和模式是未来面临的巨大挑战之一。第三,对地观测领域开放共享的科学数据资源越来越多,这些科学数据资源的质量如何评估,所有者的权益和贡献如何体现和保证,数据如何被规范引用?进一步加强对地观测领域科学数据开放共享的治理技术和政策研究也是未来面临的重要挑战。22一、农业科学数据的特点农业科学数据是从事农业科技活动所产生的基本数据,以及按照不同需求而系统加工整理的数据产品和相关信息,是农业科研活动的基本产出之一,也是一种特殊形式的农业科研成果。农业科学数据是推动农业科研向深度和广度发展的最为活跃、最为基础的科研要素。农业科学数据主要有三个来源:一是农业科技基础数据库群,2002年科技部启动“国家科学数据共享工程”,2012年科技部启动“科技条件平台建设”,农业领域通过“农业科技基础数据库建设与共享”“农业科学数据共享中心”等科技部的平台条件项目支持,围绕作物科学、动物科学和动物医学、农业资源与环境、草地与草业科学、水产科学、热带作物科学等12大学科类建立了一批农业科技基础数据库。二是农业领域野外观测台站的长期定位观测数据,2017年农业农村部启动国家农业科学观测网络建设工作,布局了10个领域的观测实验站456 个,附属监测点超过2000个,首次实现我国农业领域多学科协同观测的大联网,持续产生了海量农业科学观测监测数据。三是国家各类科技计划支持的涉农项目和课题研究过程中产生的科学数据集。农业科学数据具有如下三个特点:一是量大面广且类型多样,包括野外长期定位观测数据、田间科学试验数据、实验室中的实验数据、农业科学调查数据等,即有数值型数据、文本型数据,也有图片、视频、声音等多媒体型数据;二是专业众多且跨度大,涉及作物科学、动物科学、微生物科学、渔业与水产、草地与草业、资源与环境、食品质量安全、农业区划等学科;三是农业科学数据库(集)中的数据量差异比较大,既有记录数超过50万条的数据库(集),如作物品种资源数据库,但也有部分数据库(集)仅有几百条记录。二、促进农业科学数据开放共享的主要做法1.以学科为龙头整合基础数据资源,夯实数据开放共享根基据统计,我国各类农业研究机构近千家,包括中央级单位、地方科研院所、农业高校系统以及有关涉农科研单位等,每个单位或多或少都有一些有价值的农业科学数据,但这些数据资源又存在层次不一、交叉重复、质量各异的情况,资源整合是一大难点。在实践中,国家农业科学数据中心以学科为龙头,制定了包括作物科学、动物科学与动物医学、农业微生物科学、草地与草业科学、农业资源与环境科学等12大类核心学科资源整合框架,每个资源大类选择一个资源最多、力量最强的单位作为整合的依托单位,再以多种方式组织该领域其他单位参与资源整合。采用该方法,建立了60余个农业科技基础主体数据库,如作物品种资源数据库、中国饲料数据库等,这些高质量的数据库较好满足了对农业科技基础数据库的应用需求。2.以科技计划项目数据汇交为抓手,积极汇聚科研项目数据分散于国家各类科技计划支持的涉农项目组和课题组手中的科学数据,要实现科学数据开放共享,就必须明确数据拥有者、使用者、管理者的责、权、利,建立科学合理的数据汇交和开放共享机制。国家农业科学数据中心提出了“泛出版”的数据开放共享理念,担起了数据“出版者”和数据中介的角色,数据拥有者按照标准规范对数据进行规范化加工和整理,建立本地科学数据库(集)以及相应的文档,通过科技计划项目科学数据汇交系统开展数据及文档汇交,数据中心对汇交的数据库(集)进行数据审核、赋CSTR唯一标识码、发布共享、以及开展引用评价,数据使用者按照开放共享协议使用数据,并标注数据库(集)的引用。数据中心协同部分用户反馈较好、应用需求较大的数据库(集)与数据拥有者协同,将相应的数据库(集)变成数据论文,推荐在 中国科学数据(中英文网络版)、农业大数据学报 上刊载,进一步扩大这些数据库(集)的共享应用。3.强化标准规范的制定与应用,促进科学数据的开放共享要实现农业科学数据资源整合和开放共享,标准规范是基础。根据实践需要,国家农业科学数据中心先后研究制定了 农业科学数据共享管理办法(试行)农业科学数据质量控制管理办法 等4项科学数据共享办法,形成了包括 农业科学数据元数据标准农业科学数据加工流程规范农业科学数据分类分级规范 等15套公共标准、47个农业专业领域标准的农业科学数据开放共享标准体系。周国民 中国农业科学院农田灌溉研究所 国家农业科学数据中心中国农业科学数据开放共享实践与进展实践表明,标准规范在农业科学数据共享中发挥了重要的作用。面对农业学科繁多,科学数据量大面广,数据类型多样的现状,数据整合显得无从下手。为了解决这个问题,借鉴有关信息组织方法,并结合农业科学数据的特点,及时制定了农业科学数据分类标准,把农业科学数据进行系统梳理,形成12大类、60小类的农业科学数据分类体系,纲举目张,一下子厘清了数据组织的路子。三、农业科学数据开放共享的成效经过多年建设实践,大量分散、无序的农业科学数据资源得到有效整合和盘活,充分挖掘和提升了国家原有科技计划投入的效益,农业科学数据开放共享服务体系日渐成熟,农业科学数据资源正在国家农业科技创新和农业农村现代化建设中发挥越来越重要的作用。农业科学数据资源集聚效应显著。“科技计划项目汇交数据资源”“农业科技基础数据资源”和“农业长期定位观测数据资源”等三类科学数据资源在国家农业科学数据中心实现了有效汇聚,并形成了一批高价值的农业科学数据库(集)。据不完全统计,截止2022年底,国家农业科学数据中心现有数据集(库)17055个,600余个国家科技计划项目数据实现了数据汇交,1921个农业长期定位观测数据集,数据论文49篇。农业科学数据开放共享效果初现。国家农业科学数据中心形成了覆盖全国的多模式、多渠道科学数据应用与共享服务体系,积极开展“农业科研项目和农业科学家服务”“宏观管理与决策服务”“数据论文出版服务”和“数据管理与分析软件系统和工具服务”等四大类服务。据不完全统计,已为10项国家重点研发计划项目、35项863项目(课题)、22项973项目(课题)、30项国家自然科学基金项目、46项国家科技攻关项目(课题)提供了数据支持。作物遗传资源特性评价鉴定数据库、作物优异资源综合评价数据库、作物品质数据库等数据库有力支撑了农作物核心种质构建、重要新基因发现与有效利用等科学研究,提高了研究效率、加快了研究进程,促进高水平研究成果的产出。四、未来展望科学数据开放共享是一项长期的任务。今后将从组织管理、人才队伍、数据汇交、开放共享、数据安全等方面入手,把国家农业科学数据中心建设工作推向一个新的阶段。在资源整合方面,从横向和纵向两个维度不断拓展和深化数据资源的整合范围和深度,逐渐形成国家农业科学数据战略资源长期保障体系,同时实施数据精品化战略,打造一批精品数据库(集)。在数据汇交方面,从标准、技术、工具、系统等入手,帮助数据提供者汇交数据;与重大课题组之间建立良好的互动关系,开展针对性的数据汇交和数据服务工作。在共享服务方面,建立多层次用户服务体系,加强数据服务能力建设,关注用户数据需求,开展用户研究,进一步挖掘数据增值服务,为用户提供深度服务,实现服务品牌化。在运行机制方面,持续推进向“中心实体化、人员专职化、运行规范化、服务常态化”的方向发展。最终把国家农业科学数据中心建成一个“资源丰富、运行稳定、服务高效、数据安全”的全国农业科学数据集散和服务中心,为我国农业科技创新活动提供强有力的数据支撑。24计量是关于测量及其应用的科学。计量数据的开放共享对于测量能力的提高非常重要。数字时代,计量数据开放共享向符合FAIR(可发现、可访问、可互操作、可重用)原则发展。第27届国际计量大会通过“关于全球数字化转型和国际单位制”决议,力推SI数字框架和计量数据FAIR化,为计量数据的数字化交互达成了原则共识。本文介绍基于SI数字框架的计量数据开放共享特点:计量可追溯性和机器可读、可理解、可操作性是数字时代计量数据作为质量信任之锚的显著特点。关键词:计量数据、SI数字框架、FAIR原则、数据开放、数据共享、计量可追溯、机器可读、机器可操作一、引言数字时代对计量数据开放共享、计量数字化转型提出了新要求和挑战。国际计量委员会(International Committee for Weights and Measures,CIPM)在2019年8月成立“数字SI(D-SI)”工作组(第CIPM/108-28号决定)1,在数字世界中加强对国际单位制(International System of Units,SI)的支持。工作组形成了一份“宏伟愿景”(Grand Vision)文件,概述了SI数字化转型的框架,称为“SI数字框架”2,也强调了对数字计量数据和元数据采用 FAIR 原则的重要性。2022年11月,第27届国际计量大会通过“关于全球数字化转型和国际单位制”决议3,鼓励建立与推广SI数字框架,并将FAIR原则应用于数字化计量数据和元数据中,为数字时代计量数据交互达成了原则共识。2016年,FORCE11社区发布了包含15个子原则的FAIR原则,为提高数字资源的可发现性、可访问性、可互操作性和可重用性提供了指导方针4。FAIR原则与计量学上可靠的数据一同构建了数字测量值在科研和工业领域交换的基础5。对于很多测量科研工作者,SI数字框架是个新概念,需要深入解读和更多参考实例来加深理解。本质上,FAIR原则只是指导方针,它并未提供具体的实施方法6。目前很多科学数据,包括计量数据,尚未完全符合FAIR原则7。遵循SI数字框架的计量数据体系FAIR化,是一项需要多个国际组织、各国家计量院共同协作的系统化工程,当前缺乏文献阐述其内涵和特点。本文将从FAIR原则中可发现、可访问的角度介绍计量数据的开放共享,阐述基于SI数字框架的计量数据具有的机器可读、可理解、可操作性和计量可追溯性特点。二、SI数字框架SI数字框架如图 1 所示,由SI 核心层、服务层和应用层组成:1.SI 核心层,由 CIPM 批准,由国际计量局(简称BIPM)组织实施,基于SI手册,制定数字SI、SI单位实现方法MeP(Mise en Pratique)等文件,具有基本数量数据元素的元数据模型和交换格式实现,包括值、单位和不确定度。2.服务层,由BIPM及各国家计量院(简称NMIs)和相关组织实施,包括基于SI核心表达的 国际计量词汇基本概念和一般概念(简称VIM)、测量不确定度表达指南(简称GUM)、CODATA基本常量、MeP数据库、KCDB数据库、JCTLM数据库、UTC数据库、数字校准证书(DCC)元模型XSD等开放数据格式、软件和服务,按照FAIR原则,提供数字参考服务。阚侃 广东省计量科学研究院罗瑜琪 中国计量大学刘子龙 中国计量科学研究院熊行创 中国计量科学研究院基于SI数字框架的计量数据开放共享特点介绍图1 SI数字框架示意图3.应用层,由计量技术机构与全社会的计量伙伴完成,基于SI核心与服务层的数字化计量服务基础,丰富计量数字化应用,如数字校准证书的产业应用、数字测量服务、网络传感器的计量溯源与应用、数字国家基础设施的构建等。CIPM已与ISO、ISC、CODATA、CIE、IEC、ILAC、IMEKO、OIML等国际组织签署SI数字框架的 联合声明。该声明为各签署组织提供了一个平台,作为国际科学和质量基础设施更广泛的数字化转型的一部分,以适合其特定组织的方式表明其对SI数字框架的开发、实施和推广的支持。三、计量数据的开放共享计量数据的开放共享,首先要实现计量数据和元数据FAIR化的可发现和可访问,可采用以下方案:可发现性:建立计量数据和元数据管理系统,为每个数据集分配全球唯一、持久的识别符,如数字对象唯一标识符(digital object unique identifier,DOI)8等,以确保数据的唯一性并易于搜索。同时,建立完善的元数据管理系统,记录数据的关键信息,包括详细的描述、标签和分类,以提升数据的搜索和识别性,也可以让用户全面了解数据的背景和用途。此外,确保元数据中包含对所描述数据的准确标识符。在核心层的数据管理系统中,实施可检索的注册和索引机制,以便数据和元数据能够被检索。这可以通过建立标准化的元数据索引和搜索引擎来实现,以确保数据可被广泛发现和利用。可访问性:采用核心层定义的(元)数据模型进行扩展,以满足特定领域的需求;采用标准化通信协议,如超文本传输协议(Hypertext Transfer Protocol,HTTP)或RESTful API,以标识符进行数据检索。同时,还需要确保这些协议是免费、开放且可广泛执行的。此外,协议应该允许在必要时进行身份验证和授权过程,以确保数据访问的安全性和合法性。同时,确保即使数据不可用时,元数据仍然可获取。四、基于SI数字框架计量数据的开放共享特点在SI数字框架的SI 核心层,“数字SI”工作组及专家组正在准备 SI 手册的 XML 版本9,并进行有计划地完善10。SI数字框架的服务层正在实现可发现、可访问:创建访问校准和测量能力关键比对数据库的应用程序编程接口(简称API)11;确保用于支持关键比较和出版物的数据是FAIR的12;并授予API对机器可读格式的通告T13(BIPM通告T每月发布一次)数据的访问权限14。从SI数字框架和计量数据开放共享各自特点,以及已经开发的实例,可以总结出:计量数据的开放共享在具备机器可操作性的数字化特征的同时,具有计量的数字可溯源性这一显著特点,这也是计量数据开放共享的内在要求。1.计量数据的计量可追溯性依据计量溯源性,计量数据具有天然的计量可追溯性。同理,在数字世界,计量数据的数字化也要求建立完整的数字溯源链实现计量可追溯性。对数字计量数据和元数据采用 FAIR 原则之可发现、可访问,是实现测量数据计量可追溯性必要条件。图2显示一张数字校准证书(DCC)在SI数字框架中体现的计量可追溯性。由于SI数字框架的三层结构具有明确的层内涵与层边界定义,因此所建立的追溯链路的各要素间的组织责任明确,可维护性强。同时,每一层的要素定义(特别是SI核心表达层和服务层),要素与要素之间的溯源关系,层与层之间的依赖关系,都隐含了计量追溯性。因此,SI数字框架对计量数据的可追溯性不仅提出了要求,也提供了指导。262.计量数据的机器可读性、可理解性和可操作性随着数字化的普及,FAIR原则更多关注于确保数据具备机器可读性,也就是保证计算机在几乎不需要人工干预的情况下能够查找、访问、互操作和重用数据15。特别是计量数据,在实现互操作性方面,需要明确提供机器可读的测量元数据。这些元数据包括但不限于测量单位、被测物理量类型、测量不确定度形式和测量标准的溯源信息(后二者需在适当情况下,通过校准活动提供)。SI数字框架的目的不仅仅是以数字形式表示测量单位。它将支持对被测量系统的描述和测量方式,以及与获得的最终测量结果(数据、模型和软件)相关的工作流程。该框架要求提高计量数据的机器可读性水平,从基本的对于计量要素的理解功能到完整的机器可操作知识表示,从而实现数据的机器可操作。五、结论计量数据的机器可读性、可理解性、可操作性,要求实现计量数据、计量报告、计量证书等信息载体的全面数字化,要求其框架统一、格式标准化、操作规范化。计量数据的可追溯性的必要条件是计量数据全面符合 FAIR的可发现、可访问原则。这两项特点是基于SI数字框架的计量数据实现开放共享的显著特点,有助于深入理解基于SI数字框架、符合 FAIR 原则计量数据的内涵和特征,有利于实现计量数据的开放共享,推动计量数字化转型。图2 SI数字框架对计量数据可追溯性的保障(以DCC为例)附:简称词表SI:国际单位制CIPM;国际计量委员会BIPM:国际计量局KCDB:校准和测量能力关键比对数据库JCTLM:检验医学溯源联合委员会ISO:国际标准化组织ISC:国际科学理事会CODATA:国际数据委员会CIE:国际照明委员会IEC:国际电工委员会ILAC:国际实验室认可组织IMEKO:国际测量技术联合会OIML:国际法制计量组织参考文献:1 BIPM.Session II of the 108th meeting of the CIPM.EB/OL.2023-09-17.https:/www.bipm.org/documents/20126/17315032/CIPM2019-II-Decisions-EN.pdf/4d427e8c-22d3-60e6-7eec-1b4b15caece0.2 CIPM Task Group on the Digital-SI.Draft of the grand vision:transforming the international system of units for a digital world-version 3.4.EB/OL.2023-09-17.https:/www.bipm.org/documents/20126/46590079/WIP Grand_Vision_v3.4.pdf/aaeccfe3-0abf-1aaf-ea05-25bf1fb2819f.3 BIPM.27th meeting of the CGPM(2022).EB/OL.2023-09-17.https:/www.bipm.org/en/cgpm-2022/.4 Wilkinson M D,Dumontier M,Aalbersberg I J J,et al.The FAIR Guiding Principles for scientific data management and stewardshipJ.Scientific data,2016,3(1):1-9.5 Chalk S J,Coppa D N,Flamenco F,et al.International development of the SI in FAIR digital dataJ.Measurement:wSensors,2021,18:100293.6 Mons B,Neylon C,Velterop J,et al.Cloudy,increasingly FAIR;revisiting the FAIR Data guiding principles for the European Open Science CloudJ.Information services&use,2017,37(1):49-56.7 Stall S,Yarmey L,Cutcher-Gershenfeld J,et al.Make scientific data FAIRJ.Nature,2019,570(7759):27-29.8 McMurry J A,Juty N,Blomberg N,et al.Identifiers for the 21st century:How to design,provision,and reuse persistent identifiers to maximize utility and impact of life science dataJ.PLoS biology,2017,15(6):e2001414.9 BIPM.SI Brochure:The International System of Units(SI).EB/OL.2023-09-17.https:/www.bipm.org/en/publications/si-brochure.10 Brown R J C,Janssen J T,Wright L.Why a digital framework for the SI?J.Measurement,2022,187:110309.11BIPM.API KCDB.EB/OL.2023-09-17.https:/www.bipm.org/en/cipm-mra/kcdb-api.12 Lewis A J,Yacoot A,Milton M J T,et al.A digital framework for realising the SIa proposal for the metreJ.Metrologia,2022,59(4):044004.13 BIPM.Machine-readable data within the context of disseminating the Coordinated Universal Time(UTC).EB/OL.2023-09-17.https:/www.bipm.org/documents/20126/71876262/DIG-MET-2022-MEYNADIER.pdf/e8e154a7-f527-3320-8f3e-ebd572a9088e.14BIPM.Circular T.EB/OL.2023-09-17.https:/www.bipm.org/en/time-ftp/circular-t.15 Dorst T,Gruber M,Vedurmudi A P,et al.A case study on providing FAIR and metrologically traceable data setsJ.Acta IMEKO,2023,12(1):1-6.28一、科学数据共享在中国的发展近现代科学的快速发展很大程度上得益于科学的开放式探索。自十七世纪学术期刊创建以来逐渐确立形成了研究结果公开发表与开放交流机制。彼时,作为研究结果证据的数据受限于传播载体的局限,被精简和极度省略,仅仅发布与结果高度相关的数据信息。如今随着信息技术的飞速发展,数据和信息存储、传播等能力迅速提升,翔实的科学数据的公开已具备技术条件。同时,随着数据密集型科研范式的转变,使得它们的公开也变得更加必要和迫切1。开放科学数据除了可以提高研究结果的可检验性和公信力以保障科学的自我修正能力之外,还为更多的科学研究提供了丰富的基础资料,产生难以预料的社会和经济价值。因此,科学数据开放共享为国家政府、资助机构、出版机构、公众等利益相关者等广泛关注。中国开放科学事业发展迅速。自21世纪初以来,中国的政策制定者和资助机构如中国科学院(CAS)和国家自然科学基金委员会(NSFC)不断通过各种国际和全国性倡议,积极推动中国开放获取事业的发展。为了加强开放研究数据分享和管理能力,中国还在全国地区和机构层面上更新其数据政策,围绕开放科学数据开始建设更加全面的学术生态系统2。2018年,中国国务院办公厅发布 科学数据管理办法3,针对数据管理的各个方面制定了重要管理办法,其中特别针对数据的出版与传播提出了相关要求“支持科研人员整理发表产权清晰、准确完整、共享价值高的科学数据”,并要求“科学数据使用者应遵守知识产权相关规定,在论文发表、专利申请、专著出版等工作中注明所使用和参考引用的科学数据”。为此,中国科学院、中国农业科学院等机构也根据多年的数据工作经验发布了机构开放数据规则,进一步明确了对学术论文的科学数据汇交要求。如2019年2月中国科学院发布的中国科学院科学数据管理与开放共享办法(试行)中明确要求“科研人员应将支持学术论文的科学数据汇交到科学数据管理机构,并适时开放共享,确保科研结论可验证”。同年,科技部,财政部联合公布国家科技资源共享服务平台优化调整名单(20个国家科学数据中心、30个国家生物种质与实验材料资源库),明确推动了对中国科学数据建设、汇聚、整合与开放共享。2022年11月,中国科协、中国科学院决定联合开展论文关联数据汇交工作,发布了 中国科协办公厅 中国科学院办公厅关于组织开展期刊论文关联数据汇交工作的通知,鼓励作者在投稿国内科技期刊时,通过“科创中国”科学数据仓储及应用服务平台提供论文关联数据的在线提交、数据评审和开放共享服务。该工作的实施,极大推动我国科技期刊关联数据的出版与共享建设,以及期刊针对对数据的出版实践,进一步促进了各学科间的合作。此外,中国已经建立了以国家安全为核心的数据安全和个人信息保护的法律框架。并出台了一系列相应的法律法规和标准,涵盖国家网络安全、数据安全、个人隐私保护等方面。二、中国科技期刊开放研究数据政策与实践长期以来,发表在科技期刊上的学术论文是科研工作者学术交流的主要形式。科学始于数据,科学数据在科研活动与学术交流中承担越来越重要的角色。通过建立科技期刊数据政策,将学术论文与科学数据进行关联出版,能够有效推动科学数据开放共享,促进数据重用、数据引用和科研评价。随着中国政府对数据共享及出版政策制定力度的不断加大,许多学术期刊纷纷制定适合的数据政策。尽管目前尚无具体数据显示中国科技期刊数据共享出版实践的确切数量,但2022年的对中国2019年启动实施的“中国科技期刊卓越行动计划”4入选期刊的相关调研5,6,7结果显示,在包括“领军期刊”“重点期刊”“梯队期刊”,以及部分“高起点新刊”在内的302种期刊中,重点调研了相关数据政策的制定及实施情况。其中,已制定相关数据政策的不同类型期刊占比(图1)分别为“领军期刊”81.82%,“重点期刊”62.07%,“梯队期刊”34.67%,“高起点新刊”69.23%。根据中国科协发布的 中国科技期刊发展蓝皮书(2022)最新统计数据显示,截至2021年底,中国科技期刊总量已达5071种。这302本期刊目前仅占该数据所有期刊的不到1%,但基本代表了中国高水平科技期刊关联科学数据出版当前的业界实践进展。虽然与国际相比,我国科技期刊关联数据出版在行业认可度、框架策略等方面还有待提升,但加快建设学术期刊数据政策,提高数据共享能力,对于中国期刊的影响力至关重要。孔丽华 习妍中国科学院计算机网络信息中心中国科技期刊开放研究数据政策与实践此外,随着数据出版呈现蓬勃发展态势,数据期刊成为广泛实践与探索数据开放共享的重要手段。作为一种出版形式的探索,科学数据出版先天性地与科学数据的特征紧密关联,在继承媒体出版特色的同时,又为科学数据开放共享提供了新的方法。相比较传统期刊对关联数据的共享出版,这种以数据论文形式的数据出版,通过论文形式组织对数据采集和生产加工过程、数据的组成结构、数据的质量控制和评估方法、数据价值、数据使用方法以及建议等信息,给出了更为深入和丰富的阐述,经过专家同评后正式出版数据论文,确保遵循数据FAIR原则(FAIR Data Principles,2016年),达到可发现(Findable)、可访问(Accessible)、可互操作(Interoperable)、可重用(Reusable),更有利于对数据的引用和重用,提供更大的价值。另有研究8,9,10显示,国际上的纯数据期刊年均数据论文发文量逐年提高,其中尤以Data in Brief和Scientific Data更为显著;而由中国创办的国内两本纯数据期刊,中国科学数据(中英文网络版)与 全球变化数据学报 的数据论文发文量处于上升期(图2)。此外,在对科学数据的共享政策方面,包括数据唯一永久标识符、数据可用性声明、数据版权、数据评审、数据引用、数据安全、数据更新处理流程等方面,数据期刊有更加严格的政策,并得以实践11。例如,在 中国科学数据,我们会对数据论文及所关联的数据实体进行严格检查,努力确保所有已发表论文符合我们所制定的严格质量标准(参见 中国科学数据 投稿须知)。三、中国科技期刊数据共享基础设施建设数据的开放需要人工智能、大数据等技术的智能应用,进一步释放数据的价值。科技期刊数据开放和数据期刊发展的支撑基础是开放的数据仓储,科学家或作者将科学数据储存在数据仓储中,并通过对数据进行描述或引用,与研究论文关联集成,从而实现期刊数据开放获取。对标中国政策要求、对接国际服务标准,建设安全可靠的数据仓储平台是推进中国期刊开放数据的最为关键的基础设施12。由中国科学院计算机网络信息中心建设维护的科学数据银行(Science Data Bank,ScienceDB)是一个开放可信的通用型科学数据存储与发布平台,面向全球科研工作者、科研团队、学术期刊及出版商、科研机构及高校等利益相关者,提供科学数据存储、长期保存、出版、共享和获取等服务。平台提供多种数据共享方式与多样的数据许可协议,充分尊重和保障数据所有人权益。ScienceDB致力于出版数据符合主流数据标准或惯例的科学数据,旨在服务全球开放科学数据共享事业,并推动数据共享文化氛围在科研共同体中的培育及良性发展。为了更好地为我国科技期刊提供服务,科学数据银行在2022年底基于该存储库服务情况制定了一套论文关联数据共享政策模板定制服务13,为中国科技期刊制定数据共享政策提供可靠服务。图1 入选“卓越行动计划”期刊关联数据出版政策制定占比情况统计7图2 入选“卓越行动计划”期刊关联数据出版政策制定占比情况统计730四、结语目前,在中国,大量学术出版商和机构都在向开放获取模式转型,也逐步开始关注对科学数据的共享与实践。尽管中国研究人员和研究组织对数据出版的学术性存在一定疑虑,但大多数出版商所表现出的积极性正在逐步打消这种疑虑,包括大力推行论文关联数据的共享政策,强调其在编辑和研究诚信方面的最佳实践标准,积极探索出版数据论文等。未来数年内,随着中国国内期刊市场的不断发展,并在多方的支持下,我们有望看到这些实践在数据共享方面发挥积极影响,在开放科学的出版模式上更上一层楼,从根本上带动大家开放和共享数据的积极性。并通过构建数据开放法律、政策体系,加强数据开放平台建设,不断提升平台易用性,在数据开放的广度、质量方面,进一步提升。以开放促进数据应用,释放数据价值。参考文献:1 郭华东.问渠哪得清如许,为有源头活水来 中国科学数据 发刊词J/OL.中国科学数据,2016,1(1).DOI:10.11922/csdata.0.2016.0014.2 Zhang,L.,Downs,R.R.,Li,J.,Wen,L.and Li,C.,2021。中国开放研究数据政策和实践综述(A Review of Open Research Data Policies and Practices in China)。Cultural Science Journal,20(1),第3页。3 国务院.科学数据管理办法EB/OL.(20180402)2022-12-28 http:/ State Council,The People s Republic of China.Scientific Data Management Measures EB/OL.(20180402)2022-12-28 http:/ 中国科学技术协会.关于下达中国科技期刊卓越行动计划入选项目的通知 EB/OL.(2019-11-25)2022-07-28.https:/ 孔丽华,习妍,张晓林.数据出版的趋势、机制与挑战J.中国科学基金,2019,33(3):237245.DOI:10.16262/ki.1000-8217.2019.03.005.KONG L H,XI Y,ZHANG X L.Trends and challenges in research data publishingJ.Bulletin of National Natural Science Foundation of China,2019,33(3):237245.DOI:10.16262/ki.1000-8217.2019.03.005.6 孔丽华,习妍,姜璐璐.科技期刊关联数据开放共享及出版政策研究J.中国科技期刊研究,2022,33(2):192199.DOI:10.11946/cjstp.202106300526.KONG L H,XI Y,JIANG L L.Open sharing and publishing policies for research data of scientific journalsJ.Chinese Journal of Scientific and Technical Periodicals,2022,33(2):192199.DOI:10.11946/cjstp.202106300526.7 孔丽华,陈枢舒,习妍,等.中国科技期刊卓越行动计划入选期刊数据政策实施现状调研与分析J/OL.中国科学数据,2023,8(1).(2023-03-31).DOI:10.11922/11-6035.ncdc.2023.0002.zh.8 习妍,孔丽华,汪洋,等.国内外数据期刊实践与进展研究J/OL.中国科学数据,2023,8(1).(2023-03-29).DOI:10.11922/11-6035.ncdc.2023.0001.zh.9 王卫军,李成赞,郑晓欢,等.全球科学数据出版发展态势分析:基于Web of Science数据库的调研J.中国科学数据,2021,6(3).(2021-09-29).DOI:10.11922/csdata.2021.0019.zh.WANG W J,LI C Z,ZHENG X H,et al.The analysis of the development trend of global scientific data publishing:research based on Web of Science databaseJ.China Scientific Data,2021,6(3).(2021-09-29).DOI:10.11922/csdata.2021.0019.zh.10 刘凤红,彭琳.国际数据期刊的发展现状调查与分析J.中国科技期刊研究,2019,30(11):11291134.DOI:10.11946/cjstp.201904280323.LIU F H,PENG L.An investigation and analysis of development status of international data journalsJ.Chinese Journal of Scientific and Technical Periodicals,2019,30(11):11291134.DOI:10.11946/cjstp.201904280323.11 张晓林,沈志宏,刘峰.科学数据与文献的互操作M/CODATA中国全国委员会编著.大数据时代的科研活动.北京:科学出版社,2014:149-158.ZHANG X L,SHEN Z H,LIU F.Interoperability of Scientific Data and Literature M/CODATA,China National Committee.Research activities in the era of big data.Beijing:Science Press,2014:149-158.12 马瀚青,关琳琳,孔丽华,潘小多,庞瑜,何薇,刘蔚.数据仓储该如何助推中国科技期刊开放数据?基于国际科技期刊数据仓储的对比分析.中国科技期刊研究J,2022,33(4):470-477 DOI:10.11946/cjstp.20210822066913 科学数据银行.科技期刊论文关联数据存缴共享政策定制服务EB/OL.(20220903)2022-12-28.https:/ Data Bank.Customized Service for Journal Data Policy EB/OL.(20220903)2022-12-28.https:/ 自然认为,开放出版物背后的数据可以维护研究的完整性、可重复性和透明度。因此,我们支持开放数据的政策和信誉良好的数据存储库。在中国,我们致力于支持政策制定者履行其职责,确保政策得以实施,并最大限度地提高中国科研的影响力。我们支持所有改善研究数据共享的努力,令人鼓舞的是,国内数据存储库在中国变得越来越普遍,并同时保持着与全球网络的联系。无论位于何处,重要的是所有新数据存储库都应满足公平(可查找、可访问、可互操作和可再利用)共享的全球标准,正如中国科学院的通用数据存储库“科学数据银行”所做的那样。在实践中,施普林格 自然的愿景是让研究数据作为我们出版物背后的基础证据能够轻松获得,同时赋能我们的作者以最有效的方式共享数据。为了实现这一目标,我们在2023年开展了一些重大研究数据举措,很高兴看到这些举措与本白皮书报告前文中鼓励中国研究人员采用的最佳实践相一致。特别是今年我们:启动了研究数据政策的标准化这将在我们的 3,500 种期刊中嵌入数据可用性声明的要求。此举旨在提高基础数据的透明度,让出版物背后的证据能够被获取,并增强科学记录可信度。作为此次变革的一部分,我们还寻求使我们期刊的作者指南更加直接清楚。在 自然 旗下期刊中扩大推广 figshare 解决方案研究表明,将数据共享到数据存储库中的文章平均被引用次数增加25%1,这是研究人员共享数据的首要动力。经过成功的试点后,我们已将figshare数据存储库集成到 35 个 自然 旗下期刊中,其中包括Nature和Nature Communications。这种集成消除了许多作者在论文发表过程中共享数据所面临的挑战,例如必须找到合适的存储库,注册并链接数据等所有繁重的行政工作。自2022年4月启动该方案以来,figshare已收到7,500份数据提交,相当于手稿提交量的 15%。第一年的数据表明,使用存储库的作者总数增加了 12%。这支持了这样的假设:更易操作的数据解决方案可以对作者的数据共享行为产生明显的影响。我们此计划的下一步旨在提高元数据质量和审稿人对数据的访问。这一集成服务起源于施普林格 自然与 figshare 长期的合作伙伴关系。自 2014 年以来,双方为支持数据共享推出过许多其他举措,包括 BMC 和 SpringerOpen 期刊的自动上传补充信息、在我们的旗舰数据期刊Scientific Data上增强对作者处理数据的支持,以及BMC Research Notes 和 BMC Genomic Data 中的内置专家数据检查服务。除了上述强调的推动有效数据共享行为的解决方案外,施普林格 自然还长期致力于:确保数据放置在正确的存储库中我们认为数据应尽可能提交至以学科为基础的、社区认可的存储库。如果作者不知道将数据存放在哪里,我们在网站2上也重点介绍了可以使用的专业和通用数据库的列表。中国科学院的“科学数据银行”与figshare一起包含在通用存储库列表里。中国国家青藏高原科学数据中心则纳入在我们的地球与环境科学数据存储库列表上。需要说明的是,该列表并不构成施普林格 自然的正式存储库列表,也不具有排他性。其他如 DataCite 的 Repository Finder 和 FAIRsharing registry 中列出的存储库也符合我们的标准。另一方面,我们对某些特定数据类型(例如大多数组学和晶体学数据)应使用哪个存储库又有强制要求3。例如,新的 DNA 序列、新的 RNA 序列和新的基因组组装数据必须存放到属于国际核苷酸序列合作组织(INSDC)中的存储库。考虑到有必要扩大针对这些数据类型的存储库列表,我们在与 INSDC 讨论后,还列出了中国国家生物信息中心所属的基因组序列档案馆(GSA),因其正在与 INSDC 合作以实现被后者纳入。王重芳 Graham Smith Nick Campbell施普林格 自然集团开放数据在中国施普林格 自然的政策、实践和愿景32为数据创建和共享提供可引用的、经过同行评审的信用施普林格 自然有一些开放获取期刊可以发表具有科学价值的数据集的文章类型:Scientific Data 是 自然 旗下一本期刊,出版较长形式的数据描述类文章。BMC Research Notes,BMC Genomic Data 和相对较新的 Discover 系列所有期刊都能出版较短形式的数据注释类文章。中国愿景施普林格 自然自 2016年 就开始与 figshare 和 Digital Science 合作制作年度开放数据状况报告,该报告通过全球调研持续提供有关研究人员对开放数据的动机、挑战、看法和行为的详细见解。我们通过这份报告与合作伙伴密切合作,以了解数据共享并更好地开发解决方案,这是支持学界一个很好的机会。在 2022 年的开放数据状况报告中4,我们发表了来自中国科学院计算机网络信息中心的特约文章,它阐述了中国政策制定者在推动开放数据方面发挥的作用。此外我们发现,与 2021 年的结果相比,来自中国的受访者的数量显著增加。2021 年来自中国的调查回复占全球样本的 3%,而到2022年,该比例上升至11%,全球样本样本总量为5400。2023 年的调查也收到了同等数量水平的来自中国的反馈。此次合作之后,施普林格 自然与中国科学院计算机网络信息中心于 2023 年初又联合举办了网络研讨会(在线观众超过 22,000 人),以推广全球和中国的数据共享政策和实践。此次研讨会我们重点介绍了在 2022 年调查中发现的一些中国特有的趋势。双方对推动中国开放数据进程的良好愿景,促成了今年共同发布中国开放数据白皮书的深度合作。根据推行最佳实践积累的经验以及过往年度调查的结果,施普林格 自然完全支持中国科学院计算机网络信息中心在本白皮书第一篇文章中提出的建议。我们希望通过以下几方面合作进一步支持中国研究人员进行数据共享的实践:推广开放数据政策和建议 提供有关资源和实践的培训 促成国内数据存储库与国际标准接轨 跟踪数据共享的有效性 讨论数据共享与学术评价的关系参考文献:1 Colavizza G,Hrynaszkiewicz I,Staden I,Whitaker K,McGillivray B(2020)The citation advantage of linking publications to research data.PLoS ONE 15(4):e0230416.https:/doi.org/10.1371/journal.pone.02304162 Data repository guidance:https:/ Mandated data types:https:/ repositories-mandates/195403644 The State of Open Data 2022:https:/ 自然学术事务副总裁。Nick于2001年加入当时的自然出版集团,曾任 自然综述:遗传学 编辑、自然 执行主编,并作为Nature Portfolio总监和 自然 在中国的代表常驻上海四年。作为 自然 执行主编,Nick领导了该刊至关重要的数字和印刷版的重新发布。在担任现职之前,其最近担任的职务是自然科研执行主编和全球机构合作执行副总裁。Nick的一级学位、博士学位和博士后研究都是遗传学相关领域。他还拥有昆士兰大学的新闻学研究生文凭。陈润生中国科学院院士、国际欧亚科学院院士,中国科学院生物物理研究所研究员、博士生导师。主要从事生物信息学研究,是我国最早从事理论生物学、生物信息学以及非编码RNA研究的科研人员之一,曾参加我国第一个完整基因组泉生热袍菌B4基因组序列的组装和基因标识,参加人类基因组“1%项目”和水稻基因组工作草图的研究,构建了国际上在非编码RNA领域有重要影响力的两个数据库,是国内讲授 生物信息学 第一人,曾获中国生物信息学学会(筹)颁颁发的首届中国生物信息学终身成就奖。陈昕博士,中国科学院科学数据总中心副主任,中国科学院计算机网络信息中心高级工程师、大数据部科学数据体系架构实验室主任,国际研究数据联盟Fair Digital Object Fabric组联合主席,长期从事科学数据管理、分析、共享和领域应用工作,研究兴趣包括科学数据治理框架与互操作技术等。顾昕现任职国家知识产权局知识产权发展研究中心首席研究员。兼任中央财经大学知识产权研究中心研究员,中国科协财政项目评审专家,中国地理学会“科创中国”优质地理产品生境保护与可持续发展专业科技服务团顾问组成员,北京市法学会科技法研究会常务理事、副秘书长,中国技术经济学会知识产权专委会理事。胡晓彦中国科学院国家空间科学中心高级工程师,硕士生导师,中国科学院青年创新促进会成员。主要从事科学数据治理与空间科学大数据智能应用研究,组织团队在科学数据治理概念建模、空间科学数据互操作、基于机器学习的知识挖掘等方向开展关键技术突破。主持或参与国家自然科学基金、国家重点研发计划、国家重大科技基础设施、中国科学院战略性先导科技专项、中国科学院信息化专项等多个科研项目。姜璐璐工程师,中国科学院计算机网络信息中心数据出版实验室副主任,长期从事科学数据管理与科学数据出版工作,现工作于中国科学数据银行(Science Data Bank,简称ScienceDB),负责ScienceDB产品运营与合作。在科学数据管理、共享与出版实践上具有长期实践经验。(按姓氏汉语拼音排序)作者简介34阚侃硕士,高级工程师,国家一级注册计量师,现就职于华南国家计量测试中心/广东省计量科学研究院科研部,主要从事计量数字化基础设施及关键技术、智能控制系统数字化测量等方面的研究。孔丽华博士,高级工程师,中国科学院计算机网络信息中心信息化发展战略与评估中心副主任,中国科学数据(中英文网络版)及 数据与计算发展前沿 编辑部主任,国家新闻出版署医学期刊知识挖掘与服务重点实验室专家委员会委员,中国科学技术期刊编辑学会国际交流与合作工作委员会委员。主要从事科学数据管理政策、数据开放共享政策与实践,以及数据出版等方面的研究。近年来,主持及参与完成了多个重要项目及研究课题。作为负责人,带领团队获得第五届中国出版政府奖“先进出版单位奖”。李国庆中国科学院空天信息创新研究院研究员,国家对地观测科学数据中心主任,科技部综合对地观测数据共享平台负责人,科技部国际灾害数据应急援助机制(CDDR)负责人。研究领域为高性能地学计算、网络化数据工程和灾害数据工程,发表SCI/EI等论文150多篇,专著多部,负责和主持过五十多项国家级重大研究项目,获2021年度地球观测组织(GEO)卓越个人奖。李宗闻工程师,就职于中国科学院计算机网络信息中心。目前从事科学数据出版的研究工作,包括科学数据仓储平台建设、学术期刊论文关联数据汇交共享机制等;负责科学数据银行 ScienceDB 的宣传推广工作,以及期刊、机构等数据社区需求分析和建设推广工作。参与了中国科协“科技论文关联数据仓储及应用服务平台”“期刊论文关联数据汇交工作支撑服务”等课题研究。刘宁中国科学院计算机网络信息中心高级工程师,主要从事科学数据治理、元数据互操作与集成应用方面的理论研究与系统建设,主要参与中国科学院科学数据库工程系列标准、中国科学院科学数据中心体系标准体系的设计与标准研制,主笔相关标准数十项,承担中国科学院科学数据云门户系统、中国科学院项目科学数据汇交管理平台等科学数据治理与集成服务系统建设。刘洁中国科学技术大学公共事务学院2021级法学硕士研究生,研究方向为知识产权。主要从事数据知识产权相关研究工作,参与数据知识产权保护规则研究报告撰写,走访学会调研,参与“科学数据治理法律服务项目”等课题研究。马俊才博士,研究员,现任国家微生物科学数据中心主任,中国科学院微生物研究所微生物资源与大数据中心主任,世界菌种保藏联合会(WFCC)执委、世界微生物数据中心(WDCM)主任、中国生物工程学会生物技术与生物产业信息中心主任、世界微生物菌种保藏联合会执委、亚洲研究资源网络数据管理工作组主席、国际生命条形码项目数据镜像工作组共同主席。GrahamSmith施普林格 自然开放数据项目经理。他的主要职责是针对全公司的出版活动,开发数据共享工具,推动相关合作,制定开放数据相关的政策和举措。他拥有地球物理学背景,并协调组织了Nature、BMC和Springer旗下期刊以及伦敦自然历史博物馆的数据管理活动。汤惟玮助理研究员,国家空间科学数据中心办公室主任。主要从事国内外空间科学领域数据政策研究及分析、各国航天机构及领域国际组织战略规划跟踪分析与开放科学实践研究等。参与国家自然科学基金、中国科学院信息化专项、中国科学院院重点部署项目、中国工程院战略研究与咨询重点项目、中国科学院战略性先导科技专项(A类)等多个科研项目。佟继周中国科学院国家空间科学中心研究员,硕士生导师,空间大数据技术研究室副主任,国家空间科学数据中心副主任。主要从事空间科学数据工程与大数据应用技术研究。主持或参加空间科学战略性先导专项、国家重点研发计划、子午工程、国家科学数据共享工程、院创新性方向课题等多个科研项目。曾获军队科技进步一等奖,被授予“中国科学院参加载人航天工程优秀工作者”荣誉称号。王重芳 施普林格 自然集团大中华区开放科学总监。主要负责施普林格 自然开放科学与开放获取相关政策交流及战略合作,与相关政府及学术机构保持良好互动。在此之前,她在学术出版领域的不同出版机构拥有 15 年的丰富经验,从而对出版格局新发展有着深刻的理解。她的专长是开放获取、开放科学、期刊出版及战略合作。熊行创博士,硕士研究生导师,中国计量科学研究院研究员,享受国务院“政府特殊津贴”专家,现任中国计量科学研究院数据中心副主任、国家计量科学数据中心常务副主任。主要从事计量数字化基础设施及关键技术、标准参考数据、科学数据FAIR化、数据质量测量等方面的研究。36胥鑫中国科学院国家空间科学中心工程师。主要从事数据开放出版研究,在开放共享关键技术、开放出版平台建设及开放科学与开放数据等方面开展工作。参与国家自然科学基金、国家重点研发计划、中国科学院科学传播专项、中国科学院信息化专项等多个科研项目。许琦中国科学院国家空间科学中心工程师。主要研究方向为科学数据标准化与空间科学数据管理,在科学数据标准体系、空间科学数据汇交管理、科学数据仓储理论架构、领域开放科学实践;曾参与WDS元数据收割工作组、全球开放科学云(GOSC)等相关工作小组;主持或参与多项科学数据领域国家标准、团体标准研制;主持或参与国家自然科学基金、国家重点研发计划、中国科学院信息化专项、国家科技基础条件平台中心委托任务多个科研项目。张泽钰工程师,现就职于中国科学院计算机网络信息中心大数据部,本硕攻读法学专业,硕士研究方向为知识产权法,持有国家法律职业资格证书、工商管理方向经济师证书。在此之前,有两年海外工作经历,任职于世界五百强企业,主要从事法律咨询、合同管理等工作。长期从事知识产权法、网络法领域的研究工作,目前主要研究方向为科研数据权益管理和数据合规。周国民理学博士,研究员,中国农业科学院农田灌溉所所长、党委副书记,国家农业科学数据中心主任,中国农业科学院数字化南繁技术创新团队首席科学家,兼任中国农学会计算机农业应用分会副理事长、中国仿真学会农业建模与仿真专业委员会主任。长期从事农业科学数据共享技术与系统等研究工作,取得较为丰富的科技成果,曾获得各级科技成果奖励12项。周园春博士,研究员,博士生导师,现任中国科学院计算机网络信息中心副主任、科技委员会主任,中国科学院科学数据总中心主任,大数据分析系统国家工程研究中心副主任,中国信息协会科学数据专业委员会主任,中国档案学会科技档案与科学数据管理学术委员会副主任。研究领域为科学数据与数据智能等,在IJCAI、AAAI、IEEE TKDE、ACM TKDD、Nucleic Acids Research等国际著名期刊和会议,发布国家标准5项,出版专著3本,授权专利40多项。邹自明中国科学院国家空间科学中心研究员,博士生导师,国家空间科学数据中心主任,中国科学院特聘研究员。主要研究领域为空间科学信息学,在空间科学数据处理,宇宙空间信息的组织、检索与互操作,空间信息系统工程,大数据与人工智能技术在领域知识发现中的应用等方面开展研究。曾获军队科技进步一等奖两项,中国科学院载人航天工程重要贡献奖和中国科学院杰出科技成就奖等奖项。中国开放数据白皮书2023
2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 版权声明 本报告版权属上海数据交易所有限公司所有,并受法律保护。转载、编撰或其他方式使用本报告文字或观点,应注明来源2023 年中国数据交易市场研究分析报告。违反上述声明者,将追究其相关法律责任。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 编写单位(排名不分先后)弗若斯特沙利(北京)咨询有限公司 头豹信息科技南京有限公司 数据流通与交易技术国家程实验室 上海数据交易所 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 录 Contents 报告要点.1 一、中国数据交易业发展概况.2()中国数字经济发展现状.2()中国数据交易市场产品分析.3(三)中国数据交易业发展历程.4(四)中国数据交易业政策和法规环境整体政策环境.5(五)中国数据交易业政策和法规环境地政策环境.7、全球数据交易业市场规模和增预测.9()全球数据交易业市场规模和增预测.9()北美洲数据交易业市场规模和增预测.10(三)美国数据交易业市场规模和发展现状.11(四)欧洲数据交易业市场规模和增预测.12(五)亚洲数据交易业市场规模和增预测.13(六)洋洲数据交易业市场规模和增预测.14(七)南美洲数据交易业市场规模和增预测.15()洲数据交易业市场规模和增预测.16 三、中国数据交易业市场规模和增预测.17()中国数据交易业市场规模和增预测.18()中国数据交易业市场规模数据解读.18 四、中国各地区数据交易业市场规模和增预测.19 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report ()中国各地区数据交易业市场规模和增预测.20()中国各经济区数据交易业市场规模现状.21(三)华东地区数据交易业市场规模和增预测.22(四)华南地区数据交易业市场规模和增预测.23(五)西南数据交易业市场规模和增预测.23(六)华中地区数据交易业市场规模和增预测.24(七)华北地区数据交易业市场规模和增预测.25 五、中国各业数据交易业市场规模和增预测.26()中国各业数据交易市场规模和增预测.27()供给领域中国各业数据交易市场规模情况.28(三)融业数据交易市场规模和增预测.29(四)互联业数据交易市场规模和增预测.30(五)通信业数据交易市场规模和增预测.31(六)制造业业数据交易市场规模和增预测.32(七)政务业数据交易市场规模和增预测.33()医疗健康业数据交易市场规模和增预测.33(九)交通运输业数据交易市场规模和增预测.34 六、中国数据交易产业链价值分析.35()中国数据要素产业链图谱:数据流通为产业链核环节.36()数据交易环节在数据要素产业链中的重要作.36(三)中国数据交易制度分析.37 七、中国数据交易竞争格局.38()中国数据交易业竞争格局.38、中国数据交易业未来发展趋势.39 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report ()未来发展趋势:政策完善,构建数据交易利益平衡机制.39()未来发展趋势:技术提升,解决定价、安全等数据交易问题.40(三)未来发展趋势三:划分等级,建数商分级制度并科学管理.41 九、中国数据交易业企业案例.42()中国数据交易业企业案例上海数据交易所.42()中国数据交易业企业案例西部数据交易中.44(三)中国数据交易业企业案例东数据交易有限公司.44 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 1 报告要点 中国进入数字经济与实体经济融合发展新阶段,数据要素作为新的生产要素全方位赋能其他传统生产要素发展的同时,开展了以数据产品为标的的交易行为,进一步加深中国数字经济发展。伴随着数据要素系列政策的出台,进一步激发数据要素创新活力,推动数据要素市场快速发展,数据交易迎来新一轮发展浪潮。本报告旨在计算与预测全球数据交易市场规模及中国数据交易市场规模,以反映全球及中国数据交易市场的活跃度。2021-2022 年中国数据交易行业市场规模由 617.6 亿元增长至 876.8 亿元,年增长率约为42.0%,增速明显。未来,中国数据交易行业仍有可观的市场增长空间。考虑到行业发展阶段及政策环境等利好因素,预计未来 3-5 年内,中国数据交易市场仍旧能够保持较高速的增长。2022 年中国数据交易行业市场规模为 876.8 亿元,预测至 2030 年中国数据行业市场规模有望达到5,155.9 亿元。未来,中国数据交易行业仍有可观的市场增长空间。预计未来,中国数据行业市场规模仍将呈现稳步增长的趋势,到 2025 年中国数据行业市场规模有望达到 2,046.0 亿元,到 2030 年中国数据行业市场规模有望达到 5,155.9 亿元,2025-2030 年复合增长率约为 20.3%。未来十年中国数据交易市场规模年复合增长率远高于全球数据交易市场 CAGR 水平。中国数据交易市场的发展方向是实现场内外市场的融合和互联互通,促进数据的流动和价值发现。中国数据交易市场将会不断向场内迁移,未来随着场外交易向场内交易的迁移,监管规则、产品标准和经营模式等方面将更加规范化和标准化。中国数据交易场内市场将会不断完善交易机制、创新交易方式和优化服务流程等措施,提高市场的透明度和规范化程度。推动中国数据场外交易向场内转移的另一个重要因素是数据资产化的需求。将数据交易转移至场内,可以为企业提供更多元化的数据交易方式,包括数据资产的确权、交易、流通和变现等。通过场内交易市场,企业可以将数据作为资产进行投资和经营,挖掘数据的更多潜在价值,实现数据资产化。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 2 一、中国数据交易业发展概况 主要观点:1.中国进入数字经济与实体经济融合发展新阶段,数据要素作为新的生产要素全方位赋能其他传统生产要素发展的同时,开展了以数据产品为标的的交易行为,进一步加深中国数字经济发展。2.中国数据交易市场数据产品的三种分类为:数据集、数据服务、数据应用;场外数据交易还包括数据算力服务等。3.随着云计算、大数据、人工智能等新技术的出现,促进了数字经济的更快发展的同时,催生了中国数据交易行业的发展。4.中央相关政策文件的密集出台推动了中国数据要素产业迅速发展,未来数字经济下的数据交易有望在开放的市场中,得到进一步规范,使其运转更加健全、高效、高质。5.中国各省市积极响应号召发布促进数据要素发展政策,各地根据自身数字经济发展特点进行了进一步规划。()中国数字经济发展现状 中国进入数字经济与实体经济融合发展新阶段,数据要素作为新的生产要素全方位赋能其他传统生产要素发展的同时,开展了以数据产品为标的的交易行为,进一步加深中国数字经济发展。数据作为新型生产要素,对土地、劳动力、资本、技术等生产要素具有放大、叠加、倍增作用,正在推动生产方式、生活方式和治理方式深刻变革,数据要素市场建设也正加速推进。数据要素可以全方位赋能其他传统生产要素,提高全要素生产率,从而提高产业竞争势能。比如,数据要素与劳动力相结合能提高劳动生产率;数据要素与技术相结合能加快技术迭代,促进产研融合;数据要素与资本要素结合能够降低后者的不确定性风险,加强金融服务的广度和纵深。现阶段,数据要素通过流转产生增值效益也是数据交易更重要的价值所在。图 1 关键生产要素演变 来源:头豹研究院 土地、劳动力 工业经济时代 工业经济时代 农业经济时代 农业经济时代 数字经济时代数字经济时代 技术、资本 数据要素 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 3 在全球数字经济发展方面,美国为数字化发展的领头人,欧洲各个国家数字化发展水平参差不齐。北欧国家如瑞典,挪威、芬兰等一直都在数字化发展领域中处于领先地位,南欧国家如西班牙,意大利等在数字化发展方面相对较慢。图 2 全球及中国数字经济发展现状 来源:头豹研究院()中国数据交易市场产品分析 数据产品是以数据资源为基础的,经过简单的加工处理或经过软件算法、模型等工具处理,形成能够为用户提供信息需求的数据集合、数据处理结果或数据解决方案。网络运营者通过合法手段获取原始数据,对其采用一定算法,经过深度分析过滤、提炼整合及脱敏处理后形成具有交换价值和技术可行性的衍生数据,数据产品具有一定表达性,即能够通过衍生数据内容为使用者提供储存、解决方案、预测、指数、统计等方面服务。数据产品是基于数据资源的数据产品是基于数据资源的,必须是使用业务产生、外部采购、授权等形式获取的数据资源。数据产品是经过开发加工的数据产品是经过开发加工的,或包含特定软件/算法/模型等其他工具的。或包含加工/清洗/标注/分析等服务的。数据产品是形成面向场景的交付物的数据产品是形成面向场景的交付物的,必然存在确定应用场景的必然形成核验接口/数据集/其他数据应用/加工处理平台等交付物形式的。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 4 中国数据交易市场数据产品的三种分类为:数据集、数据服务、数据应用;场外数据交易还包括数据算力服务等。表 1 场内主要数据交易产品分类 分类 分类 数据产品定义 数据产品定义 交付物形态(市场表达)交付物形态(市场表达)数据集 数据资源经过加工处理后,形成有一定主题的、可满足用户模型化需求的数据集合 仅包含数据资源:数据/数据集/数据产品,离线数据包,API,信息/信息服务,库,数据服务/数据更新服务,查询,评分/评级、指数等 数据服务 数据资源经过加工处理后,可提供定制化服务,为用户提供满足其特定信息需求的数据处理结果 包含数据资源 服务:定制化服务,XX标准化,数据加工整理/数据服务,产业图谱、客群/XX 画像,研究产品/报告、发展现状,评估/评分,指标,查询等 数据应用 数据资源经过软件、算法、模型等工具处理,或经过工具处理后可提供定制化服务,形成的解决方案 包含数据资源 工具:预测、估值,计算、评分/评级/评估、指数等 包含数据资源 工具 服务:数据分析和挖掘、归集、治理、清洗和整理等 来源:上海数据交易所、头豹研究院 图 3 场外主要数据交易产品分类 来源:头豹研究院(三)中国数据交易业发展历程 随着云计算、大数据、人工智能等新技术的出现,促进了数字经济的更快发展的同时,催生了中国数据交易行业的发展。表 2 中国数据交易行业发展历程 时间 时间 2010-2014 2010-2014 2015-2018 2015-2018 2019-至今 2019-至今 阶段 无序扩张期 整顿成长期 新政发展期 阶段 无序扩张期 整顿成长期 新政发展期 场外主要数据交易产品分类 场外主要数据交易产品分类 数据云服务 数据云服务 数据解决方案 数据解决方案 数据包 数据包 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 5 时代综述 市场环境不清晰,数据交易多为非正式渠道交易,游走在灰色地带 市场明确了新的演变方向:构建权威规范的数据流通交易平台,提升市场可控性 各地区充分激发数据资源型企业市场活力,完善数据要素产品供给及产业生态建设 时代综述 市场环境不清晰,数据交易多为非正式渠道交易,游走在灰色地带 市场明确了新的演变方向:构建权威规范的数据流通交易平台,提升市场可控性 各地区充分激发数据资源型企业市场活力,完善数据要素产品供给及产业生态建设 发展特征 发展特征 大数据产业爆发,出现数据产品交易;大数据产业爆发,出现数据产品交易;数据交易行业在不断探索寻找前期的道路;突出的问题是数据产品缺乏健全的法规与政策,部分为违规获取与使用。突出的问题是数据产品缺乏健全的法规与政策,部分为违规获取与使用。数商和大型互联网企业搭建自己的数据交易渠道;数商和大型互联网企业搭建自己的数据交易渠道;多地政府开始探索建立数据交易平台,力图通过正规的确权注册、质量评估、估值定价、安全交易等行为实现一定程度的规范化和可追溯;突出的问题是缺少健全 的 法 规 及 交 易 平台。突出的问题是缺少健全 的 法 规 及 交 易 平台。鼓励供需双方通过数据交易平台开展数据流通;鼓励供需双方通过数据交易平台开展数据流通;各地区完成数据交易平台搭建,并充分激发数据资源型企业市场活力,完善数据要素产品供给及产业生态建设;突出问题为产品种类少、同质化程度高、附加价值低、数据资源深加工和场景应用能力不足等问题。突出问题为产品种类少、同质化程度高、附加价值低、数据资源深加工和场景应用能力不足等问题。重要事件 重要事件 2014 年,大数据首次被写入政府工作报告,这一年也标志着进入大数据元年。2014 年,中关村数海大数据交易服务平台、北京大数据交易服务平台在北京正式揭牌运营。2015 年,贵阳大数据交易所揭牌运营。2015 年-2017 年,全国各地共成立 20 余家数据交易所,场外一批有影响力的数据交易平台逐步建设完成并开始交易。2021 年,上海数据交易所揭牌成立,成立当日,数据交易所完成数据产品挂牌 20 个,涉及金融、交通、通信等八大类,部分首单交易达成。2022 年,深圳数据交易所、广州数据交易所和福建大数据交易所揭牌成立,成绩斐然。2023 年 8 月,东北首家长春数据交易中心揭牌,备案交易1.4 亿元。来源:头豹研究院(四)中国数据交易业政策和法规环境整体政策环境 中央相关政策文件的密集出台推动了中国数据要素产业迅速发展,未来数字经济下的数据交易有望在开放的市场中,得到进一步规范,使其运转更加健全、高效、高质。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 6 表 3 国家层面数据管理政策 政策名称 政策名称 颁布日期 颁布日期 颁布主体 颁布主体 主要内容及影响 主要内容及影响 中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见 2022-12 国务院 该意见从六大方面阐述了数据二十条指引,包括建立健全各类数据的授权机制、建立合规高效场内外结合的数据要素流通和交易制度、建立体现效率、促进公平的数据要素分配制度、建立安全可控、弹性包容的数据要素治理制度,以及相应的保障措施。“数据二十条”是首部从生产要素高度部署数据要素价值释放的国家级专项政策文件,并指引各省之构建自省区的数据交易市场。关于加快建设全国统一大市场的意见 2022-04 国务院 加快培育数据要素市场,建立健全数据安全、权利保护、跨境传输管理、交易流通、开放共享、安全认证等基础制度和标准规范,深入开展数据资源调查,推动数据资源开发利用。“十四五”数字经济发展规划 2022-01 国务院 充分发挥数据要素作用,强化高质量数据要素供给,提升数据管理水平和数据质量。加快数据要素市场化流通,鼓励市场主体探索数据资产定价机制。严厉打击数据黑市交易,营造安全有序的市场环境。以实际应用需求为导向,探索建立多样化的数据开发利用机制。“十四五”大数据产业发展规划 2021-11 工信部 建立数据要素价值体系、健全数据要素市场规则、提升数据要素配置作用。推动大数据领域国家新型工业化产业示范基地高水平建设,围绕数据要素市场机制、国际交流合作等开展先行先试。到 2025 年数据要素市场体系初步建立。来源:中国政策网、头豹研究院 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 7 图 4 数据二十条 来源:头豹研究院(五)中国数据交易业政策和法规环境地政策环境 中国各省市积极响应号召发布促进数据要素发展政策,各地根据自身数字经济发展特点进行了进一步规划。表 4 各地区各类促进及规范数据要素发展政策 省份 省份 日期 日期 颁布主体 颁布主体 政策名称 政策名称 主要内容及影响 主要内容及影响 上海 2023/8 上海市浦东新区人民政府网 立足数字经济新赛道推动数据要素产业创新发展行动方案(2023-2025 年)到 2025 年,初步建成具有国际影响力的数据要素配置枢纽节点和数据要素产业创新高地。数据要素市场体系基本建成,国家级数据交易所地位基本确立。2023/7 上海市浦东新区人民政府网 上海市促进浦东新区数据流通交易若干规定(草案)主要内容包括界定各方责任,明确促进数据流通交易的总体要求;结合落实数据二十条,探索细化数据产权分置机制;建立数据流通交易的系列规则,进一步培育壮大场内交易,并对场外交易作出适度规范引导。2022/11 上海市第十五届人民代表大会常务委员会 上海市数据条例 推进数据权属界定、开放共享、交易流通、监督管理等标准制定和系统建设。长三角区数据合作方面,建设全国一体化大数据中心体系长三角国家枢纽节点。政府有序引导分行业/跨行业协同监管 政府有序引导分行业/跨行业协同监管 数据供应方 数据供应方 国家级数据交易所 国家级数据交易所 数据需求方 数据需求方 公共 数据 公共 数据 企业 数据 企业 数据 个人 数据 个人 数据 数据分类/分级 数据分类/分级 区区域域性性数数据据交易交易所所 行业性数据交易所 行业性数据交易所 鼓励彼此鼓励彼此数据互联数据互联 数据产权制度 数据产权制度 流通交易制度 流通交易制度 收益分配制度 收益分配制度 安全治理制度安全治理制度 四项制度为基础 四项制度为基础 授权 使用 授权 使用 供给 激励 供给 激励 受托 机制 受托 机制 数据确权/授权 数据确权/授权 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 8 广东 2023/7 广州市政务服务数据管理局 广州市数据条例 明确本市行政区域内的数据权益保护、数据流通应用、数据安全保障及监督管理等数据管理活动流程及要求,创新广州公共数据运营机制,搭建数据供给主体、数据需求主体、数据交易场所、数据商及第三方专业服务机构等多方参与的数据要素市场,规范引导数据安全流通交易。2023/4 广州市公共数据开放管理办法 明确公共数据开放及管理行为的适用范围,结合优化营商环境等要求,在合法有序前提下适度扩大公共数据开放的覆盖面,将具有公共事务管理和公共服务职能的组织纳入数据开放主体范围,其中包括供水、供电、供气、公共交通、公共资源交易等提供公共服务的企事业单位。北京 2023/6 中共北京市委、北京市人民政府 关于更好发挥数据要素作用进一步加快发展数字经济的实施意见 以促进数据合规高效流通使用、赋能实体经济为主线,加快推进数据产权制度和收益分配机制先行先试,围绕数据开放流动、应用场景示范、核心技术保障、发展模式创新、安全监管治理等重点,充分激活数据要素潜能,健全数据要素市场体系,为建设全球数字经济标杆城市奠定坚实基础。贵州 2023/6 贵州省人民政府办公厅 贵州省政务数据资源管理办法 进一步规范全省政务数据资源管理,推进政务数据“聚、通、用”。政务数据采集遵循“一数一源、一源多用”原则。可以通过共享方式获取或确认的,不得重复采集、多头采集。福建 2022/1 福建省人民代表大会常务委员会 福建省大数据发展条例 紧扣福建省大数据发展应用现状和需求,对数据采集生成、汇聚共享、开放开发中的主要问题进行制度设计,明确划定了政府及有关部门的职责权限。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 9、全球数据交易业市场规模和增预测 主要观点:1.数字化进程加速,数据成为新生产要素,数据交易规模也不断增长;2022年全球的数据交易规模在 906.0 亿美元,预测至 2025 年市场规模有望增长到 1,445.0 亿美元,到 2030 年全球数据交易市场规模有望达到 3,011.0 亿美元。2.美国企业普遍营业收入规模大、资金雄厚,并且在欧洲、南美洲等多地扩张,业务不断延伸,未来发展实力大。3.2022 年北美洲数据交易市场规模在 430.0 亿美元,预测至 2025 年市场规模有望增长至 698.0 亿美元,2021-2025 的 CAGR 为 13.7%,未来北美市场有望持续增长,预计 2030 年市场规模将达到1,447.0 亿美元。4.2022 年美国数据交易市场的市场规模约为 417.0 亿美元,是全球数据交易市场规模最大的国家;美国数据交易市场的交易模式主要以 B2B2C 模式为主,产品形态以数据集为主,未来其数据中心的建设规模预计仍会增加。5.2022 年欧洲数据交易市场规模为 192.0 亿美元,预测至 2025 年欧洲数据交易市场规模有望达到238.0 亿美元,且 2021-2025 年的 CAGR 为 5.6%,2030 年市场规模有望增长至 297.0 亿美元。6.2022 年亚洲数据交易规模为 182.0 亿美元,预测至 2025 年有望增长到 364.0 亿美元,2021-2025年 CAGR 为 23.3%,未来 2030 年市场规模有望增长到 997.0 亿美元。7.2022 年南美洲数据交易市场规模为 34.0 亿美元,预测至 2025 年市场规模有望增长到 53.0 亿美元,2021-2025 年的 CAGR 为 31.9%,而未来的增长率放缓,预测到 2030 年其市场规模将会达到88.0 亿美元,CAGR 降为 10.6%。8.2022 年大洋洲数据交易规模为 44.0 亿美元,预测至 2025 年市场规模有望增长至 72.0 亿美元,2021-2025 年之间的 CAGR 为 11.2%,至 2030 年有望上涨至 146.0 亿美元。9.非洲数据交易市场规模较低,2022 年其市场规模仅为11.0 亿美元,预测至2025 年有望增长至17.0亿美元,2021-2025 年 CAGR 为 12.7%,未来其市场规模稳定增长,至 2030 年有望达到 32.0 亿美元。()全球数据交易业市场规模和增预测 数字化进程加速,数据成为新生产要素,数据交易规模也不断增长;2022年全球的数据交易规模在906.0 亿美元,预测至 2025 年市场规模有望增长到 1,445.0 亿美元,到 2030 年全球数据交易市场规模有望达到 3,011.0 亿美元。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 10 图 5 全球数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 由于各国数字化进程不断加速,数据成为新的生产要素,数据交易规模也不断增长。2022 年全球数据交易规模在约 906.0 亿美元,预测至 2025 年市场规模有望增长到 1,445.0 亿美元,2021-2025 年年复合增长率(CAGR)为 14.4%。预计 2025 年后市场规模将会稳定增长,CAGR 预计在 15.8%,到 2030 年全球数据交易市场规模有望达到 3,011.0 亿美元。全球数据交易行业市场规模扩大的原因主要包括三点:第一,数据交易市场的发展,与数据经济的发展以及政策的发展密不可分,各国在数据定价、交易机制和确权上纷纷提出条款,政策的完善推动全球数据交易市场发展;第二,经济进一步全球化,跨国企业数量攀升,跨国数据产品和服务交易需求不断增加,数据交易市场规模增长;第三,2020年突发事件爆发,线下实体经济受到限制,多数商品和服务开始向线上转变,加速数字化转型,数据交易规模增加。()北美洲数据交易业市场规模和增预测 2022 年北美洲数据交易市场规模在 430.0 亿美元,预测至 2025 年市场规模有望增长至 698.0 亿美元,2021-2025 的 CAGR 为 13.7%,未来北美市场有望持续增长,预计 2030 年市场规模将达到 1,447.0 亿美元。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 11 图 6 北美洲数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 北美洲数据交易市场增长主要依靠于美国和加拿大两大国家,但是由于美国电力资源逐渐紧张,北美洲的数据中心开始向墨西哥等美国周边国家布局。2021 年底,最大的数据中心 AWS 宣布在加拿大西部建设数据中心,并且预计在 2023 年可运行。CyrusOne 则和巴西量大数据公司合作在墨西哥布局数据中心,同时华为云和 IBM 云也在墨西哥建设数据中心。北美洲数据交易增长的原因在于:一是,美国数字经济的强势发展为数据交易市场打下基础;二是,北美洲地区数据交易产品形态和服务更多样,满足企业更多的数据需求。(三)美国数据交易业市场规模和发展现状 2022 年美国数据交易市场的市场规模约为 417.0 亿美元,是全球数据交易市场规模最大的国家;美国数据交易市场的交易模式主要以 B2B2C模式为主,产品形态以数据集为主,未来其数据中心的建设规模预计仍会增加。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 12 图 7 美国数据交易行业市场规模和发展现状 来源:OECD,USITC,头豹研究院 2022 年美国数据交易市场的市场规模为 417.0 亿美元,美国是全球数据交易市场规模最大的国家。美国市场规模得以增长的主要原因在于:首先,美国是北美洲绝对优势国家,其经济总量和经济增速远超其他国家,数字经济占比超过 GDP总值的 60.0%,为数据中心行业快速发展打下了良好的基础;其次,美国数据交易的头部企业全是互联网企业,而美国互联网企业横跨全球,并且企业实力雄厚,使得美国数据交易拥有得天独厚的数据基础和技术优势。美国数据交易的模式涵盖三个类别,这三种模式和中国当前的交易模式整体相似,并且 B2B2C混合模式占市场的主导地位。从产品形态上看,尽管美国市场中的数据集类产品的交易市场规模占比最大,但是目前有数据服务和数据应用类产品交易规模增长的趋势。美国的数据中心设施建设占比全球最大,达到 33.0%,并且依旧在扩张之中,这意味着美国数据市场将会拥有更大的数据存储量、产量和交易规模。(四)欧洲数据交易业市场规模和增预测 2022 年欧洲数据交易市场规模为 202.0 亿美元,预测至 2025 年欧洲数据交易市场规模有望达到 238.0亿美元,且2021-2025 年的CAGR 为5.6%,2030 年市场规模有望增长至297.0 亿美元,2025-2030 年CAGR将为 4.5%。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 13 图 8 欧洲数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 欧洲数据交易规模未来增长率可能出现略微下降,其中原因在于:欧洲数据交易市场小于北美洲地区,阻碍欧洲数据交易发展的因素包括经济动力不足、人口负增长、土地和电力资源受限等。其次,欧洲数据中心市场主要以国际数据中心运营商为主导,本土数据中心运营商竞争力较弱,因此预计未来数据交易的增长率将会有所下降。有 70.0%以上的欧洲数据中心分布在西欧地区,其次是南欧和北欧地区。西欧拥有以法国、英国等区域为中心的“FLAP数据中心市场”,另外还有不少美国企业,例如 Equinix、微软、谷歌等企业也在西欧布局。北欧则拥有欧洲数据中心二级市场,大量的数据存储服务商、加密货币服务等企业在此布局,这得益于北欧气温低,数据存储过程中不用投入大量的降温设备。(五)亚洲数据交易业市场规模和增预测 亚洲数据交易规模在 2022 年为 182.0 亿美元,预测至 2025 年有望增长到 364.0 亿美元,2021-2025 年CAGR 为 23.3%;未来 2030 年市场规模有望增长到 997.0 亿美元,2025-2030 年 CAGR 为 22.4%。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 14 图 9 亚洲数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 亚洲数据中心主要集中在中国,其次是日本和新加坡等国家。中国数据交易规模占亚洲地区的 50.0%-60.0%。中国数字产业化水平不断提升以及中国政府对数据要素行业的支持,是数据交易市场规模增长的动力来源。日本、韩国、新加坡和印度的数据交易市场占亚洲市场的 25.0%左右。日本和新加坡的数字经济发展速度较快,由于其数据经济基础建设最齐全,同时与欧美之间的贸易往来也更密切,但是日本和新加坡的土地和电力资源趋于紧张,同时考虑日币不断贬值,日本和新加坡市场规模未来可能出现缩水,相比之下,中国数据交易市场规模未来增长可能更为强势。另外,印度尼西亚、马来西亚和泰国政府也开始重视数字经济发展,这为这些国家的数据交易市场增长提供了更多可能性。综合来看,未来东南亚和南亚数据中心增速将显著快于东亚,是未来亚洲数据中心市场增量核心区。(六)洋洲数据交易业市场规模和增预测 大洋洲数据交易规模在 2022 年为 44.0 亿美元,未来 2025 年市场规模将会增长至 72.0 亿美元,2021-2025 年之间的 CAGR 为 11.2%;市场规模持续上涨,未来 2030 年将会上涨至 146.0 亿美元,2025-2030 年CAGR 为 15.2%。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 15 图 10 大洋洲数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 整体来看大洋洲的数据交易市场主要集中在澳大利亚和新西兰。随着澳大利亚政府数据中心战略 2010-2025的推出,澳大利亚政府信息管理办公室(AGIMO)等政府举措在优化数据中心资源方面处于领先地位,该战略代表了从使用政府运营的数据中心向第三方或多方、多租户数据中心转移的趋势。同时,2019 年,美国与澳洲签订了关于数据使用合法的法案,这保障了数据合法的同时也推动了大洋洲数据交易市场的增长。大洋洲市场规模在 2021-2022年之间出现略微下降,这是在考虑到大洋洲国家刺激经济采取了宽松政策,导致本国货币贬值的情况,但整体市场规模是呈现上涨趋势。(七)南美洲数据交易业市场规模和增预测 南美洲数据交易规模呈现上涨趋势,在 2022 年,其数据交易市场规模为 34.0 亿美元,预测未来 2025年市场规模有望增长到 53.0 亿美元,2021-2025 年的 CAGR 为 31.9%,而未来的增长率放缓,预测到 2030年其市场规模有望达到 88.0 亿美元,2025-2030 年的 CAGR 为 10.6%。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 16 图 11 南美洲数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 南美洲数据交易市场主要集中在巴西,这主要是因为巴西的数字经济起步较早,数据交易行业的发展较优于其他南美洲国家,同时巴西政府对于数字经济的关注度和支持度都处于较高水平,因此在疫情后,其市场规模出现大比例上涨。但是南美洲整体的经济环境增长幅度偏低,整体经济对数据交易市场的带动效用并不会很大,因此南美洲市场未来数据交易市场规模的增长很难保持在 2021-2025年的增速。同时,部分美国、中国和欧洲数据经纪商瞄准了正在高速增长的南美洲市场,由于境外企业对南美洲市场的抢占,南美洲市场未来的增长率可能会放缓。()洲数据交易业市场规模和增预测 非洲数据交易市场规模较低,2022 年其市场规模仅为 11.0 亿美元,到 2025 年将会增长至 17.0 亿美元,2021-2025 年 CAGR 为 12.7%;未来市场规模稳定增长,至 2030 年有望达到 32.0 亿美元,2025-2030年 CAGR 将为 12.8%。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 17 图 12 非洲数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 非洲数据交易市场整体偏低,这主要是因为非洲多数国家经济发展偏弱,且数字经济起步较晚。从非洲地区政治局势看,2022 年非洲处于选举动荡周期。2020-2021 年非洲共有 31 个国家举行了选举,2022 年又有包括肯尼亚在内的 14个国家举行总统和议会选举。因此在经济复苏之后,非洲的数字经济和数据交易市场并未出现大范围增长。但是从数据和互联网企业的发展动向来看,不少跨国科技巨头企业急需开拓新市场,而非洲则是新的增长点,因此未来非洲数据交易市场规模可能会出现增长。另外同时考虑到非洲社会经济持续低增长、高负债的局面,未来整体数据交易市场的发展经济环境存在不确定性因素,保守预计非洲未来的数据交易市场可能呈现稳步攀升的局面。三、中国数据交易业市场规模和增预测 主要观点:1.中国数据交易行业在过去几年内经历了稳定高速增长的发展阶段,其中整体市场规模 2022 年约为876.8 亿元,未来,中国数据交易行业仍有可观的市场增长空间,预计到 2030 年可达到 5,155.9 亿元。2.中国数据交易行业近年来不断发展,理论技术不断创新、产品形态日益丰富、产业生态加速变革、产业热度持续升温,中国数据交易行业欣欣向荣。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 18()中国数据交易业市场规模和增预测 中国数据交易行业在过去几年内经历了稳定高速增长的发展阶段,其中整体市场规模 2022 年约为 876.8亿元,未来,中国数据交易行业仍有可观的市场增长空间,预计到 2030 年可达到 5,155.9 亿元。图 13 中国数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 得益于政策环境、经济环境的支持,中国数据交易行业在过去两年内经历了快速增长的发展阶段。2021-2022 年中国数据交易行业市场规模由 617.6 亿元增长至 876.8 亿元,年增长率约为 42.0%,增速明显。考虑到行业发展阶段及政策环境等利好因素,预计未来 3-5 年内,中国数据交易市场仍旧能够保持较高速的增长,预测至 2025 年其市场规模有望增长至 2,046.0 亿元,年复合增长率可达到 34.9%。现阶段,中国数据交易行业市场规模扩大的原因主要在于数据价值逐渐凸显,国家大力倡导和扶持数字经济发展,数据已经成为当今时代国家重要的基础性、战略性资源。未来,中国数据交易行业仍有可观的市场增长空间。预计未来,中国数据行业市场规模仍将呈现稳步增长的趋势,到 2030 年中国数据行业市场规模有望达到 5,155.9 亿元,2025-2030 年复合增长率约为 20.3%。()中国数据交易业市场规模数据解读 中国数据交易行业近年来不断发展,理论技术不断创新、产品形态日益丰富、产业生态加速变革、产业热度持续升温,中国数据交易行业欣欣向荣。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 19 图 14 中国数据交易行业市场规模数据解读 来源:头豹研究院 数据资源是数字中国建设的核心要素。2022 年,中国大数据产业规模达 1.57 万亿元。同比增长 18.0%:数据产量达 81ZB,同比增长 22.7%,占全球数据总产量 10.5%。数据资源供给能力和流通应用创新不断提升,数据要素正成为劳动力、土地、资本、技术之外最先进、最活跃的新生产要素。2022 年中国数据交易行业市场规模为 876.8 亿元人民币,占全球数据市场交易规模的 13.4%,占亚洲数据市场交易规模的 66.5%。中国数字产业化和数字化水平不断提升以及中国政府对数据要素行业的支持,是中国数据交易市场规模增长的动力来源。2021-2025E 年中国数据交易市场规模CAGR 可达34.9%,远高于全球和亚洲数据交易市场规模CAGR。2025-2030 年中国数据交易市场规模 CAGR 预计将维持在 20.3%的增长水平,高于全球,略低于亚洲。四、中国各地区数据交易业市场规模和增预测 主要观点:1.中国各地区数据交易市场规模中占比较大的是华东和华南地区,其次是西南地区,该数值和各地区数字经济的发展直接相关。2.中国经济区中数据交易市场规模主要集中在长江经济带,特别是包括上海、安徽、浙江、江苏的长江三角区,占全国数据交易市场的比例为 26.8%,由于良好的经济环境和政策环境为市场发展奠定基础。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 20 3.2022 年华东地区数据交易规模为 371.0 亿元,预测至 2025 年市场规模有望增长至 885.0 亿元,2021-2025 年之间的 CAGR 为 35.7%,至 2030 年有望上涨至 2,325.8 亿元。4.2022 年华南地区数据交易规模为 147.1 亿元,预测至 2025 年市场规模有望增长至 345.8 亿元,2021-2025 年之间的 CAGR 为 35.2%,至 2030 年有望上涨至 886.3 亿元。5.2022 年西南地区数据交易规模为 133.0 亿元,预测至 2025 年市场规模有望增长至 299.0 亿元,2021-2025 年之间的 CAGR 为 33.7%,至 2030 年有望上涨至 704.1 亿元。6.2022 年华中地区数据交易规模为 103.9 亿元,预测至 2025 年市场规模有望增长至 244.3 亿元,2021-2025 年之间的 CAGR 为 35.2%,至 2030 年有望上涨至 626.0 亿元。7.2022 年华北地区数据交易规模为 97.5 亿元,预测至 2025 年市场规模有望增长至 224.2 亿元,2021-2025 年之间的 CAGR 为 34.4%,至 2030 年有望上涨至 550.9 亿元。()中国各地区数据交易业市场规模和增预测 中国各地区数据交易市场规模中占比较大的是华东和华南地区,其次是西南地区,该数值和各地区数字经济的发展直接相关。图 15 各地区数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 整体来看华东、华南和西南地区数据交易市场发展较好的原因在于:首先,华东、华南地区的金融市场发展较好。由于数据需求方主要集中在金融行业中,例如券商、保险公司、银行等,华东地区的金融行业发展较为集中,因此数据交易行业发展较好。其次,华东、华南地区的互联网行业发展也较好。由于互联网企2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 21 业为数据交易市场打下技术、软硬件等基础,因此华东和华南地区数据交易市场发展较早且多方基础较为扎实。最后,对于西南地区而言,其数据中心基建设施较为完善,并且贵阳数据交易所的数据交易规模在场内处于龙头地位,因此西南地区的数据交易市场发展也较为稳健。东北和西北地区的数据交易市场规模占比较低,这主要是受到了经济基础和人口的限制,导致数据交易在这两个市场中的产量和销量都明显不足。()中国各经济区数据交易业市场规模现状 中国经济区中数据交易市场规模主要集中在长江经济带,特别是包括上海、安徽、浙江、江苏的长江三角区,占全国数据交易市场的比例为 27.7%,得益于该地区良好的经济环境和政策环境为市场发展奠定基础。图 16 中国各经济区的数据交易市场 来源:工业和信息化部,信通院,头豹研究院 依照经济区划分来看数据交易主要的发力区域在长江三角区,占全国市场的 27.7%;其次粤港澳地区的数据交易市场发展也较为强势,占比为 14.4%;川渝地区的占比为 7.2%。从每个城市来看,发展较好的前十个城市为广东、北京、上海、浙江、江苏、福建、山东、四川、湖北和河南。总体来说,各地区都在积极探索和推进数据交易市场的发展。一些地区采取了建立公共数据平台的方式,推动政府数据开放共享;一些地区则通过建立数据交易中心或数据交易平台等方式,为企业提供数据交易服务。在发展过程中,各地区也面临着一些挑战和问题,如数据质量不高、数据安全保障不足、缺乏统一2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 22 的数据交易规则和标准等。为了解决这些问题,各地区需要进一步加强政策支持、技术研发和人才培养等方面的工作,推动数据交易市场的健康发展。同时,随着数字经济的不断发展,数据交易市场也将迎来更多的机遇和挑战。各地区需要密切关注市场变化和政策动向,加强合作和交流,共同推动全国数据交易市场的繁荣发展。(三)华东地区数据交易业市场规模和增预测 2022 年华东地区数据交易规模为 371.0 亿元,预测至 2025 年市场规模有望增长至 885.0 亿元,2021-2025 年之间的 CAGR 为 35.7%,至 2030 年有望上涨至 2,325.8 亿元。图 17 华东数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 华东地区的数据交易市场规模在 2022 年为 371.0 亿元,未来将会持续增长,到 2025 年市场规模将会达到 885.0 亿元,2021-2025 年 CAGR 为 35.7%;到 2030 年,华东地区的市场规模将会增长到 2,325.8 亿元,未来 2025-2030 年 CAGR 为 21.3%。华东地区的增速会略高于中国整体市场,未来也会持续加量,原因在于:首先,以上海为中心的金融市场对数据的需求量较大,因此上海地区的数据产出和消费量都偏高。其次,华东地区的经济大环境发展具有一定优势,且地方政府对数据市场关注度较高,所以华东地区的数据市场发展较快。最后,华东地区的数商生态建设完善,数据交易上游和下游市场参与者众多,这意味着未来华东地区形成的数商生态将会吸引更多企业参与,数据交易市场规模也将会不断增长。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 23 华东地区中上海和江浙一带的城市的数据交易市场发展较为强势,上海则是以数据交付等相关服务发展为主,江浙一带城市则更注重数据技术和定制化服务。(四)华南地区数据交易业市场规模和增预测 华南地区数据交易市场规模目前在 147.1 亿元,未来 2025 年将会增长至 345.8 亿元,2021-2025 年CAGR 为 35.2%;未来 2030 年市场规模将会达到 886.3 亿元,2025-2030 年 CAGR 为 20.7%。图 18 华南数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 华南地区的数据交易市场主要集中在深圳等地区,未来也将会随着中国整体市场增长而增长,其中驱动因素在于:首先,华南地区的互联网企业众多,为数据交易市场打下基础设备及技术基础,有助于数据的产出量,推动华南数据交易市场增长。其次,华南地区有众多民营企业,因此华南地区的数据产品可以涵盖众多行业,从供给侧破除数据流入市场的障碍。最后,由于华南企业众多,对于数据的需求也更大,高需求刺激华南地区的数据交易市场迅速发展。华南地区未来发展的重点方向在于数据交易凭证、统计核算等方面的技术提升上,例如广东省探索了政府首席数据官、数据资产凭证、数据要素统计核算、“数据海关”、数据经纪人等创新举措。(五)西南数据交易业市场规模和增预测 西南地区在 2022 年的数据交易市场规模为 133.0 亿元,未来 2025 年会达到 299.0 亿元,2021-2025 年CAGR 为 33.7%;未来 2030 年市场规模将会达到 704.1 亿元,2025-2030 年 CAGR 为 18.7%。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 24 图 19 西南数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 西南地区从发展格局看,四川成为引领西部大数据发展的先锋,在大数据发展环境、产业实力、行业应用等方面均已形成领先优势,并且西南地区数据交易在旅游行业中的应用上具有明显优势。西南地区市场规模的增长主要在于以下几点因素:首先,四川、重庆依托成渝地区双城经济圈建设,推动新型显示、智能终端、软件、信创等数据相关产业领域协同发展,为构建产业生态奠定基础。其次,陕西、贵州、广西等地区积极打造电子信息制造、数据中心等数据基础设施,逐步拓展数据交易市场发展。短期内,西南地区的数据交易市场的未来发展动力仍然会依赖于当地数字基础设施的建设上。其次,是推动多方协同,将数据交易、算力服务、智慧终端等多种技术相互融合,打造川渝数字产业集群。(六)华中地区数据交易业市场规模和增预测 华中地区的数据交易市场规模在 2022 年为 103.9 亿元,未来 2025 年将会增长到 244.3 亿元,2021-2025年 CAGR 为 35.2%;未来 2030 年将会增长到 626.0 亿元,2025-2030 年的 CAGR 将会为 20.7%。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 25 图 20 华中数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 华中地区数据交易市场占比和华北地区十分接近,并且未来也将会呈现稳定增长趋势,其中增长因素在于:首先,华中地区数据交易所注册资本接近亿元规模,并且华中地区是数据交易平台主要聚集地之一,因此华中地区场内数据交易平台发展速度较快。其次,华中地区中湖北等省市正在计划建设以数据为核心的产业园,奠定了未来华中地区数据交易行业发展基础。湖北武汉地区正在推进个人信息相关数据的法律法规的规定,要求个人信息只能在场内范围进行交易,并且需要在相关部门的严格监管下进行。目前全国内只有湖北省在做个人信息数据交易,因此在该细分赛道中的优势较明显。(七)华北地区数据交易业市场规模和增预测 华北地区数据交易市场规模目前为97.5 亿元,预测2025 年将会增长到224.2 亿元,2021-2025 年CAGR为 34.4%;未来 2030 年市场规模将会增长至 550.9 亿元,未来 2025-2030 年 CAGR 为 19.7%。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 26 图 21 华北数据交易行业市场规模,2021-2030 年预测(以交易额计)来源:头豹研究院 华北地区数据交易规模主要集中于北京地区,北京地区在数据质量上存在绝对的优势,并且北京数据产品还涉及到国际市场数据,但是由于北京数据交易市场存在一定局限性,因此未来以北京为中心的华北地区数据交易市场规模出现高增长的可能性较低。华北地区的数据资源促进高质量发展的潜力尚未充分发挥。北京数字经济规模落后于广东、浙江、上海等省市,数据在经济转型中的关键作用尚未充分发挥,数字产业化、产业数字化仍有较大空间。数据的创新发展潜力有待挖掘。华北地区的创新型数据资源流动效率较低,与发达国家相比差距明显,部分高价值的科学数据在国内未得到充分共享和使用。五、中国各业数据交易业市场规模和增预测 主要观点:1.中国数据资源应用场景丰富多彩,金融、通信、制造工业、医疗健康和交通运输等细分行业对于数据产品的应用需求均呈现出上升趋势,且未来交易规模有望进一步提升。2.随着各行业对数据需求的增长,数据的类型和来源也在不断丰富;包括金融、互联网、政务、医疗健康、通信、教育等多个行业的数据交易流通规模正在持续扩大。3.2022 年,金融行业数据交易规模达到约 306.9 亿元人民币,占据市场整体规模约 35.0%的市场份额,是目前中国最大的细分行业数据交易市场。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 27 4.2022 年,互联网行业数据交易规模达到约 210.4 亿元人民币,占据市场整体规模约 24.0%,中国数据交易市场的持续开放以及数据产品多元化的发展都能够促使互联网数据交易市场蓬勃增长。5.2022 年,通信行业数据交易规模达到约 78.9 亿元人民币,占据市场整体规模约 9.0%,通信行业本身具有较强的互通性,它既是较大的数据应用方同样也是重要的数据供方。6.2022 年,中国制造工业行业数据交易规模达到约 61.4 亿元人民币,占据市场整体规模约 7.0%,预测至 2030 年规模占比有望上升至 9.7%,增长点在于小企业信息化趋势所带来的数据应用需求。7.2022 年,中国政务行业数据交易市场规模达到约 61.4 亿元人民币,占据市场整体规模约 7.0%,数据产品在政务领域的应用作用主要体现在驱动决策、服务民生、助力公共安全和促进经济发展方面。8.2022 年中国医疗健康行业数据交易规模达到约 52.6 亿元人民币,占据市场整体规模约 6.0%,乐观预测如医保数据要素市场先行先试,将带动医疗健康行业数据交易市场规模增长,至 2030 年其规模占比有望上升至约 8.0%。()中国各业数据交易市场规模和增预测 中国数据资源应用场景丰富多彩,金融、互联网、通信、制造工业、政务、医疗健康、交通运输和教育等细分行业对于数据产品的应用需求均呈现出上升趋势,且未来交易规模有望进一步提升。图 22 中国各行业数据交易市场规模,2021-2030 年预测(以交易额计),按应用领域口径统计 来源:头豹研究院 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 28 数据要素市场是一个横跨各领域的综合要素市场,中国数据资源应用的场景丰富多彩。近年来,各行各业对于数据应用的需求不断提高,也大幅促进了中国数据交易市场的活跃度的提升。2022 年,中国数据交易规模达到 876.8 亿元人民币。其中,根据数据应用领域来分,金融行业的数据交易规模约为 306.9 亿元,规模占比达到 35.0%,是目前最大的细分行业数据交易市场。其次,互联网行业数据交易规模达到 210.4亿元人民币,占比约为 24.0%;通信行业数据交易规模达到78.9 亿元人民币,占比约 9.0%;制造工业、政务及医疗健康行业数据交易情况相当,分别以约 61.4 亿元、61.4 亿元和 52.6 亿元的交易规模各占据整体市场 6.0%-7.0%的市场份额;另有约 8.0%的数据交易市场规模被其他行业所占据,例如文旅、农业等。未来,随着数据确权、数据分级分类和数据资产如表等相关利好政策的推动,各类数据产品在各行各业领域内的应用价值有望被持续开发,交易规模将持续提升。()供给领域中国各业数据交易市场规模情况 随着各行业对数据需求的增长,数据的类型和来源也在不断丰富;包括金融、互联网、政务、医疗健康、通信、教育等多个行业的数据交易流通规模正在持续扩大。图 23 中国各行业数据交易市场规模,2022 年(以交易额计),按供给领域口径统计 来源:头豹研究院 2022 年,按照供给领域口径统计,中国数据交易规模达到 854.0 亿元人民币。其中,根据数据供给领域来分,金融行业的数据交易规模约为 248.7 亿元,规模占比达到 29.1%,是目前最大的细分行业数据交易市场。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 29 其次,互联网行业数据交易规模达到 238.8亿元人民币,占比约为 28.0%;政务行业数据交易规模达到97.0 亿元人民币,占比约 11.4%;医疗健康、通信、交通运输及制造工业等行业数据交易情况相当,分别以约 75.7 亿元、62.0 亿元、49.2 亿元和 47.3 亿元的交易规模各占据整体市场 5.0%-9.0%的市场份额;另有约4.1%的数据交易市场规模被其他行业所占据。起初,数据交易主要依赖于政府提供,而现在,数据交易主体已经由政府指导类、数据服务商类、大型金融及互联网企业多方主体共同参与,实现多元共建发展。总体来看,中国数据资源供给端在主体、类型、市场和需求等方面呈现出不断发展和丰富的趋势。(三)融业数据交易市场规模和增预测 2022 年,金融行业的数据交易规模达到约 306.9 亿元人民币,占据市场整体规模约 35.0%,是目前中国最大且最为成熟的一个细分行业数据交易市场。由于数据是开展金融业务的核心要素,对于金融风控和营销领域具有非常重要的作用,因此数据产品在金融业的应用相较于其他行业更为广泛和密集,银行、保险公司、证券、部分互联网企业是目前最核心的金融数据应用方。金融业作为最大的数据应用细分行业,其数据来源多元化,包括运营商、社保、工商、保险、电力、医保等,数据供方多以国有企业为代表。在数据产品类型上,征信类产品是金融业最为主要的交易产品,包括个人征信与企业征信,其中个人征信类数据产品交易规模可占至所有金融数据交易规模近 26.0%。图 24 金融行业数据交易市场规模,2021-2030 年预测(以交易额计),按应用领域口径统计 来源:头豹研究院 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 30 金融行业的数据交易市场在过去的五年里呈现出高速增长的态势,未来也具有可观的增长空间。如果政策能够积极推动数据确权、数据分级分类以及数据资产入表等工作的开展,同时公共数据的开放度也能够持续深化金融数据的应用场景,那么包括金融客户画像、授信贷款、联合征信、金融反欺诈等具有巨大潜力的业务将得到进一步的开发。预测至 2025 年,市场规模有望增长达到约 710.8 亿元,2021-2025 年 CAGR 可达 35.1%;至 2030 年,其市场规模有望超 1,700 亿元,2025-2030 年 CAGR 预计将维持在 19.9%的增长水平,市场占比约为 34.2%。(四)互联业数据交易市场规模和增预测 2022 年,互联网行业的数据交易规模达到约 210.4 亿元人民币,占据市场整体规模约 24.0%,也是目前中国较大且较为成熟的细分行业数据交易市场。中国数据交易市场的持续开放以及数据产品多元化的发展都能够促使互联网数据交易市场蓬勃增长。图 25 互联网行业数据交易市场规模,2021-2030 年预测(以交易额计),按应用领域口径统计 来源:头豹研究院 互联网行业是一个数据密集型行业,例如电商需要收集和分析大量的用户数据、流量数据和行为数据。目前互联网行业的数据产品采购来源多集中在金融、互联网、医疗健康和制造工业领域,数据来源比较丰富且多元化,通过各领域的数据产品以便更好地了解互联网行业的用户需求、优化产品、制定营销策略、提高用户体验等。因此,目前阶段中国互联网行业的数据交易体量也较高。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 31 由于互联网行业的数据交易比较多元化,其行业本身具有非常强的数据应用需求,所以其未来增长更多是受益于行业外部环境的影响,市场的持续开放以及数据产品多元化的发展都能够促使互联网数据交易市场蓬勃增长。预测至 2025 年,市场规模有望增长达到约 470.6 亿元,2021-2025 年 CAGR 可达 33.5%;至2030 年,其市场规模有望超 1031.2 亿元,2025-2030 年 CAGR 预计将达到 17.0%,市场占比预计仍将维持在 20.0%左右。(五)通信业数据交易市场规模和增预测 2022 年,通信行业的数据交易规模达到约 78.9 亿元人民币,占据市场整体规模约 9.0%,通信行业本身具有较强的互通性,它既是较大的数据应用方同样也是重要的数据供方。通信行业是目前中国较大且较为成熟的细分行业数据交易市场。图 26 通信行业数据交易市场规模,2021-2030 年预测(以交易额计),按应用领域口径统计 来源:头豹研究院 通信行业既是较大的数据应用方同样也是重要的数据供方,比如通讯网络运营商。通信行业作为数据供方,金融和交通领域皆是通信最主要的数据采购方;通信行业作为数据应用方,相关通信数据产品主要被应用于例如运营商客户维系、对外营销(群体分析)以及店铺选址等定位服务,这类数据产品的交易流通更多存在于通信行业内部。未来,考虑到运营商这一类数据应用所具备的广泛性,通信作为数据供方的增长趋势可能超越作为数据需方的趋势,而在针对定位服务、客户营销群体分析等服务领域上,通信行业仍具有一定的数据交易市场增长空间。预测至 2025 年,市场规模有望增长达到约 185.5 亿元,2021-2025 年 CAGR 可达 35.2%;至 20302023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 32 年,其市场规模有望超 400.0 亿元,2025-2030 年 CAGR 预计将达到 20.5%,市场占比预计仍将维持在 9.1%左右。(六)制造业业数据交易市场规模和增预测 2022 年,中国制造工业行业数据交易规模达到约 61.4 亿元人民币,占据市场整体规模约 7.0%,预测至2030 年规模占比有望上升至 9.7%,增长点在于小企业信息化趋势所带来的数据应用需求。图 27 制造工业数据交易行业市场规模,2021-2030 年预测(以交易额计),按应用领域口径统计 来源:头豹研究院 工业制造企业,包括钢铁厂、高端制造企业等均是制造工业领域数据交易的应用方,工业制造企业采购数据产品的核心目的是为了降低成本和提高效率,并取得竞争优势。从政策环境和国家战略角度看,数据产品在中国制造工业领域的核心场景和增长点在于两方面:第一,高端制造型企业未来仍存在大量的数据应用需求,无论从国家战略政策角度亦或是从行业本身发展需求看,智能制造一定是行业大趋势,数据产品在这方面起着关键作用,帮助企业检测和优化生产过程,提高生产效率和质量;第二,传统制造工业领域中小企业的信息化需求不容忽视,例如信息化需求正在促进偏远地区的小规模钢铁生产厂家的数据产品交易。因此,基于以上观点,预测至 2025年,市场规模有望增长达到约166.6 亿元,2021-2025 年 CAGR 可达 42.7%;至 2030 年,其市场规模有望接近 500.0 亿元,2025-2030 年CAGR 预计将达到 24.6%,市场占比预计将提高至约 9.7%。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 33(七)政务业数据交易市场规模和增预测 2022 年,中国政务行业数据交易市场规模达到约 61.4 亿元人民币,占据市场整体规模约 7.0%,数据产品在政务领域的应用作用主要体现在驱动决策、服务民生、助力公共安全和促进经济发展方面。图 28 政务行业数据交易市场规模,2021-2030 年预测(以交易额计),按应用领域口径统计 来源:头豹研究院 政务行业数据交易市场在近几年内也展现出了比较活跃的状态,数据产品在政务领域的应用作用主要体现为四块:数据驱动决策、数据服务民生、数据助力公共安全和数据促进经济发展。决策方面,政务部门通过收集和分析数据,能够更好地了解社会和经济的发展情况,从而做出更科学、更有效的决策,例如制定更合理的交通规划等;民生服务方面,政务部门可以通过互联网等渠道收集和发布民生信息;公共安全上,通过监控系统和大数据分析等技术,提高社会治理的水平;另外政府部门也通过分析市场数据,了解市场需求和趋势,从而制定更加精准的经济发展策略。未来,智慧城市建设、市场监管等均是政务行业数据应用的重要方向,预测至 2025年,市场规模有望增长达到约 122.8 亿元,2021-2025 年 CAGR 可达 29.8%;至 2030 年,其市场规模有望超 200.0 亿元,2025-2030 年 CAGR 预计将达到 16.0%,市场占比预计降低至约 5.0%。()医疗健康业数据交易市场规模和增预测 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 34 2022 年中国医疗健康行业数据交易规模达到约 52.6 亿元人民币,占据市场整体规模约 6.0%,乐观预测如医保数据要素市场先行先试,将带动医疗健康行业数据交易市场规模增长,至 2030年其规模占比有望上升至约 8.0%。图 29 医疗健康行业数据交易市场规模,2021-2030 年预测(以交易额计),按应用领域口径统计 来源:头豹研究院 就应用端而言,医院、保险公司、药厂及医疗器械相关企业均是目前医疗健康领域的主要数据应用方。医疗健康行业数据交易市场在过去几年内由于受到较为严格的政策监管限制,数据交易规模始终较小,但是医疗数据却是公认最具有价值的,它可被应用于智慧导诊、医院管理、医疗科技创新、临床诊疗、健康干预、慢病管理、医疗保险、比较效果研究风险识别、医药市场调研等领域,应用场景将得到不断的丰富。因此,乐观预测下,在目前各省各地医保数据平台已建成的大背景下,如果加之政策的持续推进,未来 3-5年内医保数据要素流通必要性凸显,预计未来医保数据要素市场有望先行先试,医疗健康行业数据交易市场将迎来较快的增长速率及巨大的市场增长空间。预测至 2025年,医疗健康数据交易市场规模有望增长达到约 137.3 亿元,2021-2025 年 CAGR 可达 33.5%;至 2030 年,其市场规模有望超 400.0 亿元,2025-2030 年CAGR 预计将达到 24.6%,市场规模占比将上升至约 8.0%。(九)交通运输业数据交易市场规模和增预测 2022 年,中国交通运输行业数据交易规模达到约 35.1 亿元人民币,占据市场整体规模约 4.0%,交通领域数据维度非常丰富,应用场景多样化,随着政策持续推进,预测至 2030 年其规模占比有望上升至 5.1%。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 35 图 30 交通运输行业数据交易市场规模,2021-2030 年预测(以交易额计),按应用领域口径统计 来源:头豹研究院 受限于数据保护和隐私问题、数据碎片化及政策监管等因素,交通运输行业数据交易市场尚未达到预期规模,目前交通运输行业的数据应用更多还是仅局限于车险服务领域,数据应用场景仍有待持续开发。事实上,交通领域数据体量非常大、种类繁多,包括高速大数据、车辆大数据、ETC 大数据、运力大数据、北斗大数据等,都是非常具有应用潜力的数据资源,可以帮助交通管理和规划部门、旅游服务提供商、物流公司、车企、保险公司、航空公司、船务公司、导航设备制造商等多方改善运营、提高效率、优化决策以及推动创新。交通运输行业数据交易市场在未来有望持续推进和落地。预测至 2025年,交通运输数据交易市场规模有望增长达到约 88.2 亿元,2021-2025 年 CAGR 可达 39.2%;至 2030 年,其市场规模有望至 264.4 亿元,2025-2030 年 CAGR 预计将达到 24.6%,市场规模占比将上升至约 5.1%。六、中国数据交易产业链价值分析 主要观点:1.数据流通端作为数据要素流通的中介与核心,连接了各类市场主体,是数据作为生产要素进行交互、整合、交换、交易的平台,是推动数据交易市场建设的基础。2.数据交易是以数据作为商品进行分类定价、流通和买卖的行为,是数据要素流通的基本方式之一,帮助数据要素实现信息与货币的交换。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 36 3.构建数据交易基础制度体系,是新时代中国改革开放事业持续向纵深推进的标志性、全局性、战略性举措,有利于充分发挥数据要素作用。()中国数据要素产业链图谱:数据流通为产业链核环节 数据流通端作为数据要素流通的中介与核心,连接了各类市场主体,是数据作为生产要素进行交互、整合、交换、交易的平台,是推动数据交易市场建设的基础。图 31 中国数据要素流通行业产业链 来源:头豹研究院()数据交易环节在数据要素产业链中的重要作 数据交易是以数据作为商品进行分类定价、流通和买卖的行为,是数据要素流通的基本方式之一,帮助数据要素实现信息与货币的交换。图 32 数据要素产业链 来源:头豹研究院 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 37 图 33 数据交易平台服务作用 来源:头豹研究院 数据交易未来主要发展方向:数据交易平台模式是中国未来数据交易的主要发展方向。中国政策鼓励场内数据交易,中国数据交易所及数据交易平台的数量不断上升。数据交易平台核心功能:数据交易所通过制定数据交易流程及规章,能够更好在数据交易环节做好风险控制,以利于企业更合规、更高效地获取外部数据赋能数字化转型,并推动数据要素流通市场建设。场内交易问题:目前各大交易平台的交易规则存在差异,未形成统一的标准和价格。(三)中国数据交易制度分析 构建数据交易基础制度体系,是新时代中国改革开放事业持续向纵深推进的标志性、全局性、战略性举措,有利于充分发挥数据要素作用。图 34 场内外数据交易流程 来源:数据二十条、头豹研究院 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 38 随着数据要素地位的确立,中国数据交易市场规模也呈现快速增长趋势。数据交易既可通过依法设立的数据交易平台进行(场内交易),也可由交易双方依法自行交易(场外交易)。数据二十条关于构建场内外四个交易制度的解释:建立保障权益、合规使用的数据产权制度。探索数据产权结构性分置制度,建立数据资源持有权、数据加工使用权、数据产品经营权“三权分置”的数据产权制度框架。建立合规高效、场内外结合的数据要素流通和交易制度。从规则、市场、生态、跨境等四个方面构建适应中国制度优势的数据要素市场体系。建立体现效率、促进公平的数据要素收益分配制度。初次分配阶段按照“谁投入、谁贡献、谁受益”原则,推动数据要素收益向数据价值和使用价值创造者合理倾斜,在二次分配、三次分配阶段,重点关注公共利益和相对弱势群体,防止各类风险挑战。建立安全可控、弹性包容的数据要素治理制度。把握一条主线,坚持促进数据治理制度,构建政府、企业、社会多方协同的治理模式。七、中国数据交易竞争格局 主要观点:1.中国数据交易行业竞争梯队可按照国家级、省市级、行业级和企业级划分。()中国数据交易业竞争格局 中国数据交易行业竞争梯队可按照国家级、省市级、行业级和企业级划分。中国数据交易行业场内竞争格局较为集中,多集中于华东与华南地区。场外竞争格局较为分散,且头部和腰部企业的竞争格外激烈。对比分析场内全国数据交易平台,可以发现如下特点:第一,数据交易平台多集中于东部和南部经济发达地区,华东地区和华南地区为主要的数据交易机构聚集地。第二,以国资主导公司制为主,目前全国的数据交易平台多数为国资主导或国资全运营公司,如贵阳大数据交易所由贵阳国资部门管理运营,广州数据交易有限公司的实控人为广州市政府,湖南大数据交易所由长沙市国资委实控,北京国际大数据交易所由北京市国资委通过北京金融控股集团有限公司实控等。第三,普遍注册资本较高,大多数据交易平台注册资本金为 5000 万元或 1 亿元,注册资本最高的是上海数据交易所有限公司,为 8 亿元,其余数据交易平台注册资本多在 1000 万到 6000 万之间。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 39 图 35 竞争梯队划分 来源:公开资料、头豹研究院、中国数据交易业未来发展趋势 主要观点:1.随着围绕数据监管的政策、法治体系日益完善,政策对制约数据交易利益平衡机制的因素进行健全和发展,以此来规范数据交易利益的平衡机制,为数据交易的未来发展打下坚实基础。2.随着数据要素交易时代的深入发展,技术成为未来数据要素交易活动的重要基座和保障支撑。3.政策及市场鼓励对多方市场参与者划分等级,建立数商分级制度并科学管理以促进数据交易市场的发展,同时也更好的发挥数据的利用价值。()未来发展趋势:政策完善,构建数据交易利益平衡机制 随着围绕数据监管的政策、法治体系日益完善,政策对制约数据交易利益平衡机制的因素进行健全和发展,以此来规范数据交易利益的平衡机制,为数据交易的未来发展打下坚实基础。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 40 图 36 难以构建数据交易利益平衡机制的主要制约因素 来源:中国信息通信研究院、头豹研究院()未来发展趋势:技术提升,解决定价、安全等数据交易问题 随着数据要素交易时代的深入发展,技术成为未来数据要素交易活动的重要基座和保障支撑。表 5 数据的现实特征 特征 特征 描述 描述 容易复制 数据要素可复制速度快、且成本低、难度小 确权困难 数据要素的所有权、控制权、处置权的识别与其他要素有显著差异 非排他性 数据的非排他性复制给 A 并不妨碍复制给 B;A、B 可同时使用 传播迅速 基于信息化手段,数据要素的传播无距离和时间限制 难以估值 数据要素具有价值不确定性定价困难 数据要素具有易复制、确权难、非排他、传播快、难估值等特征,这使得数据在处理和交易过程中面临多种安全风险。在数据安全方面:数据可能被未经授权的人员或机构获取、泄露、滥用等,导致数据的保密性和可控性受损。数据也可能被内部人员或外部黑客伪造、篡改等,导致数据的真实性和完整性受损。在数据定价方面:由于数据要素的难估值特点,传统的估计方式对于数据要素难以完全适用,由于牵涉主体多,可参考案例少,导致数据定价及数据估值问题难以解决。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 41 表 6 技术提升解决数据交易问题 名称名称 发展水平 发展水平 描述描述 发展发展 数据资数据资产控制产控制相关技相关技术术 数据控制 指在数据的传输、存储、使用和销毁环节,通过机器可读的电子合约,实现对数据资产使用的时间、地点、主体、行为和客体等因素的控制 在作用范围、周期和控制在作用范围、周期和控制的颗粒度等因素上丰富与的颗粒度等因素上丰富与革新革新 计算 隐私 面向隐私信息全生命周期保护的计算理论和方法 提高了稳定性与多系统融提高了稳定性与多系统融合基础合基础 计算 机密 机密计算面向云计算应用,在数据处理过程中将敏感数据隔离保护 技术升级,提供更大数据技术升级,提供更大数据安全保障安全保障 数据资数据资产管理产管理相关技相关技术术 管理 元数据 通过元数据管理,可以提升共享、重新获取数据和理解企业信息资产的水平 技术升级,提高每个元模技术升级,提高每个元模型的生命周期管理型的生命周期管理 态势感知数据安全 对数据全生命周期各个环节的操作状态、合规状态、异常状态进行采集融合分析 技术升级,预测数据安全技术升级,预测数据安全走势走势 可信环可信环境境 可信执行环境 在数据运算过程时通过该安全区域中执行加解密等保证安全 技术升级确保原始数据不技术升级确保原始数据不被泄露被泄露 系统环境可信软件 是指在软件层面,将 App 运行时隔离,防止其他 App 调取数据 技术升级,提升防范主系技术升级,提升防范主系统攻击统攻击 技术的提升不仅实现数据交易过程参与方可信任、数据使用全程可管可控、可追溯,解决各个参与方的安全顾虑,还促进数据要素在不同主体和边界间的有序共享、交换和交易,充分释放数据要素的价值。(三)未来发展趋势三:划分等级,建数商分级制度并科学管理 政策及市场鼓励对多方市场参与者划分等级,建立数商分级制度并科学管理以促进数据交易市场的发展,同时也更好的发挥数据的利用价值。国家层面高度重视数据场内交易体系的建设,建立“所商分离”的数据交易生态。继上海数据交易所提出“数商”概念以来,国家层面积极推动数据商生态的发展,在数据二十条中多次提及数据商,并明确“推进数据交易场所与数据商功能分离”。数据交易所的所商分离借鉴了证券市场交易所与证券商分离的模式,但数据交易复杂程度远胜于证券交易,相关交易所因此承担了重要的制度设计“排头兵”作用。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 42 图 37 数商生态体系 来源:全国数商产业发展报告、头豹研究院 政策导向:国家政策导向鼓励培育多方市场参与者以更好地发挥数据利用价值。规范培育数据交易市场主体,发展评估、登记结算、交易撮合、争议仲裁等市场运营体系。市场导向:数据流通市场的现实情况也在呼吁第三方专业服务商的介入以实现供需双方的高效匹配。数据要素市场目前属于新生事物,数据产品的供应商、需求方以及一批第三方服务商是数据要素市场的主要参与者。在此背景下仅仅依靠企业自身力量来参与市场并组织数据产品的效率较低。需要较大的经济能力和技术能力支撑,需要专业的数据服务市场参与者,协助企业完成在数据产品交易市场的发展,并通过划分等级,建立数商分级制度并科学管理,未来“数商”生态有望赋能数据交易行业繁荣发展。九、中国数据交易业企业案例 主要观点:1.上海数据交易所是在上海市人民政府指导下组建的准公共服务机构。以构建数据要素市场、推进数据资产化进程为使命。()中国数据交易业企业案例上海数据交易所 上海数据交易所是在上海市人民政府指导下组建的准公共服务机构,是唯一完成证监会报备流程的机构。上海数据交易所以构建数据要素市场、推进数据资产化进程为使命,承担数据要素流通制度和规范探索创新、数据要素流通基础设施服务、数据产品登记和数据产品交易等职能。目前,上海数据交易所以打造全球数据的重要枢纽节点为目标,配置现有资源。上海数据交易所战略理念:地位定位,上海要打造国家级数据交易所,依托全国数据交易联盟,深化数据交易机构合作。板块定位,做强金融、航运、商贸物流、科技、制造业等重点板块,培育通信、医疗、交通、能源、信用等特色板块。市场发展指数,创建数据要素市场国家工程研究中心,建立“上海数”市场发展指数。整合体系,加快各类企业进场交易。建立数据流通合规体系,完善数据产品分类分层。上海数据交易所交易原则:不合规不挂牌,无场景不交易。上海数据交易所企业地位:由上海市人民政府指导组建的准公共服务机构。上海数据交易所国内首个数据交易链的一期建设工作:一地挂牌、全链流通。2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 43 图 38 企业主要情况 来源:上海数据交易所、头豹研究院 图 39 上海数据交易所发展大事件 来源:上海数据交易所、头豹研究院 图 40 上海数据交易所首创“数商”模式 来源:上海数据交易所、头豹研究院 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 44()中国数据交易业企业案例西部数据交易中 西部数据交易中心是国家发改委、中央网信办等国家部委及重庆市政府于 2021 年 12 月共同批准成立并授权挂牌的重庆市唯一的数据要素流通交易场所,以促进数据合规高效流通、赋能实体经济为主要职责,积极发挥数据交易服务平台、数据生态培育平台、实体经济赋能平台功能,围绕数据产品交易服务、数字资产交易服务两条主线,聚焦确权、定价、互信、入场、监管难题,积极探索交易规则、交易系统、交易环境、交易模式等创新,努力成为国内领先的数据交易场所。图 41 西部数据交易中心交易流程和标的 来源:公开资料、头豹研究院 山东数据交易公司交易标的:API 接口,应用程序接口是一组定义、程序及协议的集合,通过 API 接口实现计算机软件之间的相互通信。AI 模型,以数据融合为基础,利用智慧运营、AI 算法等根据具体的应用场景处理数据,从而为交易者提供更准确的参考信息。数据包,包括原始数据和所形成的数据模型应用模块。数据报告,指对特定数据进行分析得到的结论性文件。例如气象等级图、企业信用评价报告、企业专利评价报告、企业信用报告等。(三)中国数据交易业企业案例东数据交易有限公司 山东数据交易有限公司是经省政府批准,由省大数据局和省国资委推动设立的山东省唯一省级数据交易机构,加挂“山东数据创新应用中心”牌子,定位于省级综合性数据服务平台,提供数据交易平台服务、数据产品开发服务、数据应用服务、公共数据资源开放渠道服务和其他类型服务等。根据山东省十四五规划,承担高水平建设山东大数据交易中心、搭建全省统一的数据交易平台、规范数据交易行为、培育壮大山东大数据产业等重要职能。交易标的类型 交易标的类型 API 接口 AI 模型 数据报告 数据包 电商类 航旅类 建筑类 能源类 通信类 信用类 医疗类 汽车类 覆盖行业领域 覆盖行业领域 主体入驻 产品上架 交易撮合 交付结算 2023 年中国数据交易市场研究分析报告?China Data Transaction Market Research and Analysis Report 45 图 42 山东数据交易公司交易流程和标的 来源:公开资料、头豹研究院 山东数据交易公司交易标的:数据集,指以固定的存储方式提供、可直接流通的数据集合。数据接口,指以特定传输接口的方式提供的数据,使用者通过调用接口获取数据。数据报告,指对特定数据进行分析得到的结论性文件。数据应用,指基于特定数据加工、整合形成的应用类数据(产品)。例如服务于营销、推荐、展示等特定场景,并以可视化界面直接面向数据使用者提供数据分析、挖掘结果的软件、系统等。交易审核 交易磋商 合同签署 交易鉴证 交付管理 交易标的类型 交易标的类型 数据集 数据接口 数据报告 数据应用 金融科技 生产管理 人工智能 电子商务 交通地理 大宗商品 生活服务 医疗数据 覆盖行业领域 覆盖行业领域
数据要素行业深度报告:新型生产要素,新增长引擎数据要素行业深度报告:新型生产要素,新增长引擎评级:推荐(首次覆盖)证券研究报告2023年11月27日产业1杨仁文(证券分析师)马川琪(证券分析师)S03.
2023 年深度行业分析研究报告 目目 录录 1、数据链概况.-5-1.1、数据链的定义.-5-1.2、数据通信是实现数据链的基础.-5-1.3、数据链的分类:战术数据链、宽带数据链和专用数据链.-6.
中国第三方中国第三方IDC行行业财务数据回顾及业财务数据回顾及未来展望未来展望2023年11月Written by目录1.前言32.中国数据中心行业发展现状63.营业收入增速放缓,优势企业毛利率领跑104.行业盈亏持续分化,盈利效率有待提升175.客户集中度偏高,盈利稳定性偏弱6.负债融资持续高企,偿债能力趋于稳健247.总资产增速回落,资本支出规模维稳8.经营现金流稳步提升,销售回款持续向好9.资本市场预期放缓,投资回报波动上扬3510.中国数据中心行业近期展望401322922Written by前言前言1中国第三方IDC行业财务数据回顾及未来展望|4公司公司从业从业时间时间合作合作/服务企业客户类型服务企业客户类型资本资本市场市场上市上市年份年份IDC业务业务占比占比万国数据万国数据 2001年超大规模云服务、大型互联网、金融、电信、IT服务、大型国内私营部门、跨国公司境外2020年99.6%世纪互联世纪互联 1996年大型互联网、政府及传统企业、金融等其他企业境外2011年100.0%秦淮数据秦淮数据 2015年大型互联网企业境外2020年100.0%数据港数据港2009年大型互联网、云计算企业A股2017年99.8%光环新网光环新网 2001年大型互联网、云计算、金融、电信等其他企业A股2014年29.1%科华数据科华数据 2014年大型互联网、云计算、政企、金融等其他企业A股2010年26.2%润泽科技润泽科技 2009年大型互联网、云计网、电信、政企等其他企业A股2022年100.0%奥飞数据奥飞数据 2004年大型互联网、电信等其他企业A股2018年88.1%美利云美利云2017年大型互联网公司、电信等其他企业A股1998年17.9%第三方第三方IDC企业企业的的客户类型及从业时间概况客户类型及从业时间概况本报告聚焦第三方数据中心代表性企业,选取了9家专注第三方IDC业务的A股和境外头部上市公司,围绕其披露的2019年至2022年企业年报、2023年企业中报信息,详细比较分析了第三方IDC业务公司盈利能力、营运能力、偿债能力、客户集中度等情况。同时对IDC行业发展前景和市场机遇做出展望。注:IDC业务占比系来源于2022年年报中IDC业务的营业收入/营业总收入中国第三方IDC行业财务数据回顾及未来展望|52022年中国年中国IDC行业企业竞争格局行业企业竞争格局数据来源:IDC,信通院近年来,我国加速推进新型信息基础设施建设的步伐,陆续出台了数字中国建设整体布局规划、关于促进数据安全产业发展的指导意见、“十四五”数字经济发展规划、新型数据中心发展三年行动计划(2021-2023年)等多项政策,鼓励数据中心行业创新与发展。互联网数据中心(以下简称“IDC”)是指在特定物理空间内进行数据存储、处理和交互的设备网络中心。我国数据中心行业由基础电信运营商和第三方IDC运营商主导。根据中国信息通信研究院(“信通院”),2022年第三方数据中心运营商市场份额占比51.7%,首次超过基础电信运营商行业份额48.3%。19.3.7.3Q.7%中国电信中国移动中国联通第三方IDC企业Written by中国数据中心行中国数据中心行业发展现状业发展现状2中国第三方IDC行业财务数据回顾及未来展望|72017-2022年中国数据中心业务年中国数据中心业务市场收入及增长率市场收入及增长率单位:人民币亿元数据来源:信通院2017-2022年我国数据中心总体在用机架规模年我国数据中心总体在用机架规模单位:万架数据来源:中华人民共和国工业和信息化部近年来,我国数据中心市场规模不断增长。根据信通院统计数据,2022年,我国数据中心业务收入约1,900亿元,近五年年均复合增长率达到30.0%,2023 年 市 场 规 模 将 有 望 达2,470亿元。数据中心机架数量快速增长,超大型数据中心成为行业布局重点。国家网信办发布的数字中国发展报告(2022年)显示,2022年全国在用数据中心共有超过650万标准机架(功率2.5KW为一个标准机架),算力总规模位居世界第二,较2017年总机架数量增长达到292.0%。根据信通院数据,2021年大型规模以上的机架为420万架,较2017年增长了4倍。2021年大型规模数据中心(规模大于3000个标准机架即为大型规模以上的数据中心)的占比 达 81.0%,较 2017 年 的50.0%,大幅增长62.0%,这表明新增数据中心主要集中在大型数据中心,行业正在向大型化、集约化发展。2.1 数据中心市数据中心市场规模不断增加场规模不断增加16622631540152065036.19.4.3).7%.0 1720182019202020212022机架规模增长率512 680 878 1,174 1,500 1,900 32.6).13.7.7&.7 1720182019202020212022市场收入增长率中国第三方IDC行业财务数据回顾及未来展望|82020-2023年新增机柜的区域分布年新增机柜的区域分布23.0#.0.0#.0%8.0%1.0%北京及周边地区上海及周边地区广州及周边地区西部地区中部地区东北地区2020-2023年新增机柜的行业分布年新增机柜的行业分布数据来源:ODCC数据来源:ODCC根 据 开 放 数 据 中 心 委 员 会(“ODCC”)统 计 数 据,2020-2023年中国新增机柜主要集中在第三方IDC企业、云计算和互联网公司。目前第三方IDC企业是数据中心行业投资的主要贡献者,并且行业头部的第三方IDC企业的投资布局主要集聚在一线城市周边。受降能耗政策的推动,绿色化和大型化的数据中心是未来投资的重点。2.2 第三方第三方IDC企业为行业投资企业为行业投资主要贡献者主要贡献者56.0.0.0%9.0%2.0%5.0%第三方数据中心服务商云计算和互联网公司电信运营商大型企业金融机构政府部门中国第三方IDC行业财务数据回顾及未来展望|9数据来源:ODCC2.3 地区分布仍地区分布仍不均衡不均衡我国数据中心区域分布呈现不均衡的态势,东部经济发达地区互联网用户密度高,数据中心需求集中。根据ODCC发布的数据,2022年东部发达省份数据中心占比数量为67.5%,其中北京、上海、广州分别占比为14.5%、8.4%、13.3%;中部、西部及东北地区占比分别为14.5%、12.0%和6.0%。2022年中国数据中心地区分布情况年中国数据中心地区分布情况6.0g.5.0.5%东北地区东部地区西部地区中部地区Written by营业收入增速放营业收入增速放缓,优势企业毛缓,优势企业毛利率领跑利率领跑3中国第三方IDC行业财务数据回顾及未来展望|112023年营业收入年营业收入年化年化合计合计44,480百万元百万元2019-2023年第三方IDC上市企业营业收入保持稳定增长,营业收入平均增长率分别为29.0%、21.3%、24.0%、14.2%及10.8%。10.8%总体营业收入增长率接近或跑赢国外头部IDC上市企业Equinix。一方面得益于整体宏观环境及产业发展红利。自2020年进入算力中心时期以来,产业整体逐步进入成熟期,根据中国数据中心产业发展白皮书(2023年),2022年全球数据中心产业规模达1,308亿美元,迎来上升拐点。另一方面,云计算业务驱动市场需求持续提升,行业内公司依靠快速扩张自建数据中心实现内生驱动和资本并购扩张外延驱动增长。我国第三方IDC企业营收增速逐年下降。我国数据中心产业历经快速成长期,正慢慢向成熟期过渡,增速有所下降。近三年宏观经济增速放缓,移动互联网趋于饱和,消费互联网需求减缓,公有云部署主要以存量为主。同时,机柜平均价格有所下降。根据2020-2021年IDC行业发展研究报告,中国IDC机柜平均价格呈现一定下降,部分地区明显下浮,呈现买方市场。2019-2023年第三方年第三方IDC企业营业收入增速企业营业收入增速数据来源:wind数据库,企业年报整理注:本报告中2023年化财务指标均根据2023年6月30日的中期报告年化整理所得,下同。为直观呈现全部均值和Equinix的趋势对比,本报告所有图仅在“全部均值”和“Equinix”的财务指标上添加数值标签,下同。29.0!.3$.0.2.8.0%1.1%8.0.5.3%0%5 %05E 192020202120222023年化境外上市公司均值A股上市公司均值全部均值Equinix中国第三方IDC行业财务数据回顾及未来展望|122019-2023年三方年三方IDC企业营业收入规模分化企业营业收入规模分化单位:人民币百万元数据来源:wind数据库,企业年报整理第三方IDC企业营业收入和增速呈现明显分化。万国数据、世纪互联开展数据中心业务较早,机柜数量和上架率较高,形成规模效应,营收规模处于行业头部。光环新网依托自身云计算业务优势,采取自建和零售模式提供高品质数据中心,总体营收规模位居行业前列。秦淮数据、科华数据和润泽科技营收增速较快。秦淮数据定位于超大型数据中心综合方案提 供 商,深度绑定 用户。科华数据深 耕电子电力技术领 域,完成不间断电 源(Uninterruptible Power Supply,UPS)龙头企业向“数据” “数能”的战略转变,兼具第三方运营商和UPS、制冷等上游产业研发生产能力。润泽科技定位批发业务模式,专注开发大规模以及超大规模数据中心,直接与基础电信运营商合作,园区级数据中心优势明显。数据港、奥飞数据、美利云营收份额相对较小。数据港为深耕上海等一线城市,以自建 定制化批发的业务模式为主。奥飞数据较早布局IDC业务,由租赁模式转型自建数据中心,具有丰富的经验。02,0004,0006,0008,00010,00012,000万国数据 世纪互联 秦淮数据 光环新网 科华数据 润泽科技 数据港 奥飞数据 美利云20192020202120222023 年化中国第三方IDC行业财务数据回顾及未来展望|1320192020202120222023 年化年化营业收入增长率营业收入增长率营业收入增长率营业收入增长率营业收入增长率万国万国数据数据4,12247.6%5,73939.2%7,81936.2%9,32619.3%9,7624.7%世纪世纪互联互联3,78911.4%4,82927.4%6,19028.2%7,06514.1%7,256 2.7%秦淮秦淮数据数据853 770.4%1,831 114.7%2,85255.8%4,55259.6%5,994 31.7%境外境外上上市公司市公司均值均值2,92139.3%4,13341.5%5,62036.0%6,98124.2%7,6719.9%数据港数据港727-20.1025.2%1,24536.8%1,45516.9%1,492 2.5%光环光环新网新网7,09717.8%7,4765.3%7,7003.0%7,191-6.6%7,600 5.7%科华科华数据数据3,86912.6%4,1687.7%4,86616.7%5,64916.1%6,793 20.3%润泽润泽科技科技989N/A1,39441.0%2,04746.8%2,71532.6%3,366 24.0%奥飞奥飞数据数据883 114.81-4.8%1,20543.3%1,097-9.0%1,334 21.6%美利云美利云1,044-0.5%1,16211.3%1,2326.0%1,100-10.73-19.7%A股上股上市公司市公司均值均值2,43523.5%2,6599.2%3,04914.7%3,2015.0%3,57811.8%全部上全部上市公司市公司平均值平均值2,59729.0%3,15021.3%3,90624.0%4,46114.2%4,94210.8%Equinix38,72311.09,1411.1B,2868.0P,09518.5X,251 16.3%数据来源:wind数据库,企业年报整理注:(1)润泽科技2021年借壳上海普丽盛包装股份有限公司,仅公布润泽科技借壳时点近三年的财报数据,2019年财务指标增速不适用营业收入及增长率营业收入及增长率(单位:人民币百万元)(单位:人民币百万元)(2)该指标均值计算口径为算术平均值;本报告所有绝对数指标和比率指标的均值采用算术平均,平均增长率为计算指标均值后的变动率中国第三方IDC行业财务数据回顾及未来展望|14数据来源:wind数据库,企业年报整理2023年毛利年毛利年化合计年化合计10,720百万元百万元5.6 19-2023年第三方IDC企业的毛利随着营收拉动呈现总体逐年提高的趋势。由于IDC行业的重资产属性,处于成长期扩张期的企业从在建工程投资到完成建设再到投产实现营收的周期较长,在持续扩张的建设期内,短期毛利较低。IDC机房运营期内,随着机柜上架率爬升,IDC企业营收逐步上扬,毛利也随之呈现增长趋势。因此,2019-2023年第三方IDC企业整体从扩张期过渡到稳定运营期,毛利总额逐年向好。2019-2023年第三方年第三方IDC企业毛利企业毛利单位:人民币百万元2023年第三方IDC企业年化毛利总额10,720百万元,增幅5.6%。05001,0001,5002,0002,5003,000万国数据 世纪互联 秦淮数据 光环新网 科华数据 润泽科技数据港奥飞数据美利云20192020202120222023年化中国第三方IDC行业财务数据回顾及未来展望|15数据来源:wind数据库,企业年报整理2019-2023年年第三方第三方IDC企业企业毛利率毛利率2023年年毛利率毛利率23.6 19年-2023年我国第三方IDC企业毛利率有所下降,相较于国外优势企业Equinix,整体企业的获利能力有待进一步提升。主要是由于近年来营业收入增速减缓,同时2021年第三季度电力改革,单机柜的成本承压,导致毛利空间收窄。部分优势企业毛利率实现领跑。2023年全球领先的数据运营商Equinix的毛利率为48.5%,相较于国际领先公司的毛利水平,润泽科技略低于Equinix,其毛利率为48.4%,紧随其后的秦淮数据毛利率为42.2%。IDC企业的毛利率取决于机柜单价、上架率和单机柜成本。润泽科技秉承着“自建、自投、自持、自运维”的业务模式,截至2023年6月30日,成熟数据中心上架率超过90.0%,超高的上架率为毛利表现创造基础。秦淮数据专注超大型数据中心业务,凭借其自建能力和规模效应,以低建造成本、高上架率、低运维成本驱动着领先的毛利表现。27.70.7).2&.6#.6I.5H.7G.7H.3H.5 %05EPU 192020202120222023年化境外上市公司均值A股上市公司均值全部平均值Equinix中国第三方IDC行业财务数据回顾及未来展望|16数据来源:wind数据库,企业年报整理20192020202120222023年化年化毛利毛利率毛利毛利率毛利毛利率毛利毛利率毛利毛利率万国万国数据数据1,04325.3%1,55027.0%1,77922.8%1,93620.8%2,08521.4%世纪世纪互联互联93924.8%1,07622.3%1,43823.2%1,35819.2%1,39019.2%秦淮秦淮数据数据24328.5s340.0%1,20042.1%1,89341.6%2,53242.2%境外境外上上市公司市公司均值均值74226.2%1,12029.8%1,47229.4%1,72927.2%2,00227.6%数据港数据港26536.46339.9B233.9B028.8510.4%光环光环新网新网1,52921.5%1,57821.1%1,58720.6%1,10615.4Q26.7%科华科华数据数据1,20031.0%1,32731.8%1,42129.2%1,66429.5%1,98929.3%润泽润泽科技科技47848.3t153.1%1,11354.4%1,44253.1%1,62848.4%奥飞奥飞数据数据18220.6$829.55229.20928.27027.7%美利云美利云13913.3211.47.6&2.4Y6.7%A股上股上市公司市公司均值均值63228.5s231.1229.2826.2x621.5%全部上全部上市公司市公司平均值平均值66927.7130.7%1,04529.2%1,12826.6%1,19123.6%Equinix19,15949.5,08048.7 ,15747.7$,22048.3(,27648.5%毛利及毛利率毛利及毛利率(单位:人民币百万元)(单位:人民币百万元)Written by行业盈亏持续分行业盈亏持续分化,盈利效率有化,盈利效率有待提升待提升4中国第三方IDC行业财务数据回顾及未来展望|18数据来源:wind数据库,企业年报整理2019-2023年第三方年第三方IDC企业企业净利润净利润2022年,由于地缘政治冲突带来的能源紧缺和价格上涨,IDC企业的用电成本随之攀升。由于极端天气频出使得能耗增加,导致数据中心整体运营成本、电费显著增加,进一步摊薄了企业净利水平。除此之外,由于IDC运营商供应量持续增加、行业下游的互联网企业削减业务预算以及业务调整等因素,部分IDC企业出现了资产减值,例如2022年光环新网计提商誉减值,秦淮数据对非核心业务资产计提减值。行业龙头企业相继出现亏损,IDC行业整体的盈利水平仍较低。综上所述,保持对行业风险的警惕,控制期间费用、降低运营成本成为行业共同的关注焦点。第三方第三方IDC企业企业盈亏分化明显盈亏分化明显(3,000)(2,500)(2,000)(1,500)(1,000)(500)05001,0001,5002,000万国数据 世纪互联 秦淮数据 光环新网 科华数据 润泽科技 数据港 奥飞数据 美利云20192020202120222023年化单位:人民币百万元中国第三方IDC行业财务数据回顾及未来展望|192019-2023年年第三方第三方IDC企业企业净利润增速净利润增速数据来源:wind数据库,企业年报整理2020年全部上市公司的净利润平均值骤降,主要是受行业头部公司亏损影响,其中靠并购或者合作建设数据中心,较自建数据中心,成本较高,毛利低。2020年万国数据借款、财务租赁导致利息费用增加,此外由于资本市场有关的期间费用显著增加,净利出现亏损;2020年世纪互联可转换债券公允价值下跌、推出期权计划、计提长期资产减值等,导致短期内出现明显亏损,净利润呈现下降趋势。126.7%-386.8 6.2%-147.345.9.6%-31.61.9R.69.0%-400%-300%-200%-100%00 0000P0 192020202120222023年化年化境外上市公司均值A股上市公司均值全部平均值Equinix第三方第三方IDC企业企业盈亏分化明显盈亏分化明显中国第三方IDC行业财务数据回顾及未来展望|20数据来源:wind数据库,企业年报整理注:境外上市企业的EBITDA直接摘自年报Adjusted EBITDA,润泽科技未披露2018年数据数据来源:wind数据库,企业年报整理2019-2023年第三方年第三方IDC企业企业EBITDA增长率增长率20192020202120222023年化年化EBITDAEBITDA增长率EBITDAEBITDA增长率EBITDAEBITDA增长率EBITDAEBITDA增长率EBITDAEBITDA增长率万国数据万国数据1,82474.2%2,68147.0%3,70338.1%4,25114.8%4,73011.3%世纪互联世纪互联1,050 14.4%1,324 26.1%1,75432.5%1,8736.8%2,18218.9%秦淮数据秦淮数据298 1590.02185.9%1,41966.5%2,37467.3%3,26037.3%境外境外上市公上市公司均值司均值1,05763.1%1,61953.2%2,29241.6%2,83323.6%3,39119.7%数据港数据港3526.0T153.7155.5%1,02121.4%1,0523.0%光环新网光环新网1,48814.7%1,65911.5%1,633-1.6%4-99.8227950.0%科华数据科华数据518 39.6963.9%1,08127.36-12.5%1,42750.8%润泽科技润泽科技465N/A64438.5%1,15379.0%1,58137.1%1,87118.3%奥飞数据奥飞数据211115.34864.9F333.0B1-9.1R224.0%美利云美利云13412.6918.71-36.5%-99-198.04-235.4%A股上市公股上市公司均值司均值52843.1p032.6925.6d6-26.58 37.5%全部上市公全部上市公司司平均值平均值704 52.4%1,00642.9%1,35034.2%1,3751.9%1,722 25.2%Equinix18,71112.8,615-0.5 ,0387.6#,24116.0&,76415.2%第三方IDC企业EBITDA总体增速放缓。主要是受到全球经济增速放缓以及近年来移动互联网的消费需求饱和的影响。EBITDA及及EBITDA增长率增长率(单位:人民币百万元)(单位:人民币百万元)52.4B.94.2%1.9%.2.8%-0.5%7.6.0.2%-100%00 192020202120222023年化年化境外上市公司均值A股上市公司均值全部平均值Equinix中国第三方IDC行业财务数据回顾及未来展望|212023年年EBITDA年化均值年化均值1,722百万元百万元25.2%数据来源:wind数据库,企业年报整理单位:人民币百万元2019年-2023年期间,第三方IDC企业的EBITDA呈现稳健增长态势。主要系宏观环境利好以及企业内生增长双重驱动所致。一方面,在国家大数据战略和数字经济政策指引下,IDC行业迎来政策利好。技术升级驱动市场需求增长,例如5G创新运用到各个领域,流量剧增带动数据需求增加,企业数据中心投资增加,IDC企业上架率提升拉动收入增加。另一方面,数据中心规模效应导致机房的运维成本降低。在“双碳”战略的引导下,IDC行业蓄力研发,新型液冷及风冷等技术纷纷落地,能效技术进步使得PUE不断降低。宏观环境政策利好拉动了营收规模提升,运维成本降低和能源效率的优化推动了IDC企业EBITDA的稳步增加。704 1,006 1,350 1,375 1,722 18,711 18,615 20,038 23,241 26,764 05,00010,00015,00020,00025,00030,00020192020202120222023年化境外上市公司均值A股上市公司均值全部平均值Equinix2019-2023年第三方年第三方IDC企业企业EBITDAWritten by客户集中度偏高,客户集中度偏高,盈利稳定性偏弱盈利稳定性偏弱5中国第三方IDC行业财务数据回顾及未来展望|23行业内普遍行业内普遍呈现出大客户呈现出大客户集中现象集中现象2019-2022年年A股第三方股第三方IDC企业前五大客户企业前五大客户销售占比变动销售占比变动目前我国第三方IDC企业大客户集中度高,并且客户主要聚集于大型互联网、基础电信运营商及其他政企公司等行业领域。第三方IDC上市企业公开年报披露,润泽科技、秦淮数据及数据港前五大客户销售占比近年来超过80.0%,万国数据、奥飞数据及美利云近四年前五大客户销售占比基本保持在40.0%以上。尽管存在较强的大客户依赖,考虑到数据中心较高的资产投入及相对较长的建设周期,以及客户对于稳定持续IDC服务需求的要求,客户转换成本亦相对较高,保证了第三方IDC企业稳定营收来源。但较强的大客户依赖现象下,行业现金流和信用集中风险也随之增大,在一定程度上增加了企业经营风险。开拓新客户群,推进客户多元化,弱化自身对大客户的依赖,仍为我中国上市数据中心企业亟待解决的课题。注:由于A股企业年报公开披露前五大客户销售占比,考虑数据的可获得性和准确性,我们主要统计A股企业;润泽科技未披露2019-2021年前五大客户销售占比数据来源:企业年报整理0 00 19202020212022光环新网科华数据鹏博士奥飞数据美利云数据港Written by负债融资持续高负债融资持续高企,偿债能力趋企,偿债能力趋于稳健于稳健6中国第三方IDC行业财务数据回顾及未来展望|25行业整体行业整体资产负债率资产负债率53.0%-60.4%数据来源:wind数据库,企业年报整理2019-2023年第三方年第三方IDC企业资产负债率企业资产负债率2019-2023年第三方年第三方IDC企业资产负债率企业资产负债率数据来源:wind数据库,企业年报整理第三方IDC企业负债率总体呈现增长趋势,境外上市公司的负债率高于A股上市公司。较国外优势企业Equinix,我国IDC服务商的负债率相对较低。IDC行业重资产布局的投资属性决定了行业密集的资金需求。受制于企业背景、融资成本和融资渠道,我国第三方IDC企业主要以负债融资为主要资金来源。行业整体的资产负债率相对较高,在53.0%-60.4%区间运行,2023年资产负债率年化达到57.7%。其中万国数据、润泽科技、奥飞数据、世纪互联、数据港的资产负债率高于同行业其他公司。资产负债率=总负债/总资产69.6v.0W.65.2Y.4f.4W.9c.63.8%0 00%万国数据 世纪互联 秦淮数据 光环新网 科华数据 润泽科技数据港奥飞数据美利云20192020202120222023年化59.3S.0T.6.4W.7c.1.6a.0b.0a.8%0 0 192020202120222023境外上市公司均值A股上市公司均值全部平均值Equinix中国第三方IDC行业财务数据回顾及未来展望|26数据来源:wind数据库,企业年报整理2019-2023年第三方年第三方IDC企业净债务企业净债务/EBITDA20192020202120222023年化年化万国数据万国数据2.9-1.43.85.86.1 世纪互联世纪互联0.92.42.93.73.6秦淮数据秦淮数据5.5-3.20.21.80.0境外境外上市公司均值上市公司均值3.12.42.3 3.83.2数据港数据港4.53.03.53.32.4 光环新网光环新网0.80.70.9568.05.5科华数据科华数据3.52.32.72.11.1润泽科技润泽科技9.65.83.35.13.2 奥飞数据奥飞数据2.32.44.57.95.8 美利云美利云-3.31.21.6-1.61.6A股上市公司均值股上市公司均值2.92.62.83.43.3 全部上市公司平均值全部上市公司平均值3.02.52.63.53.3Equinix3.13.13.23.23.0数据来源:wind数据库,企业年报整理该数据反映出,在不依靠新增外部融资的情况下,我国第三方IDC企业利用自身盈利偿还债务的能力。该指标越小说明自身盈利对债务的偿还能力越强。近年来该指标缓慢增加,主要是因为随着IDC业务的发展以及投资规模增加,IDC企业资金需求增加,净债务增长较快,总体增速大于EBITDA的增速。第三方IDC企业平均净债务/EBITDA为3.3,依靠自身盈利对负债的偿还能力稍逊于国外优势企业Equinix。净债务净债务/EBITDA净债务=有息负债-货币资金3.0 2.5 2.6 3.5 3.3 3.1 3.1 3.2 3.2 3.0 0123420192020202120222023年化境外上市公司均值A股上市公司均值全部平均值Equinix2023年行业平均年行业平均净债务净债务/EBITDA3.3注:2020年均值计算未包含万国数据和秦淮数据,主要系万国数据港股上市以及秦淮数据美股上市发行股票,获得大额股权融资资金,报表呈现净金融收益;2022年均值计算未包括光环新网,主要系光环新网计提减值导致EBITDA大幅下降中国第三方IDC行业财务数据回顾及未来展望|272023年现金流量年现金流量利息保障倍数利息保障倍数7.8数据来源:wind数据库,企业年报整理2019-2023年第三方年第三方IDC企业现金流量利息保障倍数企业现金流量利息保障倍数20192020202120222023年化年化万国数据万国数据0.30.20.71.40.6世纪互联世纪互联2.21.93.67.312.2秦淮数据秦淮数据0.32.02.61.64.7境外境外上市公司上市公司均值均值0.91.42.33.45.8数据港数据港3.11.74.57.38.0光环新网光环新网5.113.413.78.012.7科华数据科华数据10.36.86.215.86.9润泽科技润泽科技2.44.310.115.222.9奥飞数据奥飞数据5.24.54.84.06.1美利云美利云4.5-7.81.63.0-4.3A股上市公司股上市公司均值均值5.13.86.88.98.7全部上市公司全部上市公司平均值平均值3.73.05.37.17.8Equinix3.95.37.17.97.3我国第三方IDC企业现金流量利息保障倍数不断提高,2023年现金流量利息保障倍数年化达7.8,较2019年的3.7增加110.8%,整体趋近国外优势企业Equinix。企业偿债能力整体趋于稳健,主要得益于第三方IDC企业收入规模增长,行业进入成熟运营期,资金回笼,现金流量利息保障倍数逐年增长。数据来源:wind数据库,企业年报整理9.9%现金流量利息保障倍数现金流量利息保障倍数现金流量利息保障倍数=经营活动现金流量净额/利息费用3.7 3.0 5.3 7.1 7.8 3.9 5.3 7.1 7.9 7.3 024681020192020202120222023年化境外上市公司均值A股上市公司均值全部平均值Equinix中国第三方IDC行业财务数据回顾及未来展望|282023年年EBITDA利息保障倍数利息保障倍数10.2数据来源:wind数据库,企业年报整理2019-2023年第三方年第三方IDC企业企业EBITDA利息保障倍数利息保障倍数20192020202120222023年化年化万国数据万国数据1.81.92.12.02.5世纪互联世纪互联2.93.54.55.615.2秦淮数据秦淮数据2.52.63.44.54.1境外境外上市公司均值上市公司均值2.42.73.34.07.3光环新网光环新网13.316.918.40.02.4科华数据科华数据7.811.08.49.821.3润泽科技润泽科技2.34.311.719.022.8数据港数据港6.05.54.66.57.8奥飞数据奥飞数据11.48.15.95.85.5美利云美利云N/A10.05.7-5.710.6A股上市公司均值股上市公司均值8.29.39.15.911.7全部上市公司平均值全部上市公司平均值6.07.17.25.310.2Equinix5.37.08.79.09.3数据来源:wind数据库,企业年报整理我国第三方IDC企业EBITDA利息保障倍数总体提升,2023年EBITDA利息保障倍数年化达10.2,较上年的5.3增加92.5%,略高于国外优势企业Equinix。随着第三方IDC企业收入规模增长,运营效率提升,EBITDA利息保障倍数总体增长,企业偿债能力整体趋于稳健。92.5ITDA利息保障倍数利息保障倍数EBITDA利息保障倍数=EBITDA/利息费用6.0 7.1 7.2 5.3 10.2 5.3 7.0 8.7 9.0 9.3 05101520192020202120222023年化境外上市公司均值A股上市公司均值全部平均值EquinixWritten by总资产增速回落,总资产增速回落,资本支出规模维稳资本支出规模维稳7中国第三方IDC行业财务数据回顾及未来展望|302023年总资产年总资产年化增长率年化增长率9.6%数据来源:wind数据库,企业年报整理注:润泽科技2021年借壳上海普丽盛包装股份有限公司,未披露2018年数据,故2019年财务指标增速不适用2019-2023年第三方年第三方IDC企业总资产增长率企业总资产增长率我国第三方IDC企业总资产增速趋于回落,但高于国外优势企业Equinix。2020年第三方IDC行业公司总资产增长率达55.6%,2021年及2022年增长逐年放缓,分别为23.4%及10.4%,与行业整体规模增长趋势基本保持一致。数据来源:wind数据库,企业年报整理总资产及总资产增长率总资产及总资产增长率(单位:人民币百万元)(单位:人民币百万元)49.6U.6#.4.4%9.6.9%5.6%1.0.5%9.5%0 192020202120222023年化境外上市公司均值A股上市公司均值全部平均值Equinix20192020202120222023年化年化总资产总资产总资产总资产总资产总资产总资产总资产总资产总资产增长率增长率增长率增长率增长率万国数据万国数据31,49350.8W,25981.8q,63225.1t,8144.4w,0553.0%世纪互联世纪互联14,27428.0,37435.7#,09519.2&,94816.7(,8166.9%秦淮数据秦淮数据7,771455.5,260109.2,68214.9#,10023.6&,60215.2%境外境外公司平公司平均值均值17,84660.10,96473.57,80322.1A,62110.1D,1586.1%光环新网光环新网12,2337.4,54610.7,42843.4,311-0.6,9733.4%科华数据科华数据7,8324.2%8,3296.3%9,57114.9%9,9784.3,4014.2%润泽科技润泽科技6,248N/A9,19347.1,76817.1,00848.7$,24051.4%数据港数据港3,74040.7%7,673105.2%8,2757.8%7,447-10.0%7,308-1.9%奥飞数据奥飞数据1,63050.8%2,94080.4%5,43184.7%6,96828.3%8,32319.4%美利云美利云3,2896.1%3,154-4.1%3,111-1.4%3,097-0.5%2,888-6.7%A股公司平股公司平均值均值5,82935.8%7,47328.2%9,43126.2,46811.0,18916.4%全部上市公全部上市公司平均值司平均值9,834 49.6,30355.6,88823.4 ,85210.4,8459.6%Equinix166,84419.96,2205.67,9151.0 9,05917.58,9019.5%中国第三方IDC行业财务数据回顾及未来展望|312023年购置固定资产、无形资产和其他长期年购置固定资产、无形资产和其他长期资产年化均值资产年化均值25亿元亿元数据来源:wind数据库,企业年报整理单位:人民币百万元2019年年2020年年2021年年2022年年2023年化年化万国数据万国数据4,5588,0379,7017,8476,915世纪互联世纪互联1,3002,5032,8263,1012,032秦淮数据秦淮数据1,6422,7123,6174,6845,817境外境外公司平均值公司平均值2,5004,4175,3815,2114,921光环新网光环新网6901,1202,4571,706992科华数据科华数据744602570591102润泽科技润泽科技1,1981,9562,8404,8334,705数据港数据港1,2031,6861,2741,042528奥飞数据奥飞数据3927221,5411,6921,690美利云美利云1399354222103A股公司平均值股公司平均值7281,0301,4561,6811,353全部上市公司全部上市公司平均值平均值1,3182,1592,7642,8582,543Equinix15,65516,20016,38717,42416,936数据来源:wind数据库,企业年报整理购建固定资产、无形资产和其他长期资产支付的现金代表着数据中心行业的建设投入,近年来数据中心行业对相关长期资产的投资规模呈现上涨趋势。2019-2023年所选取上市公司购置固定资产、无形资产和其他长期资产的现金流出平均金额为1,318百万元、2,159百万元、2,764百万元、2,858百万元及2,543百万元,数据中心市场规模在逐步扩大,但增速逐渐变缓,各公司对抢占未来市场份额的竞争也在加大。购建固定资产、无形资产和其他长期资产支付的现金购建固定资产、无形资产和其他长期资产支付的现金(单位:人民币百万元)(单位:人民币百万元)1,318 2,159 2,764 2,858 2,543 15,655 16,200 16,387 17,424 16,936 04,0008,00012,00016,00020,00020192020202120222023年化境外上市公司均值A股上市公司均值全部平均值Equinix2019-2023年第三方年第三方IDC行业购建固定资产、行业购建固定资产、无形资产和其他长期资产支付的现金无形资产和其他长期资产支付的现金Written by经营现金流稳步经营现金流稳步提升,销售回款提升,销售回款持续向好持续向好8中国第三方IDC行业财务数据回顾及未来展望|332023年经营活动现金净流入年化均值年经营活动现金净流入年化均值14亿元亿元行业内各公司的经营性现金流量净额呈现差异,整体上数据中心行业上市公司的经营活动现金流状态呈现上涨趋势。2019-2023年上市公司平均的经营活动现金净流入金额为382百万元、526百万元、924百万元、1,398百万元、1,375百万元。经营活动现金流量高速上涨的趋势显示整体数据中心行业的发展资金回笼能力较强,依靠经营活动的造血能力强。行业内各公司销售现金比率呈现增长趋势。2019-2022年数据中心行业上市公司整体的销售现金比率分别为18.2%、19.5%、29.6%、35.0%,2023年销售现金比率年化达到32.6%,说明数据中心行业的销售收入质量逐年上升,数据中心服务为企业赚取现金的能力增强,整体行业的经营效率随着近年来数据中心行业的发展越来越快。数据来源:wind数据库,企业年报整理2019-2023年第三方年第三方IDC企业销售现金比率均值企业销售现金比率均值18.2.5).65.02.65.88.58.4.85.7%0%5 %05E 192020202120222023年化境外上市公司均值A股上市公司均值全部平均值Equinix中国第三方IDC行业财务数据回顾及未来展望|34382 526 924 1,398 1,375 13,873 15,072 16,232 20,438 20,778 05,00010,00015,00020,00025,00020192020202120222023年化境外上市公司均值A股上市公司均值全部平均值Equinix数据来源:wind数据库,企业年报整理2019-2023年第三方年第三方IDC企业经营现金流量净额均值企业经营现金流量净额均值单位:人民币百万元20192020202120222023年化年化经营活动产生的现金流量净额销售现金比率经营活动产生的现金流量净额销售现金比率经营活动产生的现金流量净额销售现金比率经营活动产生的现金流量净额销售现金比率经营活动产生的现金流量净额销售现金比率万国数据万国数据2937.1215.6%1,20115.4%2,85830.6%1,21112.4%世纪互联世纪互联80321.2q414.8%1,38822.4%2,44034.5%1,75724.2%秦淮数据秦淮数据404.7f536.3%1,06637.4918.9%3,76062.7%境外境外公司公司平均值平均值37911.0V718.9%1,21825.1%2,05228.0%2,24333.1%光环新网光环新网6038.5%1,44819.4%1,44118.7%1,46820.4%1,70822.5%科华数据科华数据76819.9W213.7816.8%1,59528.2E96.8%润泽科技润泽科技51552.1459.17162.1%1,78865.9%1,87955.8%数据港数据港19026.2718.4q559.4%1,18481.3%1,07572.1%奥飞数据奥飞数据13615.5423.08532.02930.0W943.4%美利云美利云918.7%-175-15.022.6W5.2%-55-6.2%A股公司股公司平均值平均值38421.8P519.8w731.9%1,07038.51 32.4%全部上市全部上市公司平公司平均数均数38218.2R619.5429.6%1,39835.0%1,37532.6%Equinix13,87335.8,07238.5,23238.4 ,43840.8 ,77835.7%数据来源:wind数据库,企业年报整理经营活动产生的现金流量净额及销售现金比率经营活动产生的现金流量净额及销售现金比率(单位:人民币百万元)(单位:人民币百万元)销售现金比率=经营活动现金流量净额/营业收入Written by资本市场预期放资本市场预期放缓,投资回报波缓,投资回报波动上扬动上扬9中国第三方IDC行业财务数据回顾及未来展望|36EV/EBITDA企业价值倍数企业价值倍数有所回落有所回落数据来源:wind数据库,企业年报整理IDC公司为重资产的商业模式,资产投入巨大,在国家政策、市场环境的鼓励下,大规模流动资金涌入IDC行业、城市对智算中心的投资增加,第三方IDC公司估值增速逐渐放缓,随着企业上架率提升,EBITDA逐年增加,行业EBITDA增速超过估值增速,企业的价值倍数总体有所回落。Equinix企业价值倍数总体趋于稳定。Equinix的稳定的价值倍数与其自身的业务优势密不可分。根据2022年企业年报,Equinix的数据中心在美国、德国、英国、澳大利亚等多个国家的市场占有率排名第一,在五大洲、26个国家和55个市场运营了超过210个数据中心。Equinix以并购打开亚洲市场、欧洲市场、南美市场、中东市场,实现业务全球化。2019-2023年第三方年第三方IDC上市公司上市公司EV/EBITDA企业价值倍数走势企业价值倍数走势2019-2023年第三方IDC上市公司的企业价值倍数总体呈波动下降走势,总体平均值分别为20.6、30.3、15.5、16.5、14.6。EV=股票市值 净债务,股票市值=截止报告日的股票收盘价*流通股股数,A股EV取自wind数据库境外股票市值取自百度股市通20.630.315.516.514.621.725.427.621.222.805101520253035404520192020202120222023年化境外上市公司均值A股上市公司均值全部平均值Equinix中国第三方IDC行业财务数据回顾及未来展望|37数据来源:wind数据库,企业年报整理EBITDA回报率=EBITDA/营业收入2023年年EBITDA回报率回报率37.6%随着我国IDC市场规模不断扩大,IDC需求的释放,行业逐步迈向成熟阶段,采取稳定发展的战略,EBITDA回报率也逐步趋于稳定。未来机柜上架率提升也将进一步提高国内IDC公司的盈利能力。2019-2023年第三方年第三方IDC上市公司上市公司EBITDA回报率走势回报率走势2023年EBITDA回报率呈波动持平状态,维持在37.6%附近,2019-2023年总体EBITDA回报率分别为30.4%、36.0%、38.0%、33.2%、37.6%。30.46.08.03.27.6H.3G.6G.4F.4E.9 %05EP 192020202120222023年化境外上市公司均值A股上市公司均值全部平均值Equinix中国第三方IDC行业财务数据回顾及未来展望|3820192020202120222023年化年化EV/EBITDAEBITDA回报率EV/EBITDAEBITDA回报率EV/EBITDAEBITDA回报率EV/EBITDAEBITDA回报率EV/EBITDAEBITDA回报率万国万国数据数据32.644.3A.446.7.047.4.245.6%9.348.5%世纪世纪互联互联6.327.7%.327.4%7.728.3%6.826.5%6.230.1%秦淮秦淮数据数据5.534.9b.746.5.049.7.352.2%9.454.4%境外境外上上市公司市公司均值均值21.435.6.740.2.541.8.541.4%8.344.3%光环光环新网新网21.621.0.722.2.221.2F21.10.1s.94.2%科华科华数据数据12.013.4.520.4.222.2&.516.7.121.0%润泽润泽科技科技13.447.0.346.2%8.456.3.158.24.755.6%数据港数据港27.248.4).159.5.769.7.970.1%8.770.5%奥飞奥飞数据数据21.623.9#.641.4#.238.4.338.4%.739.1%美利云美利云31.812.8$.613.7G.78.2%-97.2-9.0d.915.1%A股上股上市公司市公司均值均值19.927.7.233.9.836.0).629.1&.034.3%全部上全部上市公司市公司平均值平均值20.630.40.336.0.538.0.533.2.337.6%Equinix21.748.3%.447.6.647.4!.246.4.845.9 23年第三方IDC企业总体价值倍数为14.3。2023年行业内秦淮数据、润泽科技、数据港的EBITDA回报率最高,分别为54.4%、55.6%、70.5%,在第三方数据中心服务商产业中处于领跑位置。秦淮数据以长期合同的方式开展托管服务,并新增顶级云计算服务,将公司业务拓展到不同行业、地域。相较于其他IDC企业,秦淮数据将数据中心布局在都市圈的卫星城市,获得成本更优的土地和能源,高效的自有资产投入使得秦淮数据在收入快速增长的同时,折旧摊销成本占比仍然保持在低位。润泽科技在2022年企业数据中心上架机柜总量不断增加,通过开发及运营超大规模、高等级、高效数据中心集群,业绩较其他企业呈现出快速增长的态势。数据港在2022年IDC服务业务实现收入14.5亿元,建成 35 座数据中心,运营IT兆瓦数达371MW,合计约7.42万个标准柜。随着公司多地数据中心扩建平稳落地,多元的客户结构为数据港带来收入规模化效应,并带来更平稳的经营性现金流。数据来源:wind数据库,企业年报整理EV/EBITDA均值=总EV/总EBITDAEV/EBITDA企业价值倍数及企业价值倍数及EBITDA回报率回报率中国第三方IDC行业财务数据回顾及未来展望|39数据来源:wind数据库,企业年报整理2023年年资本回报率资本回报率14.1 19-2023年第三方年第三方IDC上市公司资本回报率走势上市公司资本回报率走势2019年年2020年年2021年年2022年年2023年化年化万国数据万国数据11.0.7%9.3%8.7%9.0%世纪互联世纪互联17.0.1.7.4.8%秦淮数据秦淮数据6.1.1.7.6).3%境外境外公司平均值公司平均值11.4.3.2.6.7%光环新网光环新网15.7.9.9%0.0%2.2%科华数据科华数据9.9.5.3.0$.8%润泽科技润泽科技9.9.5.9.2.2%数据港数据港13.1.0.0.0.8%奥飞数据奥飞数据18.0.4.8%8.3%8.6%美利云美利云8.0%0.7%4.4%-4.8%6.3%A股公司平均值股公司平均值12.4.0.7%8.3.3%全部上市公司全部上市公司平均值平均值12.1.1.6%9.7.1%Equinix15.5.6.0.1.0%数据来源:wind数据库,企业年报整理资本回报率呈现波动增长趋势,2019-2023年总体ROIC资本回报率分别为12.1%、12.1%、12.6%、9.7%、14.1%。2022年ROIC资本回报率下降主要是因为受部分企业EBITDA下降明显,整体资本回报率有所下降。随着行业EBITDA增长,资本回报率总体呈现上扬的态势。资本回报率资本回报率资本回报率=EBITDA/(所有者权益 净债务)12.1.1.6%9.7.1.5.6.0.1.0%0%5 192020202120222023年化境外上市公司均值A股上市公司均值全部平均值EquinixWritten by中国数据中心行业中国数据中心行业近期展望近期展望10中国第三方IDC行业财务数据回顾及未来展望|41国内国内IDC产业发展趋势:集群布局产业发展趋势:集群布局、建设低碳建设低碳、算力导向算力导向在市场需求和供给增长双轮驱动下,数据中心建设规模不断扩张,呈现集群化布局。随着数据中心行业的发展,能耗问题成为行业焦点。在国家“双碳战略”的目标倡导下,IDC行业低碳化趋势愈加明显。“东数西算“政策加速推进算力服务体系一体化,产业互联网进入新纪元。AI大模型成为新的投资风口,技术的进步以及算力需求的兴起,服务供应的算力化成为未来导向。集群布局超大型数据中心成为投资重点超大型数据中心成为投资重点,核心核心城市向周边区域的辐射以及东部地区城市向周边区域的辐射以及东部地区向西部地区的转移趋势明显向西部地区的转移趋势明显。根据信通院数据,2021年大型规模以上的机架为420万架,较2017年增长了4倍。2021年大型规模数据中心(规模大于3000个标准机架即为大型规模以上的数据中心)的占比达81.0%,数据中心集群化趋势明显。根据ODCC发布的2019-2022年全国IDC市场活跃度热力图,内蒙古、甘肃、宁夏等地区的投资活跃度提升2%以上,北上广等中心城市周边区域投资活跃度提升1%-2%。中国第三方IDC行业财务数据回顾及未来展望|42市场主体的需求推动供给增加市场主体的需求推动供给增加,数据数据中心呈现集群布局中心呈现集群布局根据第三方数据中心企业年报显示,数据中心客户集中度高,主要集中于互联网和政企客户。大中型互联网客户和大中型行业客户是数据中心行业需求的驱动者。具体来看,大中型互联网客户需求侧重于云承载。大中型行业客户的专属云需求推动数据中心承载规模从过去的小规模单中心向行业/区域大规模多中心演变,进而推动规模化和集群化的投资格局。从地域分布来看。京津冀、长三角、粤港澳、成渝、内蒙古等区域的头部数据中心服务商居多。“东数西算”战略导向以及土地资源能耗区域错配加速推进我国数据中心由“中心向周边”以及“东部向西部”的产业格局。中国第三方IDC行业财务数据回顾及未来展望|43国内国内IDC产业发展趋势:集群布局产业发展趋势:集群布局、建设低碳建设低碳、算力导向算力导向 建设低碳技术升级推动技术升级推动PUE 的优化的优化,“低碳低碳数据中心数据中心”成为产业导向成为产业导向政策利好和技术革新加速推进数据中心低碳化进程。“东数西算”政策规划了2025年各区域枢纽节点的数据中心PUE目标,具体来看,东部枢纽节 点 PUE1.25,西 部 枢 纽 节 点PUE1.2,各省数据中心科研审批实操层面将PUE值要求在1.2以下,随着绿色节能示范工程的启动,数据中心低碳化建设步伐加速。同时,技术进一步获得突破。根据赛迪顾问相关数据,2025年液冷渗透率预计达到20%,氟泵变频技术、热管多联技术、间接蒸发冷却机组、智慧机房运维(AI 调优等)等技术推广运用,数据中心能源利用效率进一步提升。中国第三方IDC行业财务数据回顾及未来展望|44能源供应转型将为绿色数据中心开创能源供应转型将为绿色数据中心开创新局面新局面。根据中国数据中心产业发展白皮书(2023年),到 2020 年,我国数据中心可再生能源利用率达到 30%以上,相较于 2018年23%的可再生能源的使用比率有所改善。未来几年,随着国家及各省市加大对数据中心化石能源使用的约束,新型储能、分布式光伏等技术及应用的规模化发展,数据中心可再生能源利用率将大幅提升,绿电占比或将大于 50%。打造打造“零碳数据中心零碳数据中心”成为数据中心成为数据中心低碳化发展的终极目标低碳化发展的终极目标。目前主流服务商开始向“零碳数据中心”或“低碳数据中心”之路转型。例如中国电信创新推动数字经济与青海清洁能源深度融合发展,打造中国电信数字青海绿色大数据中心,成为全国首个 100%清洁能源可溯源绿色大数据中心。算力导向我国算力由1.0时代向2.0时代迈进,数算一体化和智能高阶算力对数据中心处理规模和高性能计算能力提出更高要求。我国算力规模持续扩大,智能算力占比快速提升,算力区域分布不均将得到改善。随着新型技术崛起和算力异构化的发展,数据中心多元化算力服务供应格局将成为未来发展趋势。中国第三方IDC行业财务数据回顾及未来展望|45国内数据中心产业新生态:客户国内数据中心产业新生态:客户、主主体体、资本资本、模式多样模式多样IDC产业链生态也逐渐与时俱进。具体来看,IDC建设者和服务商扮演产业链中游的角色,整合上游(设备和软件供应商)的资源,为下游数据中心的需求者例如云服务商、互联网企业和其他行业用户提供IDC以及云服务产品方案。从产业链上游供应来看,数据中心底层基础设施主要包括供配电系统、散热制冷系统等)和IT 及网络设备(交换机、服务器、存储),数据中心管理系统主要包括动环监控系统、数据中心基础设施管理系统等。其中底层基础设施是优化数据中心能效水平突破口。从产业链下游来看,数据中心的主要需求者包括云商、互联网企业与其他重点行业如金融机构、政务机构、其他企业。其中,云商的业务模式偏向以虚拟化资源为客户提供灵活的资源分配和调度服务;而其他企业一般通过部署托管服务器集群或者租用数据中心的服务器为自有业务提供技术服务。中国第三方IDC行业财务数据回顾及未来展望|46国内数据中心产业新生态:客户国内数据中心产业新生态:客户、主主体体、资本资本、模式多样模式多样(续续)互联网客户从头部走向腰部,从互联网向行业客户延伸。互联网行业拉动了IDC行业的发展,但是近年来头部互联网客户需求疲软,增量需求主要集中于腰部以及新兴互联网客户。未来随着“东数西算”等政策增加相关枢纽节点建设需求,市场层面各类企业对数据中心定制化,差异化需求增加,传统企业数字化转型等多方力量驱动,政府部门加快数据中心部署,满足数字政策转型需求,数据中心需求有望增加。产业上游厂商、传统行业央国企等跨界经营数据中心,液冷、光伏、储能等新型设备厂商进入供应链。“东数西算”战略下,产业链上游企业凭借技术优势,垂直化投资进入中游IDC运营和服务业,如科华、佳力图等。2019年,南京楷德悠云数据中心是佳力图和鹏博士合建数据中心的典范,佳力图此举正式进军IDC服务商的领域。数据中心液冷系统的模块化设计理念是科华数据的投资部署,也说明数据中心服务商正在跻身上游供应商链投资领域。中国第三方IDC行业财务数据回顾及未来展望|47国内数据中心产业新生态:客户国内数据中心产业新生态:客户、主主体体、资本资本、模式多样模式多样(续续)产业资本多样化,资金来源、资本性质的新变化,第一,融资渠道多元化。除定增、可转债、ADS 等外,新型融资渠道如产业基金、REITs 等涌现,例如万国数据通过可转债、上市股权融资、银行借款等多途径为投资注入动力。传统行业进入IDC行业实现跨界经营,能源行业杭钢收购杭州杭钢云计算数据中心有限公司100%股权,实现多元化转型。第二,上游设备供应行业国产化投资份额增加。上游设备供应行业涌现了一批实力强劲的厂家例如光迅、佳力图、华为、科华恒盛等。第三,为顺应低碳化趋势,绿电要素和绿色金融有望得到进一步发展。中国第三方IDC行业财务数据回顾及未来展望|48国内数据中心产业新生态:客户国内数据中心产业新生态:客户、主主体体、资本资本、模式多样模式多样(续续)产业模式的多样化,IDC建设和运营模式的创新发展。随着产业链下游行业对云基础设施需求高涨,IDC服务逐渐向智能云IDC转型,服务形式更偏向于提供多云解决方案。IDC企业逐渐由自建机房转变合建机房模式(运营商与第三方合建,与客户合建),例如目前阿里云与万国数据、数据港、宝信软件等第三方IDC企业采取合建数据中心。阿里云、腾讯云等头部云商开始走向生态自建,在IDC资源建设方面普遍采用“333”制即头部云商/大中型互联网企业租用运营商IDC资源、与第三方服务商合建、自建IDC三种方式各占1/3。中国第三方IDC行业财务数据回顾及未来展望|49新技术引领的发展机会新技术引领的发展机会 AI大模型爆发巨大算力需求AI大语言模型成为各互联网公司及高新技术公司投资风口。AI大模型的发展呈井喷式爆发,触发巨大的算力需求,带动数据中心产业发展。目前全球的算力水平供不应求,专家预计未来GPU需求量会增加至当前的3-5倍。根据中信证券研究显示,AI算力需求将会推动数据中心建设的快速发展。工信部数据显示,中国算力产业规模的平均年增长率达30%。目前,京津冀、长三角等8地的国家算力枢纽节点已经全部开工,算力之海正逐步成型,数据中心将迎来新一轮的增长。技术革新引领数据中心行业发展随着互联网技术发展和云计算的普及,数据中心的问题复杂性凸显。考虑到其较大的占地和规模,解决如何在有限面积下承载更多的机柜可以提高数据中心的算力;考虑到其对能源的消耗,解决如何降低其耗电量可以节约数据中心的成本。数据中心企业的液冷技术进入应用阶段;采用DCIM智能平台和巡检机器人提升运维管理水平等,数据中心企业通过技术革新以适应信息发展是未来数据中心行业升级的方向。中国第三方IDC行业财务数据回顾及未来展望|50双碳战略下数据中心的绿色化转型双碳战略下数据中心的绿色化转型后疫情时代,数字经济蓬勃发展。在“双碳”背景下,数据中心绿色发展成为行业发展主流。伴随着新国标数据中心能效限定值及能效等级的实施,节能降碳成为数据中心行业升级的挑战。挑战孕育新机,提高数据中心使用效率、深耕数据中心节能技术成为了数据中心行业的发展取胜之匙。在北上广深部分通信或互联网企业为争夺市场资源,超前布局,在没有足够的客户资源时依然大规模建造数据中心,由此造成了数据中心空置、上架率低的现象;另外,一些企业由于初期定位不明确,资源与客户需求不匹配等原因,导致新建数据中心上架率不能达到设计指标的要求。国家发改委、国家能源局出台贯彻落实碳达峰碳中和目标要求推动数据中心和 5G 等新型基础设施绿色高质量发展实施方案的政策,明确了2025年PUE能耗的标准。未来,PUE技术领先也将占据核心竞争优势。中国第三方IDC行业财务数据回顾及未来展望|51双碳战略下数据中心的绿色化转型(续)双碳战略下数据中心的绿色化转型(续)截至目前,数据中心的降碳技术已经达到了一定的高度,例如可以高效降温且大幅降低制冷能耗水平的数据中心自然冷源技术、目前逐渐代替风冷技术的液冷技术普及、集成度和密集度更高的数据中心模块化理论,这些前沿的技术均可以大幅度的降低能源使用量,从而促进我国平均PUE早日达到一级能耗水平。2022年,国家绿色数据中心可再生能源电力平均利用率提升至30%以上。“东数西算”的规划指引下,集群布局、集约发展成为目前数据中心绿色发展的主流进程之一。秦淮数据利用甘肃庆阳的可再生清洁能源建设零碳数据中心产业基地,万国数据依托乌兰察布优势资源打造绿色智能数据中心3座,世纪互联计划在乌兰察布构建200亩云计算中心。绿色低碳的发展路径下,第三方数据中心加快绿色“智造”的探索,相关专利申请数量逐渐增多。至2022年,秦淮数据在申请及以获得的专利共423项,同比增长51%,其中多项涉及到高效用电及节能冷凝。奥飞科技也获得了相关领域多项专利及软件著作权。伴随着“双碳”政策的深化,绿色低碳将为IDC的高质量发展持续领跑。中国第三方IDC行业财务数据回顾及未来展望|52数据中心行业的挑战数据中心行业的挑战在双碳背景下,数据中心在满足算力的同时需要兼顾环保的社会责任,如何在提升算力的同时满足节电的需要是数据中心行业面临的主要挑战之一。随着各国对数据中心PUE指标要求的趋严,那些技术落后、耗能较高的数据中心将会面临淘汰的可能。维护数据安全也是目前时代关注点。数据中心作为数据的温床,其安全水平意义重大。一方面,数据中心面临着如网络攻击、系统漏洞等常规安全风险;另一方面,数据中心也与国家安全相联系,需要基础软件硬件的自主可控。成本管控是IDC行业站住脚的先决条件。根据信通院数据,数据中心的电力成本占其运营总成本的60%-70%,电力成本直接决定算力成本。由于供电能力的制约,数据中心能耗成为行业发展的关键矛盾。2022年6月,上海市“算力浦江”行动计划明确以整合资源,降低能耗为行业发展的目标,同时提出了2024年PUE的优化和降低区间。除此之外,上架率及机房使用效率低等问题,也是IDC行业面临的挑战之一。综合来看,IDC行业的发展任重而道远。中国第三方IDC行业财务数据回顾及未来展望|53数据中心行业的发展建议数据中心行业的发展建议AI大模型的井喷爆发以及云计算的发展,结合当下“双碳”战略的大趋势,传统数据中心的转型和可持续发展成为了数据中心行业的重中之重。顺应互联网技术飞速发展的趋势,实现数字化转型。数据中心行业应掌握分布式、模块化设计,并且结合行业发展,运用大数据、人工智能、BIM等新技术,基于云平台实现数字领域的应用,促进行业数字化转型,达到数据中心技术提升、数据提升、安全提升、管理提升,建立智能数据中心,提高数据中心使用效率,达到算力最大化。实现绿色化转型,从控制电力来源做起。加强上下游产业的一体化,利用可再生能源,能有效提升企业的减碳水平。此外,加强云技术和无线网的发展,摆脱数据中心地域限制,加强集中化建设,提高数据中心的运营水平和上架率等,也是行业发展的关键所在。机遇伴随着挑战,数据中心企业要把握机会、降本增效,积极拓展新的业务领域,实现绿色可持续发展。中国第三方IDC行业财务数据回顾及未来展望|54安永安永|建设更美好的商业世界建设更美好的商业世界安永的宗旨是建设更美好的商业世界。我们致力帮助客户、员工及社会各界创造长期价值,同时在资本市场建立信任。在数据及科技赋能下,安永的多元化团队通过鉴证服务,于150多个国家及地区构建信任,并协助企业成长、转型和运营。在审计、咨询、法律、战略、税务与交易的专业服务领域,安永团队对当前最复杂迫切的挑战,提出更好的问题,从而发掘创新的解决方案。安永是指 Ernst&Young Global Limited 的全球组织,加盟该全球组织的各成员机构均为独立的法律实体,各成员机构可单独简称为“安永”。Ernst&YoungGlobal Limited 是注册于英国的一家保证(责任)有限公司,不对外提供任何服务,不拥有其成员机构的任何股权或控制权,亦不担任任何成员机构的总部。请登录 。2023 安永,中国。版权所有。APAC no.03018458ED None本材料是为提供一般信息的用途编制,并非旨在成为可依赖的会计、税务、法律或其他专业意见。请向您的顾问获取具体意见。
RGBRGBRGBRGB公共数据授权运营创新指南公共数据授权运营创新指南赛迪顾问股份有限公司中国电子云2023年10月RGBRGBRGBRGBRGBRGBRGBRGBRGBRGBRGBRGBRGBRGBRGBRGB6RGBRGBRGBRGB7RGBRGBRGBRGB8RGBRGBRGBRGB9RGBRGBRGBRGB10RGBRGBRGBRGBRGBRGBRGBRGB12RGBRGBRGBRGBRGBRGBRGBRGB14RGBRGBRGBRGB15RGBRGBRGBRGB16RGBRGBRGBRGB17RGBRGBRGBRGB18RGBRGBRGBRGBRGBRGBRGBRGB20RGBRGBRGBRGB21RGBRGBRGBRGB22RGBRGBRGBRGB23RGBRGBRGBRGB24RGBRGBRGBRGB25RGBRGBRGBRGB26RGBRGBRGBRGB27RGBRGBRGBRGB28RGBRGBRGBRGB29RGBRGBRGBRGB30RGBRGBRGBRGB31RGBRGBRGBRGB32RGBRGBRGBRGB33RGBRGBRGBRGB34RGBRGBRGBRGB35RGBRGBRGBRGB36RGBRGBRGBRGBRGBRGBRGBRGB38RGBRGBRGBRGB39RGBRGBRGBRGB40RGBRGBRGBRGB41RGBRGBRGBRGB42RGBRGBRGBRGBRGBRGBRGBRGB44RGBRGBRGBRGB
中国信息通信研究院产业与规划研究所北京国际大数据交易所2023年11月数据清洗数据清洗、去标识化去标识化、匿名化匿名化业务规程(试行)业务规程(试行)版权声明版权声明本报告版权属于中国信息通信研究院、北京国际大数据交易有限公司,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院、北京国际大数据交易有限公司”。违反上述声明者,编者将追究其相关法律责任。本报告版权属于中国信息通信研究院、北京国际大数据交易有限公司,并受法律保护。转载、摘编或利用其它方式使用本报告文字或者观点的,应注明“来源:中国信息通信研究院、北京国际大数据交易有限公司”。违反上述声明者,编者将追究其相关法律责任。前言前言为规范数据处理行为,指导组织正确开展数据清洗、去标识化、匿名化处理等业务活动及相应的技术测试评估,支撑数据共享、交易、开放等流通活动合规、有序进行,激活数据要素市场,依据个人信息保护法数据安全法,结合 北京市数字经济促进条例 北京市数字经济全产业链开放发展行动方案等法规政策要求,在北京市经济和信息化局指导下,中国信息通信研究院产业与规划研究所、北京国际大数据交易所联合编制本报告。组织依据法律法规要求及相关业务场景需要,对其控制的数据资源进行清洗、去标识化、匿名化处理,是为满足数据处理目的对原始数据逐步深入加工改造的过程,是提升数据可用性和安全性的关键数据处理活动。本报告以业务操作规程形式为组织提供数据清洗、去标识化、匿名化处理的流程和方法指引,可以作为组织提升自身数据质量和可用性的指引方法,作为数据交易中介机构审核交易数据合规性、安全性和可流通性的参考规则,以及作为相关认证、检测机构结合应用场景针对相关技术进行安全测试评估的评价工具,支持、鼓励数据加工、咨询、安全、检测、认证等第三方数据服务机构发展。本报告所描述的技术方法适用于广义的数据范畴,包括但不限于个人数据、企业数据、物联网数据等,但特殊数据类型需要遵守相应的特别管理要求。本报告所描述的数据清洗、去标识化、匿名化处理,是基于数据资源的加工处理过程。有“数”才能对“数”进行处理,通过采集、标识、编码形成数据资源,是对数据进行清洗、去标识化、匿名化处理的前提。前者是形成数据的基础,后者是维护数据质量和安全的关键。本报告主要描述各数据处理活动的基本原理和通用技术方法,需要结合实际场景具体适用。本报告所引用的部分技术方法参考了GB/T 37964-2019 信息安全技术 个人信息去标识化指南等相关标准指南,在此基础上,结合个人信息保护法等法律法规的界定,根据技术特性和处理效果,对去标识化技术和匿名化技术进行了区分。本报告所描述的相关技术方法仍在不断丰富、演进和迭代,相关应用场景也在不断发展变化,本报告将持续跟踪观察,适时更新、补充、调整和校正。欢迎各组织积极反馈技术适用情况和建议,提供技术适用场景和实践案例。目录目录一、处理目标及相互关系.1(一)数据清洗是数据可用的保障.1(二)去标识化是数据脱敏的关键.1(三)匿名化是去标识化的强化.2二、数据处理原则.4(一)合法合规.4(二)安全优先.4(三)平衡效用.4(四)技管结合.4(五)有效溯源.5三、数据清洗规程.5(一)处理目的.5(二)处理流程.6(三)常见技术方法.9四、数据去标识化规程.12(一)处理目的.12(二)处理流程.13(三)常见技术方法.18五、数据匿名化规程.21(一)处理目的.21(二)处理流程.21(三)常见技术方法.25六、数据处理环境要求.29(一)管理制度要求.29(二)技术能力要求.30(三)人员能力要求.30(四)过程控制要求.30(五)事故管理要求.31附件一:常见直接标识符和准标识符示例.32附件二:常见标识符的去标识化或匿名化参考.36附件三:部分数据处理技术方法应用建议.40参考资料.43表 目 录表 目 录表 1数据清洗、去标识化、匿名化处理的技术特点和差异.3数据清洗、去标识化、匿名化业务规程(试行)1习近平总书记在 2023 年中国国际服务贸易交易会全球服务贸易峰会上发表视频致辞指出,要“推动数据基础制度先行先试改革”。中共中央 国务院关于构建数据基础制度 更好发挥数据要素作用的意见要求“创新技术手段,推动个人信息匿名化处理”。规范数据清洗、去标识化、匿名化处理,有助于提升数据的可用、可信、可流通、可追溯水平,推动数据要素强化优质供给,是建立合规高效、场内外结合的数据要素流通和交易制度的重要内容。具体来说,为满足数据可用性和安全性进行的数据清洗、去标识化、匿名化处理,是数据产品进场上市的条件,也是数据资产登记、交易的前提,更是数据应用、建模释放二次衍生价值的底线。本报告通过明晰数据清洗、去标识化、匿名化处理三者之间的关系,总结各项处理活动的处理目的、流程、技术方法及环境要求,以期为相关组织开展相应数据处理活动和测试评估提供参考。一、处理目标及相互关系(一)数据清洗是数据可用的保障(一)数据清洗是数据可用的保障数据清洗是运用一定方法修正识别到的数据问题,实现数据的规范性、完整性、一致性、准确性和可溯源性,提高数据质量的过程。数据清洗旨在满足数据的可用性要求,是数据资源预处理的第一步,也是保证后续处理结果准确、科学、有效的重要一环。数据清洗作为数据后续开发利用的基础,是数据去标识化和匿名化处理的前置步骤。(二)去标识化是数据脱敏的关键(二)去标识化是数据脱敏的关键数据去标识化是指数据经过处理,使其在不借助额外信息的情况数据清洗、去标识化、匿名化业务规程(试行)2下无法识别特定自然人或相关标识符的过程。数据去标识化处理强调标识符的“不可识别性”,即对数据内含的相关敏感信息内容进行脱敏处理,通过去除、替换、模糊等方法,达到不借助额外信息的情况下无法识别特定自然人或相关标识符的效果。数据去标识化与在先的标识形成过程分属数据处理的不同阶段及场景。标识形成是产生数据的过程,使得被标识对象据此可以被组织进行有效管理和开发利用。数据去标识化是标识数据产生后的加工处理过程,旨在提升标识信息的安全防护水平,确保敏感的标识内容不被未经授权的主体获取和利用。去标识化处理是强化标识数据安全性的重要保障。例如,制造业企业通过对产品、零部件、设备进行标识,形成了可精准定位产品和设备的数据资源,在委托外部第三方技术开发商进行相关应用系统开发时,需要对含有敏感内容或涉及商业秘密的数据进行去标识化处理。数据去标识化处理暗含了相关标识符具有“复原”的可能,去标识化无法单独实现匿名化的法律效力。例如,对个人信息进行去标识化处理后的数据,仍属于个人信息范畴。(三)匿名化是去标识化的强化(三)匿名化是去标识化的强化数据匿名化是指数据经过处理,无法识别特定自然人或相关标识符且不能复原的过程。数据匿名化处理在强调标识符的“不可识别性”基础上,要求标识符同时满足“难以复原性”标准,是数据去标识化的进一步处理,即数据去标识化后应用相关技术使相关标识符难以复原的过程。经匿名化处理后数据的初始效用将受到较大程度的改变。数据清洗、去标识化、匿名化业务规程(试行)3与数据去标识化相比,经匿名化处理后的数据即便借助了额外信息也难以识别特定自然人和被处理的标识符。例如,对个人信息进行匿名化处理后的数据,不再属于个人信息范畴。但匿名化处理仅是描述应用匿名化技术的过程,并非描述数据达到绝对匿名化的状态,完满、绝对的不可复原状态无法 100%确定。表 1 数据清洗、去标识化、匿名化处理的技术特点和差异加工后数据加工后数据改造程度改造程度(相对原始数据)数据有用性数据有用性(针对个体记录)数据安全性数据安全性(脱敏程度)清洗后数据低高低(单独可识别)去标识化数据中中中(不借助额外信息不可识别)匿名化数据高低高(借助额外信息也难以复原的不可识别)来源:中国信息通信研究院去标识化技术和匿名化技术没有严格界分,二者核心都是通过技术手段对标识信息进行脱敏处理,实现对敏感数据内容的保护,实践中两类技术通常可以组合使用实现预期处理效果。本报告根据抗重新识别的风险能力大小和对敏感内容安全防护程度的差异,将相关技术划分为去标识化技术和匿名化技术。仍保留原始数据个体颗粒度的,纳入去标识化技术方法范畴;不再保留原始数据个体颗粒度,或原始数据记录的真实性已受到显著减损,或原始数据记录不对外披露的,纳入匿名化技术方法范畴。数据清洗、去标识化、匿名化业务规程(试行)4二、数据处理原则(一)合法合规(一)合法合规组织开展数据清洗、去标识化和匿名化处理,应满足我国法律、法规、规章和标准规范对数据安全和个人信息保护的有关规定,不得不当损害国家、社会和第三方组织及个人的合法正当权益。(二)安全优先(二)安全优先组织应采取相应的管理和技术措施,保证数据加工处理过程的安全性。数据的安全性考虑是组织开展数据去标识化、匿名化处理活动的首要目的,以降低数据在后续流通、应用环节的安全风险,降低数据安全事故发生概率。(三)平衡效用(三)平衡效用组织应根据业务目标和安全保护要求,面向场景化应用需求,选择恰当的清洗、去标识化和匿名化处理路径和技术,在确保安全的前提下,强调数据质量要求,尽可能满足预期效用,促进数据安全性和可用性的有效平衡。(四)技管结合(四)技管结合组织应综合利用技术和管理两方面措施实现数据处理的最佳效果,根据工作目标和数据安全要求制定适当的策略,选择合适的模型和技术,建立完善的管理架构、操作权限和责任机制,将技术和管理措施嵌入数据清洗、去标识化、匿名化处理全流程,并定期跟踪评估和持续改进。数据清洗、去标识化、匿名化业务规程(试行)5(五)有效溯源(五)有效溯源组织应明确各环节的数据处理权限和流程,对数据清洗、去标识化、匿名化设置访问控制程序,采取措施清晰记录数据处理过程的细节、使用的参数和控制措施,及时发现已经出现或可能出现的偏差或不当操作,支撑后续对数据处理过程进行维护、审计和追溯。三、数据清洗规程(一)处理目的(一)处理目的组织实施数据清洗活动,应保证清洗加工过程和输出结果符合以下要求:1.规范性数据来源合法,数据的格式、质量及存储标准应统一,应使用相同度量单位描述同一场景下的同类数据,满足数据互联互通要求,不存在空值、无效值,响应依据规范标准的各种查询和各种计算。2.准确性应对数据所指向的内容客观、真实、准确描述,可对清洗前后的数据进行内外部比对校验,并对具有时效要求的数据根据时间特性及时更新,确保清洗加工不造成数据失真、错漏。3.完整性清洗后的数据应保证数据的连续性、完整性,源数据应在源头或备份表中能找到,数据在字段、记录内容或数据集内不应有重复值。4.一致性数据清洗、去标识化、匿名化业务规程(试行)6各字段内的数据应与字段描述一致,同一个数据在同一时刻在不同数据库、应用和系统中应保持一致。5.可溯源性应在数据清洗转换前对原始数据进行备份,对清洗过程所使用的方法、参数和路径进行记录,保证原始数据可溯源,便于后续查证或重新使用。(二)处理流程(二)处理流程数据清洗的流程通常包括抽取清洗对象、明确清洗规则、标识错误数据、数据修正处理、数据转换检验、评估清洗结果六个步骤。1.抽取清洗对象(1)明确清洗对象选取需要进行清洗处理的数据,明确清洗的数据范围、类型、性质、体量、内容、关系、质量等信息,全面分析清洗标的的情况,对清洗数据进行分类分级。(2)对清洗对象进行抽取清洗对象的抽取应当允许对结构、半结构和非结构等不同类型数据进行抽取,包括对数据的全量抽取和增量抽取,数据抽取后的表结构应与抽取来源的表结构保持一致。2.定义清洗规则(1)确定清洗效果和目标根据清洗的必要性,分析对应数据资源的特点和清洗复杂程度,数据清洗、去标识化、匿名化业务规程(试行)7结合业务要求或用户和其他相关方的需求,明确清洗的程度和需要达到的质量效果。(2)确定清洗逻辑规则结合所抽取的清洗对象的数据特点,以需求为导向,以应用为目标,以数据的可用性为评价标准,明确各数据错误类型的判断标准及相应的修正处理方式。3.标识错误数据(1)筛选错误数据分析筛选出数据资源中存在的数据问题和对应的数据。按照常见错误数据的类型,对数据问题进行分类,针对性进行错误标识,并支持对已标识的错误数据进行查询定位。可采用统计学、关联规则、业务区分等方法来对目标数据进行错误检测,识别出数据的错误类型并进行标识。例如,通过使用统计学方法(例如均值、标准差、范围或分位数)对数据进行分析和可视化,发现异常值或离群值,从而标识错误数据。(2)常见错误类型残缺数据:数据中缺失一些记录,或一条记录中缺失一些值,或两者都缺失。偏差数据:数据没有严格按照要求记录,包括格式内容错误、逻辑错误、不合规数据等。重复数据:数据中出现多条相同记录,或多条记录反映同一内容,数据清洗、去标识化、匿名化业务规程(试行)8通常发生在数据来自不同来源、数据多次采集、瑕疵数据更正备份等情形。其他错误:数据未能准确反映所描述的对象的其他情形,如非结构化或半结构化数据、无意义数据、不相关数据等。4.数据修正处理对已标识的残缺数据、偏差数据、重复数据和其他错误数据分别采用针对性的方法和工具进行处理。常见的数据清洗工具包括软件工具、脚本等类型。选择清洗方法和策略时,应根据清洗目标和业务需要,结合数据错误类型,采取删除、填充、更换等不同的方式处理,具体可参考本节“(三)常见技术方法”。5.数据转换检验(1)错误数据转换对错误数据的格式、信息代码、值的冲突进行转换。数据转换前应检查需要转换的数据规则和字段是否一致。(2)转换结果检验一是内容检验,即对转换后数据内容的完整性、全面性进行检验,包括非空检验和数据量检验。二是格式检验,即对照数据格式样例或相关标准对转换后数据格式的规范性、一致性进行检验。三是逻辑检验,即结合相关联数据对转换后数据逻辑是否符合预先设定的范围、区间、大小、数值关系等规则的约束性要求进行检验。数据清洗、去标识化、匿名化业务规程(试行)9四是合规检验,即结合业务场景的合规要求对转换后数据内容是否符合法律法规和强制性标准的要求进行检验。6.评估清洗结果数据清洗后及时评价输出结果是否符合事先设定清洗规则和规范性、准确性、完整性、一致性、可溯源性等目标要求,并从业务角度评估清洗后数据的有用性,判断是否可以支撑后续加工处理活动。(三)常见技术方法(三)常见技术方法1.残缺数据处理组织应当按照所需处理数据的字段缺失比例和重要性,采取差异化的策略进行处理。重要性高,缺失率低的字段,可以通过计算结果填充并进行核验;重要性高,缺失率高的字段,重新采集获取或通过其他渠道取数补全;重要性低,缺失率低的字段,不做处理或简单填充;重要性低,缺失率高的字段,可以选择删除该字段。(1)删除缺失值当样本数量充足,且出现缺失值的样本占比相对较小时,可以备份当前数据后,直接删除后期加工处理不需要的字段和缺失值。(2)填充缺失内容存在缺失率较低但相对重要的数据项时,可以通过计算填充并进行核验的方式进行补全,包括不同指标的计算结果填充和同一指标的计算结果填充。不同指标的计算结果填充:即通过数据项与数据项之间的逻辑联数据清洗、去标识化、匿名化业务规程(试行)10系,采取相应的计算方法得到缺失内容。包括热卡填补法、最近距离决定填补法、回归填补法、多重填补方法、K-最近邻法、有序最近邻法等。例如,数据中年龄字段缺失,可以从公民身份证号中提取年龄字段。同一指标的计算结果填充:即通过对同一指标列的数据采取均值、中位数、众数等方式进行计算,将相应结果进行填充,多用于数值型数据。例如,某一记录的身高数据缺失,可以使用该字段的均值进行填充。(3)重新采集数据补全存在缺失率较高且相对重要的数据项时,可以通过线下补充收集、业务知识或经验推测、新增抽取其他数据源数据等方式,进行关联对比后填补。2.偏差(异常)数据处理组织应当对未符合规范要求,存在格式、逻辑及内容不匹配等方面偏差的数据进行处理。(1)格式不规范数据对存在格式不规范等问题的数据进行处理,包括全、半角处理和无效字符处理。按照事先定义的规则进行全、半角符号统一,以半自动校验结合半人工方式发现错误字符,进行自动化修正或人工修正。(2)逻辑冲突数据对存在不符合逻辑约束要求、相互间存在冲突的数据进行处理,数据清洗、去标识化、匿名化业务规程(试行)11可通过直接推理、关联修正和逻辑重构等方式进行,并再次进行校验。直接推理:了解数据潜在的逻辑规则,采取逻辑推理法,直接处理简单逻辑错误的数据。关联修正:借助分箱、聚类、回归等方法识别逻辑错误数据,通过相互验证的方法修正矛盾内容。逻辑重构:对于重要性较高的不合理数据进行人工干预,或重新采集数据,引入更多数据源进行逻辑的重新梳理并再次进行校验。(3)内容不匹配数据对存在噪声数据、超出明确取值范围,以及数据中存在敏感信息或内容不符合要求等数据进行处理。通过设定判定规则,借助自动化手段判断数据是否在规则范围内,不在规则范围内的,进行警告及人工处理。噪声数据:对噪声值进行平滑处理,或在不影响数据结构和后续使用情况下,将噪声数据进行删除处理。离群值数据:判断超出明确取值范围数据的来源是否可靠,数据的存在是否合理,合理的数据予以保留,不合理数据予以调整。内容不对应数据:识别内容与字段要求不匹配的问题类型,如人工填写错误、导入数据时没有对齐、数据源端业务系统缺陷等,通过关联、修正或重新采集等方式匹配相应字段进行填补。3.重复数据处理将具有相同含义的数据判定为重复数据,包括相同数据和相似数据。数据清洗、去标识化、匿名化业务规程(试行)12相同数据:形式、含义和内容均相同的数据,根据来源权威性和应用场合,选择最恰当渠道来源的数据,或在不影响数据保真度和完整性的情况下进行合并处理。相似数据:识别相似数据的各自含义,判断数据的实质含义上是否存在差异,实质含义相同的数据按照相同数据进行处理,实质含义有差异的数据,不能界定为重复数据,应分别保留。4.其他错误数据处理针对数据未能准确反映所描述的对象的其他情形,可以采取以下通用方式进行处理:将非结构化和半结构化数据转化为结构化数据;将无意义数据、不相关数据在进行必要性和相关性评估后进行删除,提升后续数据处理效率;对仍存在问题未处理的错误数据存入问题数据库,便于后续查证或重新使用。四、数据去标识化规程(一)处理目的(一)处理目的组织实施数据去标识化,应当确保经过处理的数据达到以下效果:1.标识不可识别对数据中的直接标识符和准标识符进行处理,避免未经授权的主体无需借助其他额外信息,直接根据这些标识内容便可以识别出原始信息主体或相关标识符。2.控制被识别风险数据清洗、去标识化、匿名化业务规程(试行)13将去标识化后的数据可能被未经授权的主体再次识别的风险控制在可接受的范围内,确保标识符暴露的风险不会因数据接收方之间的潜在串通或新数据的增加而增加。3.兼顾数据效用目标有效平衡数据的安全性和可用性,选择合适的去标识化模型和技术,确保去标识化后的数据尽量满足数据开发利用的预期目的和效用,在数据安全前提下最大发挥去标识化数据应用价值。(二)处理流程(二)处理流程数据去标识化的流程通常包括确定去标识化对象、制定去标识化目标和计划、识别相关标识符、对标识符进行处理、验证审核处理结果、评估重新标识风险六个步骤。1.确定去标识化对象组织对于自身合法取得、合法持有,并实际控制的数据,应当基于外部和内部的多方面因素的考量确定需要进行去标识处理的数据范围。(1)法规标准要求根据国家、地区或行业的相关政策、法律、法规等的强制性规定,判断待收集、存储、使用、加工或向第三方提供的数据是否涉及去标识化的相关要求。例如,个人信息保护法第 51 条要求,个人信息处理者应当采取加密、去标识化等安全技术措施,防止未经授权的访问以及个人信息泄露、篡改、丢失。数据清洗、去标识化、匿名化业务规程(试行)14(2)组织策略要求根据自身数据管理要求,或者按照与相关合作方约定,判断数据进行内外部应用时是否需要进行去标识化处理。例如,将个人信息对外展示时,参考GB/T 352732020 信息安全技术 个人信息安全规范,涉及通过界面展示个人信息的(如显示屏幕、纸面),个人信息控制者宜对需展示的个人信息采取去标识化处理等措施,降低个人信息在展示环节的泄露风险。(3)数据来源方要求根据数据采集时是否存在对数据来源方等作出了去标识化的相关承诺或约定,判断对数据进行加工或向第三方提供时是否需要进行去标识化处理。例如,组织已在产品隐私政策中声明,将用户个人信息用于对外提供学术研究或描述的结果时,承诺对结果中所包含的个人信息进行去标识化处理。2.制定去标识化目标均衡数据安全性和可用性两方面需求,确定数据去标识化处理需要达到的效果。(1)明确标识被识别风险的控制要求分析数据的来源、性质、类型,梳理待处理数据是否涉及法律法规要求和相关承诺,结合去标识化后数据的主要用途和使用范围,考虑可能采用的去标识化模型和技术的应用方向及能力,综合评价组织对相关标识符和准标识符被重新识别的风险的不可接受程度。(2)明确满足数据可用性的最低要求数据清洗、去标识化、匿名化业务规程(试行)15结合数据去标识化后的用途,评估相关技术方法的应用对初始数据的改造程度,分析数据去标识化后对业务活动的可能影响,提出数据有用性的最低要求。3.识别相关标识符根据去标识化的目标,针对需要去标识化的数据,识别出需要进行处理的直接标识符和准标识符。组织可以通过以下方法识别:(1)查表识别组织通过预先建立标识符元数据索引表,待具体识别时,将待识别数据的各个属性名称或字段名称,逐个与元数据表中的标识符进行比对。标识符元数据索引表应当包括标识符名称、含义、格式要求、常用数据类型、常用字段名称等信息。查表识别法适用于数据集格式和属性相对明确的去标识化场景。(2)规则判定组织通过总结可能涉及直接标识符和准标识符的数据格式和规律,确立相关标识符识别规则,然后通过运行软件程序,自动化地从数据集中识别出标识数据。结构化数据和非结构化数据的标识识别均可适用规则判定法。如通过建立身份证号识别规则,识别非结构化存储的司法判决书中的身份证号。(3)人工分析在必要场景下,组织通过人工发现和确定数据集中的直接标识符数据清洗、去标识化、匿名化业务规程(试行)16和准标识符。人工分析法适用性较强,当数据集中有特别含义的数据,或数据具有特殊值、容易引起注意的值,或者数据集中的多个不同数据子集之间存在关联、引用关系时,人工分析可以针对性地识别和分析。4.对标识符进行处理对数据集进行去标识化前,应当先通过数据清洗,形成规范化或满足特定格式要求的数据。在此基础上,针对不同特征和处理要求的数据类型,考虑去标识化的影响,在可接受的被重新识别风险范围内尽量满足数据可用性的最低要求,选取有效的去标识化技术方法和模型进行处理。具体可参考本节“(三)常见技术方法”。技术选择需要考量相关因素包括:数据是否可以删除,是否需要保留至少若干个类别的数据项;去标识后的数据是否需要保持唯一性、可逆性,是否需要保持原有的数据格式、表达顺序、统计特征等;是否可以对属性值实施随机噪声添加;以及运用该去标识化技术的成本考量、可承受的重新标识风险范围和业务影响等。5.验证数据处理结果对数据去标识化结果进行验证,确保处理后的数据在安全性和可用性方面符合预设要求。(1)安全性验证验证经去标识化处理后数据的安全性,确保所生成数据被重新识别的风险在组织预设的可接受风险范围内。组织可以通过检查生成的数据结果、检查去标识化过程及记录、开展入侵者测试等方式验证去数据清洗、去标识化、匿名化业务规程(试行)17标识化数据的安全性。(2)有用性验证分析去标识化后的数据对于预期应用和业务的影响,判断处理后数据的质量是否还能满足预期业务用途。组织可以对原始数据和去标识化后数据分别执行统计计算,并对计算结果进行比较,判断去标识化后的计算结果是否仍可接受。6.评估被识别风险对去标识化后的数据进行标识符被识别的风险进行评估,与预期可接受的风险阈值进行比较。若风险超出阈值,需继续进行调整直到满足要求。标识符被识别风险评估常见的流程包括评估准备、定性评估、定量评估、形成评估结论等环节,组织可借鉴GB/T 42460-2023信息安全技术 个人信息去标识化效果评估指南进行流程设计。按照标识符被识别的风险从高到低,可以将相应的风险阈值划分为高风险、较高风险、可控风险、低风险 4 个等级。高风险(4 级):能直接识别主体或敏感属性的数据,即包含直接标识符的数据;较高风险(3 级):仅消除直接标识符的数据,即删除了直接标识符,但仍包含准标识符的数据;可控风险(2 级):消除直接标识符和准标识符的数据,即对直接标识符和准标识符均进行了处理,在不借助额外信息的情况下,无法识别或关联识别个人信息主体或特定标识内容;低风险(1 级),不再保留个体颗粒度的聚合数据,如总计数、最大值、最小值、平均值等。数据清洗、去标识化、匿名化业务规程(试行)18(三)常见技术方法(三)常见技术方法本报告将仍保留原始数据个体颗粒度的技术类型,纳入去标识化技术方法范畴。部分技术方法参考了GB/T 37964-2019 信息安全技术 个人信息去标识化指南。组织根据需要选择相应的去标识化技术,常见的去标识化技术包括数据抽样技术、加解密技术、假名化技术、抑制遮盖技术等,不同技术之间可以结合使用。1.数据抽样技术数据抽样是通过选取数据集中有代表性的子集来对原始数据集进行分析和评估。对数据集进行随机抽样能够增加识别出特定标识符的不确定性,可以作为后续应用其他技术强化去标识化效果的初步处理。数据抽样的方式较多,需要根据数据集的特点和预期的使用场景进行选择,包括随机抽样、等距抽样、分层抽样、整群抽样等。2.加解密技术加解密技术是指利用算法对数据进行加密和解密操作,以密码学为基础构建加密函数,输入敏感数据和相关标识符,输出处理后的加密隐藏数据。同时在有需要的时候,可以对数据进行解密操作,即在拥有密钥的条件下,可以对标识符进行复原。常见的数据加密方法包括确定性加密、保序加密、保留格式加密、同态加密等。确定性加密:指通过确定性加密结果替代数据中的标识符值。确定性加密是一种非随机加密方法,可以保证数据真实可用,一定程度上保证数据在统计处理、隐私防挖掘方面的有用性,也可以生成用于数据清洗、去标识化、匿名化业务规程(试行)19精准匹配搜索、数据关联及分析的微数据。对确定性加密结果的分析多用于检查数据值是否相等。保序加密:指通过保序加密值替代微数据中的标识符值。保序加密同样是一种非随机加密方法,密文的排序与明文的排序相同。对保序加密结果的分析多用于检查数据是否相等和排序关系比较。保留格式加密:指加密过程要求密文与明文具有相同的格式,可用保留格式加密值替代微数据中的标识符值。保留格式加密可以保证加密后的数据具有与原始数据相同的格式和长度,有助于在不需要修改应用系统匹配格式的情况下实现去标识化。同态加密:指将原始数据加密后,对得到的密文进行特定的运算,得到的计算结果等价于基于原始明文数据直接进行相同计算所得到的数据结果。同态加密是一种随机加密,对经过同态加密的数据进行处理得到相同的输出结果,处理过程不会泄露任何原始内容。3.假名化技术假名化技术是指使用虚构的名称或数值,替换原始数据的直接标识符或准标识符的过程。假名化技术保留了原始数据的唯一性特点,也被称为编码。不同数据在假名化处理后依然可以进行关联,并且不会泄露原始标识符。当需要唯一区分数据值并且没有保留关于原始属性的直接标识符的字符或任何其他隐含信息时,可以使用假名化技术。假名可以独立生成或借助密钥编码生成。独立生成假名:即不依赖于被替代的原始值,生成独立于标识符的假名创建技术,如使用随机值代替标识符原始值。组织需要创建假数据清洗、去标识化、匿名化业务规程(试行)20名与原始标识的分配表,并采取适当的技术与管理措施限制和控制对该分配表的访问。基于密钥的假名编码:即基于密码技术的标识符派生假名创建技术,通过对属性值采用加密或散列等密码技术生成假名,也被称为对标识符进行“密钥编码”。其中加密技术生成的假名可以用合适的密钥及对应的算法解密。4.抑制遮盖技术抑制遮盖技术即对需要进行处理的标识符或数据项进行删除或屏蔽。抑制技术主要适用于分类数据,可用于数值与非数值数据属性,执行相对容易,通过直接删除或屏蔽降低关联识别的风险,且可以保持数据的真实性,但会造成一定程度的信息缺失。但过多的抑制会影响数据的效用,为保证数据的可用性,组织需要对抑制的数据项数量和范围设定上限。抑制遮盖需要是永久性的,而不仅仅是“隐藏”功能,如果底层数据仍然可访问或编辑,则未达到抑制遮盖效果。根据抑制方式的差异,抑制遮盖技术可以分为直接删除或字符掩码屏蔽。直接删除:即从数据集中直接删除相关标识符,或删除标识符中的部分属性或内容,或者删除涉及特定属性标识符的数据记录。字符掩码:通过使用一致的符号(例如“*”或“x”)来替换原数据标识符或标识符中的部分数值。区别于仍具有唯一性的假名,进行同一属性的数值所替换的字符掩码均为相同,具有一致性。数据清洗、去标识化、匿名化业务规程(试行)21五、数据匿名化规程(一)处理目的(一)处理目的1.促使标识难以复原数据匿名化处理是数据去标识化后应用相关技术使相关标识符难以复原的过程,是数据去标识化的进一步处理。与数据去标识化相比,经匿名化处理后的数据即便借助了额外信息也难以识别特定自然人和已被处理的标识符。2.符合风险可接受水平任何数据均有被复原的可能。数据匿名化处理并非追求完美、绝对的匿名化状态,强调的是运用匿名化技术将原始数据相关标识符的可识别性降低到监管和组织可接受的风险水平。如果信息主体和相关标识符的识别需要不合理的时间、努力或资源,则不视为是可复原的。3.支持统计、训练用途经匿名化处理的数据,数据颗粒度、精确度受到影响,不再保留个体数据记录。例如,经匿名化处理的个人信息,不再属于个人信息范畴。与基于个体特征识别的用户画像、设备定位等用途不同,对数据匿名化处理主要为了支撑统计分析、算法训练、科学研究等场景。(二)处理流程(二)处理流程数据匿名化的流程通常包括明确匿名化处理对象、设定匿名化处理目标、先行去标识化处理、实施数据匿名化处理、评估匿名化效果、定期追踪复原风险六个步骤。数据清洗、去标识化、匿名化业务规程(试行)221.确定匿名化对象根据法律要求和业务用途,确定需要进行匿名化处理的数据类型和范围。(1)按照监管要求确定处理对象例如,组织遵照汽车数据安全管理若干规定(试行)要求,因保证行车安全需要,在无法征得个人同意采集到车外个人信息且需要向车外提供时,对相关数据进行匿名化处理,包括删除含有能够识别自然人的画面,或者对画面中的人脸信息等进行局部轮廓化处理等。(2)遵循最小必要原则确定处理对象例如,征信机构按照征信业务管理办法规定,在个人不良信息保存期限届满时,将个人不良信息在对外服务和应用中删除;作为样本数据继续使用的,进行匿名化处理。(3)履行约定或承诺义务确定处理对象例如,组织按照 GB/T 35273-2020 信息安全技术 个人信息安全规范规定,在相关数据超出个人信息约定的存储期限或达成处理目的后,以及组织停止运营其产品或服务时或用户注销账户时,对个人信息进行删除或匿名化处理。(4)基于业务开展需要确定处理对象例如,国家卫生健康委等四部门发布的涉及人的生命科学和医学研究伦理审查办法中,将“使用匿名化的信息数据开展研究”作为“免除伦理审查”的情形之一,组织为减少科研业务不必要的合规负担,使用匿名化数据开展涉及人的生命科学和医学研究。数据清洗、去标识化、匿名化业务规程(试行)232.设定匿名化目标满足安全性要求是数据匿名化处理的首要目标。组织应结合业务场景和安全防护管理要求,根据数据的性质、使用环境和使用的匿名化技术等,结合匿名化数据的主要用途和使用场景,对标识符被复原的可能性进行分析,评估相应的风险,设定可被组织和监管部门接受和认可的风险阈值。3.先行去标识化处理组织应将去标识化作为匿名化处理的一部分执行,结合前述数据去标识化业务规程,识别相关直接标识符和准标识符,针对性进行去标识化处理,先行满足数据的“不可识别性”要求,达到数据在不借助额外信息的情况下无法直接识别特定自然人或相关标识符的效果,为后续的匿名化操作奠定基础。4.实施匿名化处理组织针对已去标识化的数据应用匿名化技术,使未获得授权主体不能轻易地将该数据与可能包含额外信息的其他数据相结合,从而难以复原特定自然人信息或相关标识符。不同匿名化技术的技术特点不同,选择处理技术时,应当结合数据类型和性质、业务场景、处理目的等进行综合考量,相关技术具体可参考本节“(三)常见技术方法”。选择匿名化技术过程中需要考虑以下因素:一是考虑所采用的匿名化技术进行处理后数据是否仍满足预期效用。匿名化处理可能对原始数据格式、数值和表达方式进行较大变动,将对原始数据的保真性、颗粒度形成较大影响。数据清洗、去标识化、匿名化业务规程(试行)24二是考虑将相关匿名化技术和去标识化技术组合使用,形成系统性匿名化处理方案。例如,如果某个属性类别的数值直接删除不会影响数据效用,可以选择抑制遮盖技术对相关数据项予以删除处理。三是考虑不同匿名化技术的适用场景。结合技术特点和目标要求选择相应技术。如针对连续值属性的数据可以采用噪声添加、数据扰动等随机化技术,针对无需体现个体数据记录的情形可以采用聚合统计等技术。同时,针对同一场景或同一数据类型的匿名化处理,也可多种匿名化技术结合使用。5.评估匿名化效果组织应用适当的匿名化技术后,应当对匿名化处理的效果进行分析评估。计算标识符被复原或重新标识风险的方法需要综合考虑数据因素和环境因素。GB/T 42460-2023 信息安全技术 个人信息去标识化效果评估指南提供了“基于 K 匿名模型的重标识风险计算方案及评估事例”,可供组织借鉴参考。k-匿名值是一种计算数据集重新识别风险水平的方法,指数据集中可以分组在一起的相同记录的最小数量。在评估数据集的总体重新识别风险时,通常采用最小值来表示最坏情况。k-匿名值较高意味着重新识别的风险较低,k 匿名性值较低意味着风险较高。K-匿名值为1 表示记录是唯一的。k-匿名值需要结合实际场景、处理目标和安全等级要求进行具体设定。在可能的情况下,应设置更高的 k-匿名阈值,以最小化任何重新识别风险。需注意,k-匿名可能不适用于所有类型的数据集或其他复杂情形。数据清洗、去标识化、匿名化业务规程(试行)256.定期追踪复原风险组织应当定期追踪内外部相关主体对匿名化处理数据的使用情况,评估新技术、新数据、新主体的引入可能带来的标识符被复原的新隐患,考虑数据的流通范围、可能的技术演变等,以及未知的跨库数据可能导致与匿名数据集匹配的情形,进而采取适当措施保护相关标识符免受复原识别和披露的风险。(三)常见技术方法(三)常见技术方法本报告将不再保留原始数据个体颗粒度,或原始数据记录真实性已受到显著减损,或原始数据记录不对外披露的技术类型,纳入匿名化技术方法范畴。部分技术方法参考了GB/T 37964-2019 信息安全技术 个人信息去标识化指南。组织可结合具体场景单独或组合选用聚合统计、泛化、随机化、数据合成、隐私计算等技术进行处理。1.聚合统计技术聚合统计技术指将数据集从记录列表转换为汇总值或相关统计值的方法,可以视为求和、计数、平均、最大值与最小值等一系列统计技术的集合。由于聚合统计技术的输出是“统计值”,该值有利于对数据进行整体报告或分析,产生的结果能够代表原始数据集中的所有记录,且不会披露任何个体记录,很大程度上降低了个体的标识符被重新识别的风险。当组织不需要单独的数据记录且聚合数据足以满足预期效用时可以采用聚合统计技术。例如,2022 年我国 18-80 岁女性平均体重 59.8kg,如果以平均体重来标识数据集中每个人的体重值,则未获得授权主体无法根据体重数据清洗、去标识化、匿名化业务规程(试行)26属性将某一条数据记录(女,北京,1.63m,59.8kg,1990 年 9 月 1日)关联到特定个人。使用聚合统计技术应注意两方面的应用要求:一是数据聚合统计可能会显著改变数据的初始用途,因为输出的结果为统计值,无法反映每一单独数据记录的特征;二是应用聚合统计技术对原始数据的样本量具有一定要求,若原始数据记录的数量很少,则结合其他数据容易推断出其中具体的单独数据记录的特征。2.泛化技术泛化技术也是一种概括方法,又被称为离散化处理,是通过降低数据所选属性的颗粒度、精度,对数据进行更概括、抽象描述的匿名化技术。使用泛化技术的目标是减少属性唯一值的数量,使得被泛化后的值被数据集中多个记录所共享,从而增加某个特定数据记录被推测出的难度。例如,将一个人的年龄转换为年龄范围,或将精确位置转换为不太精确的位置。数据泛化的程度需要均衡预期目的和风险控制两方面要求。数据范围过大可能意味着数据效用的显著损失,数据范围过小可能意味着几乎不修改数据,特定数据记录仍然很容易重新识别。常见的泛化方法包括取整、顶层与底层编码等。取整:即为数值型标识符选定一个取整基数,然后将每个具体值向上或向下取整至最接近取整基数的倍数。向上还是向下取整按概率确定,该概率值取决于观察值与最接近取整基数倍数的接近程度。例如,如果取整基数为 10,观察值为 7,应将 7 向上取整至 10,概率数据清洗、去标识化、匿名化业务规程(试行)27为 0.7,若向下取整至 0,概率为 0.3。同时还可以按要求进行受控取整,如确保取整值的求和结果与原始数据的求和取整值相同。顶层与底层编码:即为数值型标识符设定一个可能的取值范围,用高于或低于所设定的临界值的描述替换某一特定数据记录在该属性上的具体数值,主要适用于连续或分类有序的数据类型。例如,将某一员工的薪水值设置为“高于 10000 元”,其中“10000”为高收入值的界限,而不记录准确的金额。3.随机化技术随机化技术指通过随机修改数据属性的值,使得随机化处理后的值区别于原来的真实值。随机化技术降低了未经授权主体从同一数据记录中根据其他属性值推导出某一属性值的能力,会对原始数据记录的真实性造成一定影响。常见的随机化技术有数据扰动、数据置换等。数据扰动:又称噪声添加,即通过添加随机值来修改数据中的值,同时尽可能保持该属性在数据集中的原始统计特性,包括属性的分布、平均值、方差、标准偏差、协方差以及相关性。数据扰动的程度应当控制在一定范围内容,如果扰动程度太小,匿名化效果较弱;如果扰动程度太大,最终值将与原始值相差太大,数据集的效用可能会降低。数据扰动通常用于数值型标识符,例如对日期前后随机 /-3 个自然日。数据置换:相当于一种洗牌,即重新排列数据属性中的标识符,使之无法与原始记录对应,但各个属性的值仍在数据集中表示,保持了原有数据集中所选属性整体的准确统计分布。数值型标识符和非数值型标识符均可使用数据置换技术。在保持所选属性之间原有相关性数据清洗、去标识化、匿名化业务规程(试行)28的情况下,置换算法可用于单个或多个属性。例如,对姓名进行假名化处理后,对职位、性别、年龄等进行乱序重排。4.数据合成技术数据合成技术是显著修改原有数据的所有属性,重新合成产生新的微数据的方法。合成数据集与原始数据的特征相符,可根据所选的统计特性随机生成,但不会体现原始数据的任何特定记录。但若是合成后数据与原始数据的拟合度过高可能会存在被关联识别风险。通常合成数据的生成会在假名化的基础上,采用随机化技术与抽样技术对真实数据集进行多次或连续转换。合成数据通常适用于应用程序开发、测试和应用,将其作为真实数据的替代项,帮助数据开发主体获得与基于真实数据的处理同样的效果。5.隐私计算技术隐私计算技术是指在保护数据本身不对外泄露的前提下实现数据分析计算的技术集合,通过对所涉及的隐私信息进行描述、度量、评价和融合等操作,形成一套符号化、公式化且具有量化评价标准的隐私计算方法,达到对数据“可用不可见”的目的。目前主流的隐私计算技术主要分为三大方向:一是以多方安全计算为代表的基于密码学的隐私计算技术;二是以联邦学习为代表的人工智能与隐私保护技术融合衍生的技术;三是以可信执行环境为代表的基于可信硬件的隐私计算技术。多方安全计算:是指在无可信第三方的情况下,多个参与方共同计算一个目标函数,在不泄露己方数据的同时完成数据计算,并且保数据清洗、去标识化、匿名化业务规程(试行)29证每一方仅获取自己的计算结果,无法通过计算过程中的交互数据推测出其他任意一方的输入数据。多方安全计算通常应用于联合数据分析、数据可信交换、分布式投票、隐私竞标和拍卖、黑名单安全查询、数据库检索等场景。联邦学习:是指实现在本地原始数据不出库的情况下,各方通过对中间加密数据的流通、参数交换和处理,共同建立虚拟的共有模型,完成多方联合的机器学习训练。联邦学习可以从技术上有效解决数据孤岛问题,让参与方在不泄露各自拥有的用户数据的基础上,实现联合建模和 AI 协作,加速隐私计算在不同场景的应用与落地。根据参与方的数据分布和特征重叠情况的不同,可以分为横向联邦学习、纵向联邦学习和联邦迁移学习。可信执行环境:是指将需要保护的数据和代码存储在可信执行环境中,即通过软硬件方法在中央处理器中构建一个安全的区域,对这些数据和代码的任何访问都必须通过基于硬件的访问控制,防止它们在使用中未经授权被访问或修改,从而保证其内部加载的程序和数据在机密性和完整性上得到保护。可信执行环境是一种硬件解决方案,安全性较高,但运维成本相应上升,多用于本地和远程验证场景。六、数据处理环境要求(一)管理制度要求(一)管理制度要求组织应当遵守法律法规及强制性标准的相关要求,衔接自身数据管理制度,制定数据清洗、去标识化、匿名化处理各环节的审批流程,推进数据分类分级管理,梳理特殊数据类型的内、外部特别管理要求,数据清洗、去标识化、匿名化业务规程(试行)30在此基础上细化数据清洗、去标识化、匿名化处理的权限要求和操作规范,并嵌入组织内部管理机制。(二)技术能力要求(二)技术能力要求组织应当强化数据处理的基础技术保障,具备数据收集、存储、加工、分析、挖掘和安全防护的各类技术工具,具有安全、便捷、高效的技术应用系统和可信环境,熟知数据清洗、去标识化、匿名化处理的常见技术方法和应用特点,结合业务场景和内外部要求,统筹组合形成平衡数据安全要求和业务应用目的的有效数据处理技术方案。(三)人员能力要求(三)人员能力要求组织应当提升内部人员的数据处理能力和安全防护水平,明确各岗位数据合规职责和数据处理权限要求,定期组织数据处理技能培训和安全合规教育,要求参与数据清洗、去标识化、匿名化处理的人员应当具备相应的数据处理能力,严格按照数据安全管理制度和流程进行操作。必要情况下,组织可以寻求第三方技术服务机构、法律服务机构、审计咨询机构、数据安全防护机构、检测认证机构等协助提供技术能力和业务合规支持。(四)过程控制要求(四)过程控制要求组织应当推进数据处理过程的实时可控和动态审计,采取措施清晰记录数据清洗、去标识化、匿名化处理过程的细节、使用的参数和执行情况,监控审查去标识化各步骤实施过程,及时发现已经出现或可能出现的错误或偏差,有效采取措施进行纠正和防护,并对监控审查过程进行记录,便于日后审查、维护、回溯和审计。同时加强对第数据清洗、去标识化、匿名化业务规程(试行)31三方接收者的数据授权和授权跟踪管理,采取技术保障措施和商业流程防范去标识、匿名化数据的再识别和意外泄露。(五)事故管理要求(五)事故管理要求组织应当完善数据处理风险和安全事件管理机制,做好数据风险识别、风险评估、风险处置等工作,制定并实施数据安全事件应急预案,针对不同等级的风险采取针对性的风险处置措施,关注涉及数据标识符、数据映射表、匿名化处理记录表等信息的泄露风险,防范恶意重新标识行为。发生数据泄露、篡改、丢失等安全事件的,应当立即采取补救措施,及时通知管理机构并按规定告知相关数据主体。附件一:常见直接标识符和准标识符示例附件二:常见标识符的去标识化或匿名化参考附件三:部分数据处理技术方法应用建议数据清洗、去标识化、匿名化业务规程(试行)32附件一:常见直接标识符和准标识符示例(一)直接标识符示例(一)直接标识符示例直接标识符通常表现为在特定环境下可以单独识别特定自然人或数据所描述特定对象的识别号码、特征或代码。需注意,标识符的识别难度并不与数据的敏感程度直接挂钩。本报告分别列举了个人数据、企业数据、物联网数据的部分直接标识符示例,常见的直接标识符包括但不限于:类型类型序号序号常见直接标识符常见直接标识符个人数据1姓名2公民身份号码3护照号4工作学习编号,包括工号、学号等5电话号码6传真号码7银行账户8驾照号9车牌号10社会保障号码11健康卡号码12病历号码13网络账号、昵称等14网络身份标识号(ID)15个人移动终端设备标识符16详细住址17电子邮件地址18个人行踪轨迹数据清洗、去标识化、匿名化业务规程(试行)3319生物识别码,包括指纹和声纹等识别码20全脸图片图像及其他任何可比对的图像企业数据1组织机构名称2营业执照编号3统一社会信用代码4法定代表人姓名5税务登记证号6社会保险登记证号码7统计登记证号码8银行账户信息9组织许可证号10企业注册地址11网络和系统账号信息12网站标识码,互联网协议(IP)地址号13网络通用资源定位符(URL)14合同编号15商业发票编号物联网数据1设备标识符和序列号2设备位置信息3设备使用记录4设备故障或警报记录5商品条码6货运设备识别码7集装箱识别代码8医疗器械唯一标识(UDI)9数字版权唯一标识符(DCI)10气象数字对象标识符(MOID)数据清洗、去标识化、匿名化业务规程(试行)34(二)准标识符示例(二)准标识符示例准标识符通常指在相应环境下无法单独识别特定自然人或数据所描述的特定对象,但结合其它信息可以进行识别的属性、号码、特征或代码。本报告分别列举了个人数据、企业数据、物联网数据的部分准标识符示例,准标识符范围较广,常见的准标识符包括但不限于:类型类型序号序号常见准标识符常见准标识符个人数据1性别2出生日期或年龄3事件日期(例如入院、手术、出院、访问相关日期)4地理范围(例如邮政编码、建筑名称、地区)5血型、身高、体重等体征6疫苗接种状态、病史等健康状况7国籍、籍贯8族裔血统、民族9宗教信仰10语言11职务、工作单位、部门等职业信息12婚姻状况13受教育水平14学习、工作年限15收入状况企业数据1组织设立时间2组织信用评级3资产设备情况4员工情况5客户分布6产品类型数据清洗、去标识化、匿名化业务规程(试行)357供应链渠道8营收情况9系统日志10工艺参数物联网数据1传感节点标识信息2环境参数信息(温度、湿度、气压、风速、光线等)3设备规格信息4设备健康状态5生产日期6检验日期数据清洗、去标识化、匿名化业务规程(试行)36附件二:常见标识符的去标识化或匿名化参考去标识化和匿名化的相关技术和方法没有严格界分,匿名化技术抗重新识别的风险能力相对更高。组织可以根据相关技术特点统筹组合使用,形成平衡数据安全要求和业务应用目的的有效数据处理方案。本报告借鉴GB/T 37964-2019 信息安全技术 个人信息去标识化指南列举了部分标识符的去标识化或匿名化参考,更多标识符的处理方法组织还可以参考该标准附录 C“去标识化模型和技术的选择”。标识符标识符去标识化或匿名化方法参考去标识化或匿名化方法参考姓名姓名假名化。假名化。构建常用人名字典表,并从中选择一个来表示,如先构建常用的人名字典表,包括龚小虹、黄益洪、龙家锐等,假名化时根据按照顺序或随机选择一个人名代替原名。如使用“龚小虹”取代“张三丰”。加解密技术。加解密技术。采用密码或其他变换技术,将姓名转变成另外的字符,并保持可逆特性。如使用密码和字符编码技术,使用“SGIHLIKHJ”代替“张三丰”,或使用“Fzf”代替“Bob”。抑制遮盖。抑制遮盖。直接删除姓名或使用统一的“”来表示。如所有的姓名都使用“*”代替。泛化编码。泛化编码。使用概括、抽象的符号来表示,如使用“张先生”来代替“张三”,或使用“张某某”来代替“张三”。随机化替代。随机化替代。使用随机生成的汉字来表示,如使用随机生成的“辰筹猎”来取代“张三丰”。身份证号身份证号加解密技术。加解密技术。采用密码或其他变换技术,将身份证号转变成另外的字符,并保持可逆特性。如使用密码和字符编码技术,使用“SF39F83”代替“440524188001010014”。部分抑制遮盖。部分抑制遮盖。屏蔽身份证号中的一部分,以保护个人信息。如“440524188001010014”可以使用“440524*0014”数据清洗、去标识化、匿名化业务规程(试行)37“440524188*0014”代替。上述方法可分别用在需保密出生日期、保密出生日期但允许对数据按时代统计分析等场景。全部抑制遮盖。全部抑制遮盖。直接删除身份证号或使用统一的“*”来表示。如所有的身份证号都使用“*”代替。数据合成。数据合成。采用重新产生的数据替代原身份证号,如使用数据集中的记录顺序号替代原身份证号,或随机产生符合身份证号编码规则的新身份证号代替原始值。电话号码电话号码加解密技术。加解密技术。采用密码或其他变换技术,将电话号码转变成另外的字符,并保持可逆特性。如使用密码和字符编码技术,使用“15458982684”代替“1988888888”。部分抑制遮盖。部分抑制遮盖。屏蔽电话号码中的一部分,以保护号码信息。如“19888888888”可以使用“198*”“198*8888”代替。全部抑制遮盖。全部抑制遮盖。直接删除电话号码或使用统一的“*”来表示。如所有的电话号码都使用“*”代替。随机化替代。随机化替代。使用随机生成的一串数字来表示,如使用随机生成的“2346544580”来取代“19888888888”。企业合同编号企业合同编号部分抑制遮盖。部分抑制遮盖。为了便于合同管理,企业合同编号通常由合同类型、发起部门、区域字母、签订日期、随机数字等部分组成。向不具备特定权限的员工披露合同信息时,可以将企业合同编号 中 的 一 部 分 或 多 部 分 屏 蔽。如 将 劳 动 合 同“LD-RL-BJ-20200701-A3”中的区域字母、日期中的月份、随机数字屏蔽,使用“LD-RL-*-2020*-*”替代。聚合统计。聚合统计。采用相关统计值代表原始数据记录,反映合同签订情况。如对企业 2020 年签订的设备采购类合同进行统计,转化为 2020 年某业务部门签订北京区域的采购合同 18 项。地址地址部分抑制遮盖。部分抑制遮盖。屏蔽地址中的一部分,以保护地址信息。如使用“江西省 XX 市 XX 县”来代替江西省吉安市安福县”全部抑制遮盖。全部抑制遮盖。直接删除姓名或使用统一的“*”来表示。如数据清洗、去标识化、匿名化业务规程(试行)38所有的地址都使用“*”代替。泛化编码。泛化编码。使用概括、抽象的符号来表示,如“江西省吉安市安福县”使用“南方某地”或“J 省”来代替。数据合成。数据合成。采用重新产生的数据替代原地址数据。如使用“黑龙江省鸡西市特铁县北京路 23 号”代替“江西省吉安市安福县安平路 1 号”。环境参数信息环境参数信息部分抑制遮盖。部分抑制遮盖。对室外传感器设备采集的温度、风速信息予以屏蔽,只显示湿度、气压、光线等信息,使其无法辨识是哪一特定位置传感器采集的环境参数。泛化编码。泛化编码。降低室外传感器设备采集的温度、湿度等信息精度,为其设置一定阈值,如温度30,空气相对湿度低于 70%。聚合统计。聚合统计。采用相关统计值代表原始数据记录。如将某地过去30 日每天的温度、风速记录,转化为某地上月平均气温 30,风力8 级的日数为 5 天。日期日期部分抑制遮盖。部分抑制遮盖。对日期中的一部分做屏蔽,如 1880 年某月 1日代替 1880 年 1 月 1 日。全部抑制遮盖。全部抑制遮盖。直接删除日期数据或使用统一的“”来表示。如所有的数值都使用“某年某月某日”代替。泛化编码。泛化编码。使用概括、抽象的日期来表示,如使用 1880 年代替 1880 年 1 月 1 日。随机化随机化-数据置换。数据置换。使用数据集中其他记录的相应数值代替本记录的数值。如设定规则,将记录集中的所有的日期数据取出并全部打乱位置后(其他属性数据位置不变)放回到原数据集中。这种方法有利于保持数据集的统计特性。随机化随机化-数据扰动(噪声添加)。数据扰动(噪声添加)。将相对微小的随机数,加到原始数值上并代替原始数值。如对于出生日期 1880 年 1 月 1 日,产生随数值 32 天,加到原始数值后将其变为 1880 年 2 月 2 日。数据合成。数据合成。采用重新产生的数据替代原日期数据,如使用“1972年 8 月 12 日”代替“1880 年 1 月 1 日”。数据清洗、去标识化、匿名化业务规程(试行)39数值型标识符数值型标识符部分抑制遮盖。部分抑制遮盖。使用数值的高位部分代替原有数值,如百分制考试成绩全部使用去掉个位数、保留十位数的数值代替。全部抑制遮盖。全部抑制遮盖。直接删除数值或使用统一的“*”来表示。如所有的数值都使用“*”代替。聚合统计。聚合统计。使用概括、抽象的符号或统计数值来表示,如“有4 个人,分别是蓝色、绿色和浅褐色的眼睛来代替有 1 个人是蓝色眼睛,2 个人是绿色的眼睛,1 个人是浅褐色的眼睛。泛化泛化-顶层和底层编码。顶层和底层编码。大于或小于一个特定值的处理成某个固定值。例如,年龄超过 70 岁的一律用“大于 70 岁”描述,以保障满足此条件的人数多于 20 000 人。随机化随机化-数据置换。数据置换。使用数据集中其他记录的相应数值代替本记录的数值。如设定规则,将记录集中的所有的身高数据取出并全部打乱位置后(其他属性数据位置不变)放回原数据集中。这种方法可以保持数据集的统计特性不变。随机化随机化-数据扰动(噪声添加)。数据扰动(噪声添加)。相对原始数据,产生微小的随机数,将其加到原始数值上并代替原始数值。如对于身高1.72m,产生随机数值-0.11m,加到原始数值后将其变为 1.61m。数据合成。数据合成。采用重新产生的数据替代原始数据,数据产生方法可以采用确定性方法或随机性方法。如使用“19”岁年龄代替“45”岁年龄。联邦学习。联邦学习。如在第三方服务商协调下,某地银行和商超在本地数据不出库情况下通过中央服务器进行联合建模,银行基于掌握的交叉用户性别、年龄数据,匹配该用户在商超的购物频次、消费金额等数据,预测该用户的信用情况。商超基于掌握的交叉用户购物频次、消费金额数据,匹配该用户在银行记录的性别、年龄数据,形成不同性别、不同年龄段用户的消费偏好,辅助产品销售。数据清洗、去标识化、匿名化业务规程(试行)40附件三:部分数据处理技术方法应用建议为向相关组织提供具体技术的选取参考,本报告就常见的和正在积极推动落地的部分数据处理技术进行介绍。部分技术实现简单易操作,但难以单独解决复杂问题。部分技术理论可行,但落地场景需要持续拓展,商用化程度还需提高。相应技术的具体适用方案组织可以向相关技术提供方咨询。技术方法技术方法技术特点技术特点适用场景适用场景应用限制应用限制应用现状应用现状同态加密同态加密对原始数据进行加密,使得加密数据和原始数据进行相同处理时,结果相同。可在不解密情况下对密文进行计算和分析医 疗 数 据 模型构建、电子商务验证、隐私 数 据 求 交集和检索等计 算 消 耗 和性 能 要 求 较高,存储成本较高技术应用理论上可行,商用化程度还需提高抑制遮盖抑制遮盖直接删除或采用字符掩码屏蔽隐私数据或部分字段,并保证底层数据无法访问或编辑,可以保持数据的真实性主 要 适 用 于分类数据,可用 于 数 值 与非 数 值 数 据属性容 易 导 致 信息丢失,过多抑 制 会 影 响数据效用执行相对容易,日常应用较多,但需要与其他技术结合提升抗风险能力聚合统计聚合统计将个体的数据转化为求和、平均、最大值与最小值等统计值,产生的结果能够代表原始数据集的所有记录,但不会披露任何个体记录适 用 于 连 续数 据 的 整 体报告或分析,且 不 需 要 反映 每 一 单 独数 据 记 录 的特征对 个 体 特 征的分析受限,可 能 会 降 低数 据 的 有 用性;对原始数据 样 本 量 有一定要求适用场景有限,多见于整体数据披露,需结合应用目选择具体统计方法数据清洗、去标识化、匿名化业务规程(试行)41泛化泛化降低数据所选属性的颗粒度、精度,对数据进行更概括、抽象的描述,可以保护数据的真实性多 用 于 数 值处理,用于可被 概 括 处 理且 仍 对 预 期目 的 有 用 的数据需 注 意 泛 化范围的选取,过 大 可 能 过度 破 坏 数 据精确度,过小面 临 较 大 重新识别风险泛化技术实现简单,简单数据可直接用电子表格软件处理,日常数据处理中较常用随机化随机化随机修改数据属性值,使得处理后的值区别于原来的真实值,包括添加噪声数据进行扰动和置换相互间的属性值等适 用 于 需 要保 留 个 体 数据记录,并保留 所 选 属 性的 统 计 分 布特征的情形会 对 原 始 数据 记 录 真 实性造成影响,对 个 体 数 据准 确 性 有 要求 时 避 免 使用随机化技术实现简单,已得到成熟应用,在进行整体分析时较常用数据合成数据合成显著修改所有数据属性,根据原始数据的统计特性重新拟合产生新的微数据,不再保留原始数据集的数值可 作 为 原 始数 据 的 替 代项 适 用 于 应用程序开发、测试和应用如 果 合 成 后数 据 与 原 始数 据 拟 合 度过 高 可 能 会导 致 信 息 泄露在实际应用中逐渐增多,对计算能力和计算效率要求较高隐私计算隐私计算多方安全计算多方安全计算在无可信第三方的情况下,多个参与方共同计算一个目标函数,每个参与方除计算结果外不能获得其他参与方输入的任何数据通 常 应 用 于联 合 数 据 分析、数据可信交换、隐私竞标和拍卖、安全 查 询 检 索等场景具 有 去 中 心化特征,对计算 能 力 和 各参 与 方 联 合协 同 要 求 较高商用程度待提升,参与方越多,算法越复杂,计算成本越高,多数只支持两方计算,应用场景有限数据清洗、去标识化、匿名化业务规程(试行)42联邦学习联邦学习在中央服务器或服务提供商协调下,多个实体协作实现联合建模和 AI 协作,而本地原始数据不出库应 用 于 联 合数据统计、联合 机 器 学 习建模等场景需 第 三 方 参与,不同参与方的设备、数据 存 在 异 构性,需要大量协 调 和 标 准化目标受众和落地场景仍较少。算力需求高,通信网络成本高。需与区块链等技术结合可信执行环境可信执行环境通过提供一个可信的、隔离的安全区域(飞地)进行数据处理,防止数据未经授权的访问和修改多 用 于 本 地和远程验证,如 移 动 金 融支付、指纹认证、面部和声纹识别等硬 件 运 维 成本相应上升,同 时 需 要 防止 硬 件 漏 洞和 加 强 人 员及密钥管理应用场景受限,硬件依赖导致某些场景无法适用,某些设备有国产化要求数据清洗、去标识化、匿名化业务规程(试行)43参考资料1GB/T 35273-2020 信息安全技术 个人信息安全规范2GB/T 37964-2019 信息安全技术 个人信息去标识化指南3GB/T 42460-2023 信息安全技术 个人信息去标识化效果评估指南4GB/T 36344-2018 信息技术 数据质量评价指标5GB/T 38606-2020 物联网标识体系 数据内容标识符6DB52/T 1540.3-2020 政务数据 第 3 部分:数据清洗加工规范7DB31/T 1311-2021 数据去标识化共享指南8中华人民共和国全国人民代表大会常务委员会.中华人民共和国数据安全法.2021 年 6 月 10 日.9中华人民共和国全国人民代表大会常务委员会.中华人民共和国个人信息保护法.2021 年 8 月 20 日.10北京市人民代表大会常务委员会.北京市数字经济促进条例.2022年 11 月 25 日.11北京市经济和信息化局.北京市数字经济全产业链开放发展行动方案.2022 年 5 月 30 日.12ISO/IEC 2st CD 20889,Information technology-Security techniques-Privacy enhancing data de-identification techniques,June 2017.13ISO/IEC 38505,Information technology-Governance of IT-Governance of data-Part 1:Application of ISO/IEC 38500 to the governance of data,March 2017.14Personal Data Protection Commission Singapore,Guide to Basic数据清洗、去标识化、匿名化业务规程(试行)44Anonymisation.31 March 2022,https:/www.pdpc.gov.sg/-/media/Files/PDPC/PDF-Files/Advisory-Guidelines/Guide-to-Basic-Anonymisation-31-March-2022.ashx.15Article 29 Data Protection Working Party(European Commission).Opinion 05/2014 on Anonymisation Techniques.10 April 2014,http:/ec.europa.eu/justice/data-protection/article-29/documentation/opinion-recommendation/files/2014/wp216_en.pdf.
IBM 商业价值研究院|专家洞察谋定后动,强化共识聚焦主数据,全面提升数据治理能力2张玉明IBM 副合伙人,IBM Consulting 金融核心锐变团队 数据转型与创新负责人殷峻IBM Consulting 金融核心锐变团队 数据转型与创新资深咨询顾问JunY张玉明先生是 IBM 副合伙人,IBM Consulting 金融核心锐变团队数据转型与创新负责人,主要关注于金融行业数据中台、大数据战略与分析咨询、数字化战略转型、企业级数据治理及数据资产管理解决方案等方面。张玉明先生拥有超过 15 年的数据咨询与实施项目经验,领导过多个金融企业的大数据分析与人工智能技术应用、大数据应用架构、数据运营体系、业务咨询乃至系统实施项目。程倾IBM Consulting 金融核心锐变团队 数据转型与创新高级咨询顾问Qing.C程倾是 IBM Consulting 金融核心锐变团队的高级咨询顾问,她具备 5 年以上的金融行业数据战略规划、主数据、数据安全、数据标准等领域的咨询经验,为大型银行等金额机构提供数据治理、数据分析等方案及数字化转型服务。殷峻先生是 IBM Consulting 金融核心锐变团队的资深咨询顾问。他有着超过 20 年的 IT 咨询与服务的工作经历,专注于为大型金融机构提供企业数据管理以及风险管理的解决方案。他在数据管理、风险管理和数据架构方面有着广泛的知识和技能,曾担任多个数据管理、风险管理项目的关键角色,在金融行业的信息系统建设方面有着丰富的经验。主题 专家王莉IBM 商业价值研究院高级咨询经理王莉女士是 IBM 商业价值研究院的高级咨询经理,担任 IBM 全球高管调研项目和对标分析项目的大中华区项目负责人。她拥有 15 年以上的管理咨询和管理研究经验。王莉女士目前所关注的研究领域包括数字化转型、无边界企业、人工智能等,旨在帮助各行业客户创造新的商业机会、发现和传递价值。1数据治理工作的关键在于提升边际 收益不是所有的数据都具有相同的价值和重要性,通过集中精力处理关键数据,有助于解决重点和难点问题,同时优化资源分配,实现更大的治理效果和业务回报。聚焦价值主线,实现数据治理“破茧 化蝶”主数据是企业最为关键的数据,应该围绕主数据开展数据认责1,建立和完善主数据标准,同时梳理和修复管理流程的断点,从而为数据治理带来事半功倍的效果。行动指南深度优先、以点带面、协同推进。摘要谋定后动,强化共识。聚焦主数据,全面提升数据治理能力2AI 时代的达摩克利斯之剑 ChatGPT 是人工智能研究和发展的一个非凡的里程碑,面对生成式 AI 的卓越表现,CaixaBank 首席执行官 Gonzalo Gortzar 感叹“生成式人工智能模型在同一时间给我们带来了惊喜、惊叹和惊吓”2。与此同时,企业也面临加速采用生成式 AI 的巨大压力。根据 IBM 最新的调研结果2,75%的受访 CEO 认为企业的竞争优势将取决于是否拥有最先进的生成式 AI。CEO 们看到了生成式 AI 的巨大潜力,但只有 29%的高管认为组织内部已经做好了充分的准备。企业中缺乏明确的数据计算和报告流程、数据集之间的标准/格式/频率不统一、对数据源可见性较差等萦绕在管理层心头多年的数据问题,依旧是阻碍企业拥抱和开发自有生成式 AI 应用的极大障碍。实际上,在生成式 AI 出现之前,各类组织围绕数据问题已经开展了持续多年的治理。随着国际数据管理协会在 2015 年发布数据管理知识体系指南(DAMA-DMBOK)3,数据治理工作越来越多地得到企业的关注,并借鉴数据治理体系框架来提升数据处理能力和数据质量,进而推动企业的数字化转型工作。一方面,企业在数据治理的框架下,从数据架构、元数据管理、数据标准、数据模型、数据质量管理等多个方面,投入了大量的人力和资源来提升业务数据的数据质量。根据 McKinsey 的估计4,一个中等规模的金融机构每年在数据治理上的投入大约在 2000 万到 5000 万美元之间。另一方面,在作出了诸多努力和尝试后,企业面临的数据问题和挑战似乎并没有减少,治理效果与预期之间似乎总是存在差距。据 Gartner 的估算5,企业每年因为数据质量问题而需要付出平均约为 1290 万美元的额外成本。数据问题就像悬挂在数据管理者头顶的达摩克利斯之剑,在坐享数据带来的各种分析能力和深入的业务洞察的同时,还要时刻感受各类数据问题所带来的恐惧和困扰。而解决各类数据问题的成本和收益更是数据管理者不得不考虑和平衡的关键因素,毕竟企业的资源和投入都是有限的,需要在数据问题的优先级、重要性、影响性等多方面进行权衡,力争实现一举多得的工作成效。企业需要在数据问题的优先级、重要性、影响性等多方面进行权衡,力争实现一举多得的工作成效。3图 1 理想(左图)与实际(右图)的数据治理收益模型第一年 第二年 第三年 第四年 第五年 第六年 第七年 第八年 第九年 第十年理想的数据治理收益模型数据治理产生的收益数据治理的投入第一年 第二年 第三年 第四年 第五年 第六年 第七年 第八年 第九年 第十年实际的数据治理收益模型数据治理的投入数据治理产生的收益在理想的情况下,数据治理的收益模型应该是:在治理的最初阶段需要一定投入,虽然取得的效果或收益较小,但是随着全面治理的持续推进,每年只需要保持一定的投入,也许不需要增长太多,就能够在某一个时间点之后,治理产生的边际收益逐渐大于边际成本,从而带来巨大的数据治理收益(见图 1 左图)。然而,我们多年来在和诸多企业的交流过程中发现,实际的情况经常是截然相反的,那就是:在经历多年的数据治理之后,相应的数据治理投入逐年增加,但是取得的治理效果或收益却不尽如人意(见图 1 右图)。产生这样的现象有多方面原因。众所周知,数据治理是一项复杂的系统工程,涉及到数据战略、组织架构、流程优化等方方面面的调整和配合,而缺乏高层支持、权责不清、数据定义不一致等都是影响数据治理成效的重要因素6。如何才能在纷繁芜杂的数据问题中,识别关键的问题突破口,从而走出“事倍功半”的困境?结合数据治理能力的关键要素以及既往的实践经验,我们认为,在开展数据治理的具体工作之前,第一要务是识别和设定工作的切入点和突破口,将有限的资源、精力集中在最能提升数据治理边际效益的领域。谋定而后动,事半而功倍4主数据管理能力决定数据治理的边际效益主数据是组织中需要跨系统、跨部门进行共享的核心业务实体数据7,也是非常重要的数据资产。以银行为例,通常将客户、产品、机构、员工等信息中涉及到多部门共享共用的关键数据项纳入主数据的管理范畴。这些关键数据对企业的决策和业务绩效会产生重要影响,其数据质量直接影响着商业决策的正确性和有效性,是企业各个层级、各个部门都关注、也必须面对的核心数据,具有“牵一发而动全身”的影响力。而主数据能够得到良好管理,通常意味着企业在关键数据的管理职责上是清晰的,相应的数据标准是明确的,总体的管理流程是完备的。主数据管理的好坏对总体的数据治理效果会产生决定性的影响。因此以主数据为主线,建立清晰的数据治理策略和框架,同时加强各部门之间的沟通和协作,是提升数据治理边际效益的有效方法和手段。作为在企业中被广泛使用且被多个部门或系统共享的核心数据,主数据问题通常表现出三“多”的特征,即问题涉及数据全生命周期多个阶段,问题的解决牵涉到多个部门、多个系统(见图 2)。以客户数据为例,通常会由零售业务部门、公司业务部门、信用卡部门、金融市场部门、普惠金融部门、运营管理部门等多个业务条线分别进行数据采集、维护和使用,不同渠道和部门采集的同一客户数据往往存在着数据内容不一致,甚至是数据冲突。因此有必要围绕客户主数据,明确这些部门在数据需求、设计、采集、加工、使用等各个环节的数据职责以及数据处理规范,否则当新的用数需求出现时,或是在存量数据问题的解决过程中,容易陷入推诿、争吵、一事一议的漩涡。图 2 主数据问题的三“多”特征示例需求改造需求应由哪个部门提出?谁来牵头和协调?需要哪些部门配合?采集相应的渠道和应用系统录入的时候是否需要对采集的信息进行验证?验证过程需要提供哪些证据?共享一旦地址改变需要同步到哪些下游系统?是否存在一些场景使得最新的数据无法进行同步?设计对账单地址和联系地址的改造涉及哪些系统?数据分布以及数据流转情况如何?存储客户对账单寄送地址和客户联系地址是不是作为同一数据项进行处理?是否需要进行标准化?5以主数据为突破口,实现数据治理“破茧化蝶”之所以围绕主数据管理开展数据治理,是因为主数据所具备的重要性和共享性的特征,容易凝聚企业各个层级的治理共识。以产品主数据管理为例,产品的研发、管理、销售和服务是各个业务部门开展工作的重要内容,一个立体的、一致的、全面的、集中管理维护的产品数据载体是业务部门对内管理的迫切需要。从外部服务的视角来看,也是前台部门对客户开展各类营销、推广、展示的关键载体。对于管理层来说,是了解经营现状和发展趋势的重要抓手。通过加强主数据管理能力来提升数据治理边际效益的关键,可以归纳为以下三个方面:多方协同:在现实场景中,经常会看到数据管理部门单独推动数据治理议程的现象。而主数据管理的关键在于通过对核心业务数据开展认责,将数据治理的职责从数据管理部门,延展到业务主管部门以及技术管理部门,进而推动关键业务数据全生命周期的协同管理。焦点选择:“帕累托定律”指出,应该把精力和资源投入在重要的事情上,而主数据管理的重要特征之一是聚焦,通过对客户、产品、机构等领域的主数据项(通常每个领域不超过 100 项)进行梳理、分析和治理,使得企业能够在有限的资源和投入下,确保对关键业务数据的有效管理。机制复用:一旦围绕企业的关键数据能够形成体系化、可落地的数据管理制度、流程和规范,那么这些通过实践磨合、积累、沉淀下来的工作机制和成果,就能够作为企业数据治理的重要手段和能力被有效拓展和应用到其他数据领域,从而形成“举一反三”的作用和效果,进而带动整体数据治理水平的持续提升。6在确定了以主数据管理为突破口的策略之后,首先要明确管理定位问题。以产品主数据管理为例,管理层通常会关注以下四方面问题:管理成熟度:从主数据管理的视角,管理能力的成熟度分别有哪几个等级,分别具有何种特征?当前以企业级产品目录为依托的产品主数据管理能力和水平处于哪个阶段?改进方向:结合企业的实际情况,当前的产品目录管理需要从哪些方面进行改进和加强?分别需要哪些部门的配合和支持?协同机制:如何建立稳定、高效的协同工作机制,在有限的人力和资源投入的情况下,促进各部门相关人员的协同?实际效果:后续开展的一系列工作和投入,是否能够解决当前在产品规模、损益等数据统计分析上面临的痛点和问题?对于产品参数管理或者产品工厂建设是否有实质性帮助?针对前述问题,建议围绕四类主数据管控的典型模式,构建产品主数据管理能力成熟度模型(见图 3),并据此明确产品目录管理、产品参数管理以及产品工厂等关键概念的区别和联系,同时结合企业的实际现状,梳理各个成熟度等级之间的演进策略和相应的能力要求。在建立产品主数据管理能力成熟度模型之后,如何进行科学定位还应该与主数据管理的关键能力领域相结合。在产品主数据管理方面,四方面关键能力领域包括:产品主数据管理组织:主数据管理的关键是相关各方的协同,需要通过制度和办法的形式将产品管理统筹方、各类产品的主管方、产品系统所属的业务方等各方的职责和管理边界明确下来,同时制订协同管理的工作机制,通过产品主数据管理各方的交流和协同,持续提升企业级产品目录的管理效率和作用。图 3 产品主数据管理能力成熟度初始级:产品数据集成“面向分析系统的单流向主数据整合”创建/更新业务系统查询管理主索引访问查询查询管理查询管理业务系统业务系统下游应用下游应用下游应用下游应用创建/更新主数据视图创建/更新更新创建/更新“为查询应用构建主数据视图”“主数据在 MDM 和业务系统共存”“统一在 MDM 维护主数据”受管理级:产品目录管理研发级:产品参数管理敏捷级:产品工厂MDMMDMMDMMDM科学定位,精准施策7 产品主数据标准:企业级产品目录是产品主数据标准制定的重要工作内容。通过企业级产品目录的制订和完善工作,强化产品主数据管理各方的协同意识,并通过企业级产品目录的制订实践工作,固化协同工作流程,提升协同工作能力,保持企业级产品目录的一致性和权威性。产品主数据管理流程:产品主数据的内容通常由多个业务部门各自维护,不仅对外容易导致客户服务的不一致,对内也会产生各类数据统计问题。数据研发阶段涉及的需求和设计工作是落地产品主数据管理的重要环节,过往容易被忽视,有必要在产品目录管理流程的源头尽早规范和统一产品主数据的管理要求。产品主数据管理技术:主数据管理技术不是简单的工具堆砌,需要围绕企业当前的数据分布和数据流转情况,结合数据治理需要采用合适的管控模式。同时要综合考虑产品主数据生产者和消费者之间的关系,明确产品主数据系统在应用架构中的位置,并结合其与上下游系统之间的关系,有针对性的优化和完善主数据管理系统的功能。从组织、标准、流程、技术四个维度对企业的产品主数据管理能力成熟度进行评估(见表 1),不仅能够识别企业当前产品主数据管理的薄弱环节,还能够为后续改进工作指明方向。案例强化主数据管理能力,助力某大型商业银行提升数据治理水平为了进一步提升数据治理能力,加强主数据管理水平,某股份制商业银行围绕主数据管理框架,制定了具体的主数据管理分步实施方案,有效支持了该银行主数据管理能力的提升。在客户主数据领域,基于对数据更新/同步判定的关键因素的分析,明确具体的同步判定策略和方法,使得关键客户信息的更新和同步能够逐步从事前静态、一事一议的管理模式,走向更有普适性的、事中多因素动态判定的管理模式。在机构主数据领域,实行统一机构节点池的管理方案,同时针对机构管理流程中的断点,明确相应的优化环节和各方任务。在产品主数据领域,基于产品主数据管理成熟度,明确该银行在产品主数据管理方面的定位以及需要改善的能力项,为进一步走向更为成熟的产品工厂模式奠定数据基础。在员工主数据领域,依据人、事分离的原则,梳理员工主数据管理与人事岗位管理的关系和边界,为柜员范围认定等具体问题提供决策依据。78在主数据管理过程中,无论是应对新增的数据需求,还是解决存量的数据问题,形成一套角色和责任明确的多部门协同的工作机制是非常关键的。以产品主数据管理为例,产品目录的制定是其中的重点也是难点,究其原因主要有以下三个方面:多元化的产品范围:企业级产品目录的制定涉及不同的业务领域和产品类型。在制定企业级产品目录时,需要考虑到不同业务线、面向不同客户的产品,这种多元化的产品范围增加了目录制定的复杂性。差异化的业务需求:不同业务部门和业务线对产品目录的管理目标存在天然差异。每个业务部门有其独特的产品分类和命名规则。在制定企业级产品目录时,需要平衡不同业务需求,确保目录能够满足整个企业的需求,同时保持一致性和可比性。产品的变更和创新:企业面临的市场态势在不断变化和创新,新产品的推出和旧产品的变更是常态。在制定企业级产品目录时,需要考虑到产品的变更和创新,及时更新目录以适应新产品研发上市的需求。表 1 产品目录管理能力评估示例众擎易举,共建共享成熟度能力领域能力建设说明受管理级:产品目录管理组织产品管理认责 认定产品的主管部门产品统筹管理认责 认定产品管理的统筹部门产品设计流程认责产品全生命周期认责流程产品主数据管理流程 产品的上、下架管理新产品设计流程新产品审批流程新产品发布流程标准产品分类标准 建立完整的产品数据分类体系源系统产品清单全行产品目录 建立全行产品目录统一产品参数模型系统产品数据分析能力 能够基于统一的产品编码进行统计和分析产品数据管理能力 通常会建设一个用于产品查询的独立系统产品设计研发能力新产品快速部署能力9根据既往的实践经验,为有效应对上述三方面的问题,有必要构建业(务)-技(术)-数(据)三位一体的协同工作机制(见图 4)。构建协同机制的重要前提是明确各方的职责,需要通过制度和管理办法的形式将各方的职责和管理边界明确下来,持续磨合和验证主数据管理各方的交流和协同能力,达到不断提升主数据管理效率的目的。业务部门的职责:业务部门通常承担数据的业务定义以及业务需求管理的职责,除了负责所辖领域的数据标准制定、数据质量规则建立等工作之外,还需要在业务流程或规范中主动落实对所辖数据的相关要求,同时参与所辖数据相关的业务流程设计,管理并持续提升所辖领域的数据质量。技术部门的职责:技术部门的职责通常包括根据数据的业务定义,设计相关数据模型,遵循数据标准规范并明确技术口径,定义数据质量控制的技术实施规则等方面。数据管理部门的职责:数据管理部门需要统筹全行主数据的管理,推动和协助建立主数据相关的管理制度、流程和规范,同时确保主数据管理的策略和措施得到充分传达和有效实施。依然以产品目录建设为例,需要明确技术部门和数据管理部门在系统层次产品梳理环节的作用和职责,同时在产品映射环节,阐明对各类产品主管部门的职责和要求,进而在产品差异分析和问题解决环节,建立产品主数据管理各方的工作工序及时效性衡量标准。正所谓“众擎易举,独木难支”,协同工作的方式不仅在治理效果上比单部门推动要好,而且更容易形成共建共享、互相支持的数据治理文化。图 4 三位一体的协同工作机制业务部门 业务定义 业务需求管理 数据录入和审核 数据使用和分析数据管理部门 数据治理流程和工具 数据质量管理和监控 数据安全和隐私保护 数据治理培训和沟通技术部门 技术定义和规划 应用系统开发 技术支持和维护10主数据管理实施的要点是将有限的资源和投入聚焦在最为关键的数据上,从数据认责入手,沿着数据分布和数据流转的脉络,对数据架构的合理性、数据标准的落实程度、数据采集的可信度、数据维护流程的完备度等各个方面进行审视和改进。这种贯通治理全局的做法,有助于发现和揭示当前数据治理领域的薄弱环节和潜在风险,为企业有针对性的提升数据治理领域的相关能力明确了方向。在主数据管理的实施过程中,主数据管理流程中的断点往往易被忽视。主数据的重要特征之一是多部门、跨流程共同维护同一份数据。由于主数据的采集渠道众多,采集流程较长,涉及到的维护方式多样,关联部门复杂,因而关键业务数据管理的断点通常出现在不同职能部门的管理边界上。以银行内部的机构设置为例,业务部门在设立、变更、审批新的机构时,着重考虑的是机构设置的业务必要性,而不太关注机构变更、设立之后对后续数据管理、技术管理以及 IT 系统带来的影响。在实践中,机构的变更和设立,不仅会改变业务管理的上、下级层级关系,影响到业务管理的人员、岗位和权限的设置,同时也会对 IT 系统的改造产生直接影响。一方面,新机构涉及的各类机构树需要同步变更和维护,这影响到更为广泛的业务部门,同时对各类机构树相关的 IT 系统也会产生影响。另一方面,由于机构设置和层级关系的变化,对相关历史数据状态也需要谨慎处理。因此,主数据管理的实施,决不能采用各部门“各扫门前雪”、分而治之的方式,需要围绕业务营销、业绩核算、运营管理、统计报送、风险审批等各个方面,建立业务管理、数据管理、技术管理的一体化流程。因此,要依据各方的管理职责,通过多部门的协同对问题相关的管理流程进行梳理和检视。通过实施“聚焦”-“贯通”的主数据管理方法(见图 5),能够以较低的数据治理成本,围绕关键业务数据,提升数据治理各个领域的管理能力,从而为商业决策提供有力支持,赋能企业持续创新和发展。案例主数据管理典型场景:产品目录建设某股份制银行利用产品主数据管理能力成熟度评估模型,评估和定位其在产品主数据管理能力上所处的位置和阶段,进而有针对性的制定提升方案。评估模型总体分为初始级、受管理级、研发级和敏捷级四个层级,分别对应产品清单管理、产品目录管理、产品参数管理和产品工厂管理等不同的管理成熟度。该评估模型从认责管理、流程管理、内容管理及系统管理四个方面构建管理能力评估矩阵,从而能够对金融机构的产品主数据管理能力进行准确定位,为后续产品主数据管理能力提升明确方向。同时,在产品目录优化过程中,该银行对包含存、贷款、金融市场业务、中间业务等五大类总计 2000 余项可售产品进行了梳理和整合,同时基于整合过程中典型的工作场景,结合 PPV(组织、流程、可视化)的流程管理方法论,构建了四方面协同工作流程以及七种典型问题场景的解决方案,有效改善了产品主数据管理水平。聚焦数据主线,贯通治理全局11图 5“聚焦”-“贯通”的主数据管理实施方法业务调研聚焦1.11.23.13.227654贯通数据调研数据分布数据流转主数据认责主数据管理流程主数据标准主数据管理模式主数据安全管控主数据决策机制主数据架构主数据管理系统主数据项识别通过加强主数据管理,能够有效提升数据治理的边际收益,由于涉及到企业共享共用的关键数据,有必要采取恰当的行动策略来保障总体的实施效果。1.深度优先首先,建议采用“深度优先”的策略。所谓“深度优先”,就是在选取主数据管理的切入点时,尽量避免贪大求全。可以从当前企业数据质量亟待改善、牵涉面最为广泛的数据领域(例如:机构主数据)入手进行深度治理,力求能够定位数据问题的根因,并依据明确的协同工作机制,制定从根本上解决问题的具体举措,落实到数据问题的相关责任主体。这样不仅能够从源头解决具体问题,同时能够避免因为治理范围过大,在资源投入、协同效率等方面可能产生的负面影响。2.以点带面其次,要围绕重要的主数据内容(例如:产品目录),从数据认责、数据标准、数据全生命周期管理流程等多个关键能力域同步开展工作,在形成各方共识后,逐步推广应用到其他数据领域和关键业务系统。这样可以有效地降低实施难度,提高主数据管理的实施成功率。3.协同推进最后,要加强主数据管理各方之间的协同配合和沟通。企业可以建立跨部门的工作小组和项目组,采取跨部门的协同合作方式,能够有效形成企业内部的数据治理共识,打通数据孤岛,修复关键业务数据管理流程中的断点,从而提升整体数据治理效果。同时,企业还可以通过培训和知识共享等方式,提高和对齐各方对主数据管理的认识和理解,增强各方的参与意识和责任意识。主数据管理行动指南12IBM 商业价值研究院IBM 商业价值研究院(IBV)成立于 2002 年。凭借我们在商业、技术和社会交叉领域的独特地位,IBV 每年都会针对成千上万高管、消费者和专家展开调研、访谈和互动,将他们的观点综合成可信赖的、振奋人心和切实可行的洞察。需要 IBV 最新研究成果,请在 上注册以接收 IBV 的电子邮件通讯。您可以在 Twitter 上关注 IBMIBV,或通过 https:/ibm.co/ibv-linkedin 在 LinkedIn 上联系我们。访问 IBM 商业价值研究院中国官网,免费下载研究报告:https:/ IBM,我们积极与客户协作,运用业务洞察和先进的研究方法与技术,帮助他们在瞬息万变的商业环境中保持独特的竞争优势。结语在当前以高质量数据为基石的人工智能时代,数据治理的重要性益发凸显,而在有限的资源和投入约束下,主数据管理是提升数据治理边际收益的有效手段。虽然关键业务数据的治理涉及到企业的方方面面,但行百里者半九十,越是在紧要关键的地方,越需要一鼓作气、攻城拔寨的决心,更需要在企业内部形成协同治理的共识,通过建立明确的数据权责和完备的数据管理流程,使主数据治理真正融入企业管理和文化,成为驱动业务高效运转的关键动力源泉。13 Copyright IBM Corporation 2023国际商业机器(中国)有限公司 北京市朝阳区金和东路 20 号院 3 号楼 正大中心南塔 12 层 邮编:100020美国出品|2023 年 10 月IBM、IBM 徽标和 是 International Business Machines Corporation 在世界各地司法辖区的注册商标。其他产品和服务名称可能是 IBM 或其他公司的商标。以下 Web 站点上的“Copyright and trademark information”部分中包含了 IBM 商标的最新列表: 可能随时对其进行更改。IBM 并不一定在开展业务的所有国家或地区提供所有产品或服务。本文档内的信息“按现状”提供,不附有任何种类的(无论是明示的还是默示的)保证,包括不附有关于适销性、适用于某种特定用途的任何保证以及非侵权的任何保证或条件。IBM 产品根据其提供时所依据的协议条款和条件获得保证。本报告的目的仅为提供通用指南。它并不旨在代替详尽的研究或专业判断依据。由于使用本出版物对任何企业或个人所造成的损失,IBM 概不负责。本报告中使用的数据可能源自第三方,IBM 并未对其进行独立核实、验证或审查。此类数据的使用结果均为“按现状”提供,IBM 不作出任何明示或默示的声明或保证。扫码关注 IBM 商业价值研究院官网微博微信公众号微信小程序备注和参考资料1“关于银行业保险业数字化转型的指导意见”,2022 年 1 月,银保监办发 2022 2 号,https:/ 时代的 CEO 决策力”,2023 年 7 月,IBM 商业价值研究院,https:/ Management Body of Knowledge”,2015 年 4 月,DAMA International,https:/www.dama.org/cpages/body-of-knowledge 4“Reducing data costs without jeopardizing growth”,2020 年 7 月,McKinsey,https:/ to improve your data quality”,2021 年 7 月,Gartner,https:/ 年 6 月,IBM 商业价值研究院,https:/ 年 10 月,GB/T 36073-2018,https:/
1001001本报告版权为复旦大学数字与移动治理实验室(复旦DMG)所有,如需引用本报告内容,请参照以下规范:复旦大学数字与移动治理实验室.中国地方公共数据开放利用报告城市(2023年度)R/OL.(2023-11-01)引用日期,格式为YYYY-MM-DD.http:/ 数林概貌 数林指数 数林标杆 数林亮叶 评估方法附录 004001011017026031041目录002引言001引言2020201720182019“中国开放数林指数”是我国首个专注于评估公共数据开放利用水平的专业指数,由复旦大学数字与移动治理实验室制作出品。自 2017 年首次发布以来,“中国开放数林指数”定期对我国各地公共数据开放利用水平进行综合评价,精心测量各地的“开放数木”,助推我国公共数据的流通与价值释放。2023 年起,开放数林指数将年度报告的名称从中国地方政府数据开放报告改为中国地方公共数据开放利用报告,以体现从“政府数据开放”迈向“公共数据开放”的方向,以及指数对公共数据从流通、到利用、到价值释放全过程的关注。开放数林指数将直辖市、副省级城市和地级城市,都作为一个“空间”和“聚落”,而不仅仅是一个 层级 来进行评测,并发布中国地方公共数据开放利用报告城市(以下简称报告)。20212022002数林愿景2023开放数据,蔚然成林,“开放数林”意喻我国公共数据开放利用的生态体系,我们期待:开放数林是繁盛多姿的,各种“数木”都能竞相并生、枝杈相连、根系相通;开放数林是生生不息的,无时无刻不在成长变化,充满生机和活力;开放数林更是包容温暖的,既能让林子里的各种“生物”共享数林的美好,又能遮阳挡雨,不让他们被数据“灼伤”或“淋湿”。最终,一棵棵地方开放“数木”能够成长为一片繁盛多样、持续生长、包容宜人的中国“开放数林”。003数林概貌004数林概貌一、数林概貌 图 1 历年地级及以上数据开放平台数量增长情况截至 2023 年 8 月,我国已有 226 个省级和城市的地方政府上线了数据开放平台,其中省级平台 22 个(不含直辖市和港澳台),城市平台 204个(含直辖市、副省级与地级行政区)。与 2022 年下半年相比,新增 18个地方平台,其中包含1个省级平台和17个城市平台,平台总数增长约9%。自 2017 年起全国地级及以上公共数据开放平台数量持续增长,从 2017 年报告首次发布时的 20 个到 2023 下半年的 226 个,如图 1 所示。目前,我国 337 个城市(含直辖市、副省级与地级行政区)中,60.53%已上线了公共数据开放平台。自 2012 年上海市和北京市等地率先上线数据开放平台以来,城市平台数量逐年增长,目前已达到 204 个,如图 2 所示。各城市平台上线时间如表 1 所示。005 数林概貌 图 2 历年城市(含直辖市、副省级与地级行政区)平台上线情况 表 1 城市数据开放平台上线时间一览表(按拼音首字母排序)006 数林概貌 图 3 城市平台上线时间的地理空间分布截至 2023 年 8 月,全国各地上线的城市公共数据开放平台的地区分布如图 3 所示,颜色越深,代表平台上线时间越早。目前,所有直辖市,福建省、广东省、广西壮族自治区、贵州省、湖北省、江苏省、江西省、山东省、四川省与浙江省共 10 个省域所有下辖城市都已上线了公共数据开放平台,形成我国最为密集的城市“开放数林”。同时,安徽省内的绝大多数城市也已上线了开放平台。然而,陕西省、青海省内的所有城市以及海南省、河南省、吉林省、辽宁省和云南省内的绝大多数城市尚未上线公共数据开放平台。007数林概貌 图 4 2017-2023 年城市平台分布自中国开放数林指数 2017 年首次发布以来的七年中,全国各地的公共数据开放平台已蔚然成林。图 4 为 2017 年到 2023 年,地级以上城市(含直辖市)数据开放平台区域分布的变化情况。中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要明确提出“开展政府数据授权运营试点,鼓励第三方深化对公共数据的挖掘利用。”当前,部分地方已在积极探索授权运营工作,截至 2023 年 9 月,各城市已正式出台的与公共数据授权运营相关的法规政策如表 2 所示,发布的相关征求意见稿如表 3 所示。008数林概貌 表 3 城市公共数据授权运营相关法规政策征求意见稿一览表(截至 2023 年 9 月)表 2 城市公共数据授权运营相关法规政策一览表(截至 2023 年 9 月)009数林概貌目前已公开上线的公共数据授权运营平台或在数据开放平台上开设授权运营专区的城市如表 4 所示。表 4 城市公共数据授权运营平台或专区010数林指数011 数林指数二、数林指数2023 年度全国城市开放数林的指数分值如表 5 所示,报告还基于综合指数分值将各地的公共数据开放利用水平分为五个“开放数级”。杭州市与德州市综合表现最优,进入第一等级“五棵数”,获得“数开繁盛”大奖。日照市、济南市、上海市与青岛市也表现优异,进入第二等级“四棵数”。其次是济宁市、东营市、温州市、深圳市等城市。在四个单项维度上,在全国所有 204 个城市中,上海市在准备度和利用层上表现最优,杭州市在服务层与数据层上表现最优。表 5 中国开放数林指数城市综合排名(前五十名)012 数林指数城市开放数林指数空间分布如图 6 所示,颜色越深代表综合指数分值越高。指数分值较高的城市主要集中在位于东部沿海地区的山东省、浙江省和上海市。同时,华南地区的深圳市、西南地区的成都市和贵阳市也表现优秀,成为所在地区的优质“数木”。013 数林指数 图 6 城市开放数林指数空间分布四个直辖市开放数林指数分值和排名如表6所示,上海市综合表现最优,位列第一,其次是天津市、北京市和重庆市。表 6 直辖市综合排名014 数林指数副省级开放数林指数排名前十的地方如表7所示,杭州市综合表现最优,位列第一,济南市、青岛市、深圳市和成都市也表现优异。地级开放数林指数排名前十的城市如表 8 所示,德州市综合表现最优,位列第一;日照市、济宁市、东营市和温州市等地也表现优异。表 7 副省级城市综合排名(前十名)表 8 地级城市综合排名(前十名)015 数林指数“数林匹克”指数数据开放是一场马拉松,而不是速滑赛,不在于一个地方是否跑得早、跑得急,而在于这个地方能否跑得长、跑得久。报告继续通过“数林匹克”四年累计分值,反映一个地方在过去四年(2020 年-2023 年)开放数据的持续水平。城市“数林匹克”指数由 2020 年到 2023 年这四年该城市的全年开放数林综合指数的分值累加而成。表 9 是为 2020-2023 城市“数林匹克”累计分值排在前二十名的地方,上海市分值最高,其次是杭州市、青岛市、德州市、深圳市、日照市、济南市与温州市。表 9 城市“数林匹克”累计分值(前二十名)016数林标杆017数林标杆三、数林标杆1.杭州市杭州市制定了杭州市公共数据授权运营实施方案(试行),以规范公共数据授权运营管理,加快公共数据有序开发利用。杭州市在公共数据开放平台上设有公共数据授权运营专区,点击后即可进入授权运营平台,还将授权运营数据作为“受限开放类”数据列入开放平台提供的数据目录(如图 7 所示),从而在平台入口和数据目录上实现了数据开放和授权运营工作的协同联动,便于用户发现、获取和利用公共数据。杭州市在企业注册登记、交通运输与教育领域都开放了较多的高需求、高容量、高质量数据集,具有较高的利用价值;平台上开放的“停车场空闲状态(杭州)信息”可通过接口调用数据,并按分钟更新,如图 8 所示。图 7 杭州市在开放目录中将授权运营数据作为“受限开放类”数据列入018数林标杆杭州市平台还为授权运营数据提供了详细的元数据信息和数据项说明,并提供了样本数据,帮助用户更清晰地了解数据结构与内容。以授权运营数据集“地铁集团计划时刻信息”为例,图 9 展示了该数据集的元数据信息和数据项说明,图 10 展示了该数据集的样本数据。图 8 杭州市按分钟更新的“停车场空闲状态(杭州)信息”数据接口 图 9 杭州市授权运营数据集“地铁集团计划时刻信息”元数据信息和数据项说明019数林标杆 图 10 杭州市授权运营数据集“地铁集团计划时刻信息”提供的样本数据杭州市通过开放数据,产出了一批优质利用成果。例如杭州市开放了停车场状态信息数据,支撑地图应用开发了停车场状态查询功能。用户可在应用中查询部分停车场的车位空闲状态,如图 11、图 12 所示。020数林标杆 图 11 杭州市平台展示的高德地图应用 图 12 杭州市高德地图应用支持部分停车场状态查询功能021数林标杆2.德州市德州市在其发布的 2023 年度公共数据开放清单中提供了数据来源、数据资源目录名称、数据项名称、开放属性、开放条件、开放方式、更新频率、计划开放时间等具体信息(如图 13 所示)。德州市平台重视与用户的互动反馈,对用户提出的有条件开放数据申请、未开放数据请求、意见建议和数据纠错要求均进行了及时有效的回复,并公开了相关信息。如图 14 所示,该平台快速回应了用户提交的未开放数据请求,在与其他部门进行沟通后,将用户需要的数据在平台上进行了开放。此外,德州市平台不仅在开放协议中对无条件和有条件开放数据进行了差异化规范,还对可能带来安全风险的数据集(如实时公交数据集)提供了专门的开放授权许可协议,如图 15 所示。图 13 德州市 2023 年公共数据开放清单(部分截图)022数林标杆 图 14 德州市平台对用户未开放数据请求的回复及落实 图 15 德州市实时公交数据集开放授权许可协议023数林标杆为方便残障人群出行,德州市开放了“无障碍设施信息”,包括无障碍厕位、无障碍通道和无障碍停车位等数据项,支撑高德地图开发了无障碍公厕设施导航功能,如图 17 所示。德州市无条件开放数据集的数量在全国处于领先位置,平台无条件开放数据集的平均容量近 300 万,并在交通、卫生与社会民生等关键领域开放了较多的高需求高容量数据。德州市开放的“道路危险货物运输经营许可信息分页查询服务”数据集和“授权开放 _ 德州市公交实时信息(GPS数据服务器与其它数据接收程序的通讯协议)”数据集(如图 16 所示),都具有较高的数据容量与时效性。德州市持续开放高容量数据集,数据容量年度递增幅度在全国领先。图 16 德州市开放的优质数据接口024数林标杆德州市还开放了易积水点信息,支撑高德地图开发相关功能。用户可在地图中通过搜索德州积水、德州暴雨、德州积水地图、德州易积水点等关键词,获得德州市城区道路的易积水点位,从而在暴雨天气中合理规划行程,如图 18 所示。图 17 德州市高德地图应用提供无障碍设施导航功能 图 18 德州市高德地图应用提供易积水信息查询功能025数林亮叶026数林亮叶四、数林亮叶除了以上两个标杆案例,2023 年其他城市在公共数据开放利用和授权运营工作上也出现了不少亮点:济南市注重公共数据的无歧视获取,明确公共数据提供单位不得以不合理条件对企业规模、注册地等进行限制或排斥,不得歧视中小企业、社会组织等利用主体,如图 19 所示。准备度亮叶 图 19 济南市公共数据开放利用管理办法(试行)对无歧视性原则的强调027数林亮叶深圳市平台提供了“字段搜索”服务(如图 20 所示),通过对字段的名称、描述、类型、数据分布特征等信息进行智能分析,使用户能搜索到含有某一字段的所有数据集。服务层亮叶 图 20 深圳市平台的“字段搜索”服务028数林亮叶北京市、上海市、德州市等地通过开放无障碍设施数据集,助力地图应用开发无障碍导航功能,便利残障人士出行。例如,北京市开放了 36 万条无障碍设施数据,数据完整性好,颗粒度较细(如图 21 所示)。东营市与济宁市在社会民生领域开放了较多高需求、高容量数据,涉及水电气缴费、社保参保、低保救助等方面。广州市、深圳市与烟台市对平台上已开放的数据及时进行更新,年度更新比例都达到了 70%以上。数据层亮叶 图 21 北京市开放的残疾人无障碍设施数据029数林亮叶开放数据大赛逐渐“破圈”联动,上海市组织了首届沪港合作开放数据竞赛,吸引上海、香港两地上百支科创团队参赛。公共数据开放还为学术研究工作提供了数据支撑,北京市、深圳市、成都市、上海市开放的公共数据产出的科研论文数量较多,涉及公共服务资源配置、商业经营等研究领域。各地在公共数据授权运营方面的探索也已产生了初步成果,青岛市、成都市、杭州市等城市产出的授权运营产品涵盖交通出行、财税金融和卫生健康等领域。利用层亮叶030评估方法031 评估方法五、评估方法指标体系开放数林指数邀请国内外政界、学术界、产业界七十余位专家共同参与,组成“中国开放数林指数”评估专家委员会,以体现跨界、多学科、第三方的专业视角。专家委员会基于数据开放的基本理念和原则,立足我国公共数据开放的政策要求与地方实践,借鉴国际数据开放评估经验,构建起一个系统、专业、可操作的公共数据开放评估指标体系,并每年根据最新发展态势和重点难点问题进行动态调整。1、从“政府数据开放”迈向“公共数据开放”2023年起,开放数林指数将评估对象从“政府数据”扩展为“公共数据”,即各级党政机关、企事业单位依法履职或提供公共服务过程中产生的公共数据。2021 年,中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要提出要“扩大基础公共信息数据安全有序开放,探索将公共数据服务纳入公共服务体系,构建统一的国家公共数据开放平台和开发利用端口。”2022 年,中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见要求“对各级党政机关、企事业单位依法履职或提供公共服务过程中产生的公共数据,加强汇聚共享和开放开发”,“对不承载个人信息和不影响公共安全的公共数据,推动按用途加大供给使用范围”。2023 开放数林指数在指标体系和评估方法上的调整重点如下:032 评估方法2、将“公共数据授权运营”纳入评测内容2023 年起,开放数林指数将各地在公共授权运营方面的探索和成果也纳入评测内容。2021 年,中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要指出要“开展政府数据授权运营试点,鼓励第三方深化对公共数据的挖掘利用。”2022 年,中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见指出要“鼓励公共数据在保护个人隐私和确保公共安全的前提下,按照原始数据不出域、数据可用不可见的要求,以模型、核验等产品和服务等形式向社会提供。”开放数林指数认为,公共数据开放和授权运营的目的都是为了畅通公共数据资源的大循环,减低市场和社会主体获取公共数据的门槛,释放公共数据的价值,两者相辅相成,又各有侧重。因此,开放数林指数将一个地方的公共数据开放和授权运营水平做为整体,来评价该地方释放公共数据价值的总体成效。2023 开放数林指数具体从以下几个方面初步开展对公共数据授权运营的评估:准备度评测关注各地制定和出台的与授权运营相关的法规政策,以促进和规范公共数据授权运营工作;服务层评测关注数据开放平台与授权运营平台之间的联通协同以及数据目录的整体展现;数据层评测关注授权运营数据的数量、种类、透明度和可理解性等方面;利用层评测聚焦数据授权运营的成果产出及其价值。3、将评估维度“平台层”更名为“服务层”2023 开放数林指数将平台层更名为服务层,以强调数据开放和授权运营平台的持续运营与有效服务。具体而言,进一步下调了平台功能设置相关指标的权重,提高了数据获取、互动反馈、回应落实等体现平台实际运营服务水平的指标的权重,即不是看“平台对用户说了什么”,而是看“有没有说到做到”。033 评估方法4、强化需求驱动和利用导向2023 开放数林指数进一步强化数据开放和授权运营的需求驱动和利用导向。需求、开放与利用之间具有循环并进的关系,市场和社会对公共数据的需求是开放和运营的起点和依据,而开放和运营又是利用的基础,利用则是开放和运营的目的,反过来,利用又能激发出新的需求,从而进一步促进开放和运营。具体而言,2023 开放数林指数在以下几个方面强化对需求驱动和利用导向的评估:准备度评测重视相关法规政策中对需求征集、需求回应以及开放范围与目录按需动态调整等方面作出的要求;服务层评测重视平台对用户所提需求的实际回应与落实情况;数据层评测增加对高需求高容量数据集开放数量的评测;利用层评测关注数据开放带来的经济和社会价值,以及数据开放利用赛事中形成的创新方案的落地转化情况,并在成果数量指标中新增对基于开放数据发表的科研论文的评测。5、增加对公共治理/公益服务类数据的评测2022 年中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见指出要“推动用于公共治理、公益事业的公共数据有条件无偿使用”。因此,开放数林指数在去年重点对企业注册登记、交通、气象、卫生四个领域的关键数据集开展评测的基础上,今年又进一步将“教育”、“社会民生”等领域纳入关键数据集范围进行评测。6、细化对数据质量的评测在数据层评测中,兼顾数据容量增长的总量与质量,加强对数据的完整性、及时性与持续性等方面的检测;增强对实时动态数据接口的评测;对于社会高需求数据集,增加对其关键字段开放情况的评测。7、注重普惠包容评测政策法规中对多种社会主体平等获取数据作出的要求,评测平台在开放协议及在有条件开放数据的申请条件设置中是否贯彻了非歧视性原则,并注重开放数据大赛的参与门槛与社会参与度。034 评估方法2023 开放数林评估指标体系共包括准备度、服务层、数据层、利用层四个维度及下属多级指标(如图 22 所示)。2023中国开放数林指数城市指标体系框架如下:准备度是“数根”,是数据开放的基础,包括法规政策、组织推进等两个一级指标。服务层是“数干”,是数据开放的中枢,包括平台体系、功能运营、权益保障、用户体验等四个一级指标。数据层是“数叶”,是数据开放的核心,包括数据数量、开放范围、数据质量、安全保护等四个一级指标。利用层是“数果”,是数据开放的成效,包括利用促进、利用多样性、成果数量、成果质量、成果价值等五个一级指标。035 评估方法 图 22-1 2023 中国开放数林指数指标体系(城市)036 评估方法 图 22-2 2023 中国开放数林指数指标体系(城市)037 评估方法评估范围开放数林指数将直辖市、副省级城市和地级城市,都作为一个“空间”和“聚落”,而不仅仅是一个“层级”来进行评测。根据公开报道,以及使用“数据开放”“数据公开”“公共数据”“地名数据”“地名公共数据”“地名公共数据开放”等关键词进行搜索,发现了截至 2023 年 8 月我国已上线的地方公共数据开放平台,并从中筛选出符合以下条件的平台:1、原则上平台域名中需出现 ,作为确定其为政府官方数据开放平台的依据。2、平台由行政级别为地级以上的地方政府建设和运营(不含港澳台)。3、开放形式为开设专门、统一的地方公共数据开放平台,或是在政府官网上开设专门栏目进行集中开放,由条线部门建设的开放数据平台不在评估范围内。本次评估中,共发现符合以上条件的城市公共数据开放平台 204 个,报告将上线了这些平台的城市作为评估对象。具体城市、平台名称和平台链接如附录所示。此外,报告还使用“数据开放”“公共数据运营”“公共数据服务”“政务数据运营”“政务数据服务”等关键词进行搜索或通过数据开放平台提供的链接,发现了截至 2023 年 9 月我国已上线的城市公共数据授权营运平台或专区,如表 10 所示。表 10 城市公共数据授权运营平台或专区038 评估方法数据采集与分析方法准备度评估主要对相关法律法规、政策、年度计划与工作方案、新闻报道等资料进行了描述性统计分析和文本分析。搜索方法主要包括以下两种:一是在搜索引擎以关键词检索相关法规与政策文本、年度工作计划、政府工作报告、数字政府方案、以及数据开放和授权运营主管部门的信息;二是在地方政府门户网站以及公共数据开放平台与授权运营平台上通过人工观察和关键词检索采集数据。数据采集截止时间为 2023 年 9 月。服务层评估主要采用人工观察和测试法对各地公共数据开放平台与授权运营平台提供的服务进行观测并做描述性统计分析,并对平台的回复时效和回复质量进行了评估,数据采集截止时间为 2023 年 9 月。此外,服务层还引入了“体验官”对用户在数据发现与数据获取过程中的实际体验进行评测,与人工观察同时进行。数据层评估主要通过机器自动抓取和处理各地公共数据开放平台与授权运营平台上提供的数据,结合人工观察采集相关信息,然后对数据进行了描述性统计分析、交叉分析、文本分析和空间分析。数据采集截止时间为 2023 年 9 月。利用层评估主要对各地公共数据开放平台与授权运营平台上展示的利用成果进行了人工观察和测试,对 2021 年以来各地开展的开放数据创新利用比赛信息进行了网络检索,并对采集到的数据进行了描述性统计分析。数据采集截止时间为 2023 年 9 月。此外,为确保采集信息准确,避免遗漏,部分指标采取报告制作方自主采集和向各地征集相结合的方式。各地征集结果经过报告制作方验证后纳入数据范围。同时,本次评估发现,个别已上线的地方平台出现无法访问造成数据供给中断的情况,或虽然平台仍在线,但实际上无法通过平台获取数据。039 评估方法指数计算方法指数制作方基于各地在各项评估指标上的实际表现从低到高按照 0-5 分共 6 档分值进行评分,其中 5 分为最高分,相应数据缺失或完全不符合标准则分值为 0。对于连续型统计数值类数据则使用极差归一法将各地统计数据结果换算为 0-5 分之间的数值作为该项得分。各地平台在准备度、服务层、数据层、利用层四个维度上的指数总分等于每个单项指标的分值乘以相应权重所得到的加权总和。基于指标本身的重要性、各地在各项指标上的平均达标情况和地区间差距配置权重。最终,各地开放数林指数等于准备度指标分值、服务层指标分值、数据层指标分值、利用层指标分值乘以相应权重的加权平均分。城市开放数林指数计算公式如下:城市开放数林指数15205015服务层指标分值此图由AI生成040附录041 城市平台一览表(按行政层级及拼音首字母排序)042043044指数制作团队报告校对组体验官观察员郑磊、刘新萍、张忻璐、吕文增、张宏、侯铖铖、蒋佳钰、鞠逸飞胡业飞、王翔、袁千里、马李滨、韩笑丁超逸、高梦婷、胡颖、凌丹、潘悦滢、魏澜、吴逸萌、朱丹妮薄佳妍、蔡伊南、曹雁飞、陈宸、陈佳玉、陈曦来、陈祺康、陈业、陈镒丹、陈昱彤、褚晓、崔梦柯、邓佳星、胡珍、姬祥飞、李姗蔓、李霞、李之端、梁嘉桐、梁天佑、刘馨、陆婷婷、罗姝瞳、罗意、欧阳材泓、彭灿、任姝菡、孙孟杰、王晶格、王潇睿、王野然、王怡文、尉苇、项善、辛悦、萧海玥、徐佳迪、徐若茜、徐思佳、徐玉东、于锦文、张梓琦、朱启珠、庄文婷指数制作方045评估专家委员会
数据管理中的文件档案与内容管理数据管理中的文件档案与内容管理白皮书白皮书(202(2023 3 年年)编写组编写组 中国人民大学电子文件管理研究中心:刘越男 杨建梁 祁天娇 何思源 上海鸿翼软件技术股份有限公司:龙凌云 罗永秀 闫述 寇亚孟 任歌 目目 录录 1 背景.1 2 文件、档案与内容管理的相关概念.2 2.1 文件、档案与文档.2 2.2 内容、数据与知识.2 2.3 文档管理与内容管理.3 2.4 文档生命周期与数据生命周期.4 3 数据管理框架下的文件档案与内容管理.4 4 文档与内容管理价值与效用.6 4.1 安全合规.6 4.2 提效降本.6 4.3 业务连续.7 4.4 决策支持.7 4.5 洞察创新.7 4.6 权益保障.7 4.7 资产增值.8 4.8 记忆(历史)留存.8 5 内容管理软件的应用及类型.8 5.1 应用架构视角下的内容管理软件应用.8 5.1.1 企业内容管理系统.9 5.1.2 内容协作系统.10 5.1.3 网页内容管理系统.10 5.1.4 文档管理系统.10 5.1.5 影像管理系统.11 5.1.6 质量体系文件管理系统.11 5.1.7 知识管理系统.11 5.1.8 合同管理系统.12 5.2 不同行业领域中的内容管理应用类型.12 5.2.1 制造行业内容管理应用.13 5.2.2 制药行业内容管理应用.13 5.2.3 军工行业内容管理应用.14 5.2.4 金融行业内容管理应用.15 5.2.5 新能源行业内容管理应用.16 5.2.6 核电行业内容管理应用.16 5.2.7 工程设计行业内容管理应用.17 6 内容管理系统与文件档案管理系统的发展.17 6.1 内容管理系统的发展过程.17 6.2 内容管理系统的发展阶段.18 6.3 文件档案管理系统的发展.20 7 文件档案与内容管理的应用问题.20 7.1 IT 视角下的应用问题.20 7.1.1 业务系统核心文件“烟囱割裂”.20 7.1.2 离散过程文件难以统一存储.21 7.1.3 海量数据带来存储扩展和安全问题.21 7.1.4 多分支机构对部署架构挑战.21 7.2 业务视角下的应用问题.21 7.2.1 用户很难发现想要的文件档案.22 7.2.2 业务文件不能及时、完整归档.22 7.2.3 文件档案未形成体系化知识.22 7.2.4 文件档案与业务融合不足.22 7.2.5 管理人员综合能力依然欠缺.22 7.3 数据视角下的文档档案应用问题.23 7.3.1 文件档案核心数字资产地位未被认可.23 7.3.2 非结构化数据管理战略规划缺失.23 7.3.3 内容数据化能力不足.23 7.3.4 文件档案数据价值释放不够.24 8 数据管理中的文件档案管理框架.24 8.1 价值实现层.25 8.2 文档治理层.25 8.3 管理活动层.26 8.4 技术实现层.28 9 数据管理中文件档案与内容管理的发展趋势.28 9.1 结构化数据和非结构化数据融合发展.28 9.2 文档管理和内容管理融合发展.29 9.3 文档管理和数字化业务融合发展.30 9.4 文档管理与内容模型的融合发展.31 9.5 文档管理基础建设和智能开发融合发展.32 1 1 背景背景 自 2017 年党的十九大报告中明确提出“数字中国”这一概念之后,数据作为第五大生产要素,逐渐得到了社会广泛的认可与重视。为了进一步规范数字中国建设,中国中央、国务院于 2023 年 2 月印发数字中国建设整体布局规划(以下简称规划),为构建数字中国提供了顶层设计与整体谋划。依据规划,“数字中国”的建设需要夯实数字基础设施与数据资源体系“两大基础”,数据管理对于机构的重要性愈发凸显。同时,“东数西算”国家战略体系正在全面铺开,为了构建全国一体化大数据中心体系,需要布局包括宁夏、甘肃、贵州、成渝、内蒙古、京津冀、长三角与粤港澳大湾区枢纽等算力网络枢纽,辅以各地数据中心集群,最终实现东西部网络直连,对全国的数据输送与计算进行一体化调度,从而充分发挥数据要素在数字中国构建中的重要作用,赋能数据要素高效流通。然而,根据国内外多个研究机构的调查,大多数机构中非结构化数据占全部数据的 80%以上。数字环境下,大多机构的文件档案管理依赖基于非结构化数据(即本白皮书所称内容)的解决方案,文件档案与内容有着异常紧密的关系。如果说数据是一座煤矿,谁能掌握这座煤矿,谁就能为机构发展提供动能,那么文件档案与内容数据就是潜藏在煤矿深处的钻石,谁能够率先发现这些钻石,谁就能先人一步洞察和刻画机构内外的种种变化,进一步将数据的价值和潜能释放出来。国际数据管理协会在其标志性出版物数据管理知识体系指南(DAMA-DMBOK2)(第二版)中将文件档案与内容管理放在了数据管理框架中显著的位置,凸显了文件档案与内容管理对于数据管理的重要性。然而,现阶段我国大多数机构管理者和相关人员对文件档案与内容管理的认识尚有不足,文件档案与内容管理在实践中并没有受到应有的重视。文件档案与内容管理的管理范式与一般的数据管理相比也存在较大差异,相关方法和技术工具尚不丰富。面对现状与问题,编写组特别编制了数据管理中的文件档案与内容管理白皮书,为行业从业人员、用户及潜在用户和社会相关人员提供文件档案与内容管理涉及的基本概念、效用价值、主要技术、系统功能等通识性知识,以期加强文件档案管理领域和技术领域的对话和合作,推动文件档案管理事业与内容管理行业的共同发展,2 此次更新(2023 版)更是追随当下的非结构化数据管理发展脚步,与时俱进,为读者提供最新的行业实践与发展趋势。本白皮书的编制主要参考了中华人民共和国档案法(2020)、ISO 15489-1:2016信息与文献 文件管理-第 1 部分:概念与原则、GB/T 18894-2016电子文件归档与电子档案管理规范、GB/T 36073-2018 数据管理能力成熟度评估模型、数据管理知识体系指南(DAMA-DMBOK2)(第二版)等法律法规、标准规范和文献材料。2 文件、档案与内容管理的相关概念文件、档案与内容管理的相关概念 2.1 文件、档案与文档文件、档案与文档 从文件档案管理视角来看,文件(records)是指机构或个人在履行其法定义务或开展业务活动过程中形成、接收并维护的作为凭证和具有查考作用的信息,可简称为“业务凭证”。1档案(records/archives)是指形成文件的业务活动结束之后仍然具有保存价值的文件。文档是文件和档案的合称。从计算机技术视角来看,文件(file)是作为一个单元存储或处理的命名的记录集。2文档(document)主要是指非结构化数据。除非特别说明,本白皮书使用的文件、档案、文档概念均来自文件档案管理领域。2.2 内容、数据与知识内容、数据与知识 从信息的角度来看,内容是指以任何形式或载体存在的有含义和背景的信息。在计算机技术领域,内容(content)一般指非结构化数据,是非结构化数据厂商提出的特定概念。在本白皮书中,数据与数字数据同义,是指以数字形式存在的信息记录。按照数据单元被定义的程度,数据一般包括结构化数据、非结构化数据以及介于两者之中的半结构化数据。其中,结构化数据是指存储在数据库里,1 中华人民共和国国家标准 GB/T 26162.1-2010/ISO 15489-1:2001 信息与文献 文件管理 第 1 部分:通则S 2 中华人民共和国国家标准 GB/T 5271.1-2000/ISO/IEC 2382-1:1993 信息技术 词汇 第 1 部分:基本术语S 3 可以用二维表结构来逻辑表达实现的数据。非结构化数据是指未通过数据模型预先定义的数据。3 而知识是人们通过实践对客观事物及其运动过程和规律的认识,即被人们理解和认识并经头脑重新组织和系列化的信息,是经验、技能的总结,是组织发展竞争力的基础。在反复实践和认识的过程中,人脑通过对相关概念的判断、组合和推理,形成对事物本质的认识,构成头脑中的知识,可称为主观知识,或者称为隐性知识;如果经过各种载体记录下来,则成为客观知识,也可以被称为显性知识。2.3 文档管理与内容管理文档管理与内容管理 文档管理是一项专业工作,指对文件从生成、处理、流转、归档、移交、鉴定、保存到利用、处置等全生命周期进行管控的领域。手工环境下文件形成过程中的管理和档案管理相对独立,数字环境下文档一体化是文件档案管理的基本要求。内容管理是一个 IT 产品分支,支持对非结构化数据进行采集、处理、组织、存储、查询和共享,实现从内容采集、创建、传递到内容分析等整个内容价值链的整合。从概念来看,文件档案既可能是结构化数据,也可能是非结构化数据。但是在实践中,文件档案管理系统通常采用非结构化数据管理方案,以结构化数据存在的文件或者在归档环节被转化为非结构化数据(比如版式电子发票),以便固化其内容、背景与结构并进行长期保存;或者以数据文件的方式保存在文档系统中,该数据文件可能是多个业务记录的集合体。虽然内容管理方案是非结构化数据的管理方案,但对内容的管理,需要借助于描述内容的结构化数据(元数据)展开;对内容的分析、挖掘与开发,则需要将非结构化数据转化为结构化数据,这是电子文件数据化的重要任务。结构化数据和非结构化数据,存在互相转化、互相支持、相互协同的关系。3 DAMA 国际著,DAMA 中国分会翻译组 译.DAMA 数据管理知识体系指南M.北京:机械工业出版社,2020:229 4 2.4 文档生命周期与数据生命周期文档生命周期与数据生命周期 生命周期是看待和管理文档、内容和数据的重要视角,它倡导将文档、内容和数据看成一个有始有终、不断发展变化的对象,并根据其不同阶段的特点实施区别化的管理。其中,文档生命周期是指文件从产生到最终销毁或作为档案永久保存的整个运动过程。从文档价值来看,文档生命周期包括现行文件、半现行文件和非现行文件等不同阶段;从管理环节来看,文档生命周期主要包括生成、鉴定、归档、分类、存储、利用、分析、保存和处置等环节。根据 DAMA 的界定,数据生命周期包括计划、设计、创建/接收、存储或处置、利用或复用、增值等环节,一方面,该定义将生命周期提前到数据实际产生之前的规划设计阶段,这与1997 年国际档案理事会把电子文件划分为设计/概念阶段、形成阶段和维护阶段异曲同工。另一方面,该定义更为强调数据的增值利用,这提醒文档管理工作人员也要重视文档的复用和增值。3 数据管理框架下的文件档案与内容管理数据管理框架下的文件档案与内容管理 随着文件档案和内容的数据属性逐渐明确,价值逐渐得到认可,文件档案与内容管理已经成为数据管理的重要组成部分。在 DAMA 的数据管理功能框架中,文件档案与内容管理被认为是数据生命周期管理中数据“使用与增强”阶段的组成部分,如图 1 所示,在文字描述部分,综合了非结构化数据和文件档案专业管理的内容。在数据管理的框架下,文件档案与内容管理已经成为机构数字治理和数据资产化的关键环节,是在数据流转过程中数据价值洞察和挖掘的基础性工作。5 图 1 DAMA 数据管理功能框架 尽管 DAMA 将文件档案与内容管理放到了一个比较高的位置,但是其提出的数据管理功能框架对于文件档案与内容管理的描述层次比较单薄,对文件档案与内容管理的价值认知有限。DAMA 的数据管理功能框架将文件档案与内容管理描述为数据生命周期管理中一个特定阶段,即在数据管理中的某个阶段,数据管理会表现为文件档案与内容管理。但是,文件档案与内容有着更丰富的内涵,从横向来看,文件档案与内容管理同样存在其生命周期。文件档案与内容的管理过程与其生命周期相对应,包括文件档案与内容数据的产生、捕获、分类索引、访问控制、存储、利用和重用、长期保存以及处置等。文件档案与内容管理并非是数据管理的一个特定阶段,而是贯穿于整个数据生命周期。从纵向来看,对于文件档案和内容的管理也需要着眼数据治理开展规划与监管,并提供元数据管理、风险管理等基础数据管理活动的支撑。本白皮书认为:文件档案与内容管理并不只是数据管理的一个独立分支,而是渗透和融入数据管理的所有方面。文件档案管理工作因内容管理方案的应用而延展,内容管理方案也因文件档案管理的应用而专业。6 4 文档与内容文档与内容管理价值与效用管理价值与效用 图 2 文件档案与内容管理的价值 4.1 安全合规安全合规 文件档案与内容管理有利于帮助机构规避法律文件档案与内容管理有利于帮助机构规避法律风险风险。有效的文件档案与内容管理能够保障机构依法维护机构业务记录的真实性和可靠性,保障证据性记录的长期保管,避免重要记录因管理不善而遗失、泄露或被篡改所带来法律风险,保障机构的合法利益。4.2 提效降本提效降本 文件档案与内容管理有利于帮助机构优化业务流程,促进机构高效透明运文件档案与内容管理有利于帮助机构优化业务流程,促进机构高效透明运转,提高机构运行效率转,提高机构运行效率。相对于结构化数据,文件档案与内容等非结构化数据更7 加细致地刻画了业务流程中的事物运行情况,是对业务流程清晰的逻辑映射。有效的文件档案与内容管理,能够帮助管理者更好地洞察机构业务情况,从而提高机构运行效率,实现机构高效透明运转。4.3 业务连续业务连续 文件档案与内容管理有利于帮助机构应对突发事件,迅速恢复异常业务,强文件档案与内容管理有利于帮助机构应对突发事件,迅速恢复异常业务,强化机构业务连续性化机构业务连续性。文件档案与内容管理能够将机构运转的重要业务规则和事件予以留存和保管,当机构面对包括自然灾害、业务事故等突发事件而导致业务中断时,有效的文件档案与内容管理能够将数据取出以还原业务,从而帮助机构迅速恢复异常业务,降低突发事件所带来的经济损失。4.4 决策支持决策支持 文件档案与内容管理有利于促进信息资源共享整合,提升机构决策水平文件档案与内容管理有利于促进信息资源共享整合,提升机构决策水平。文件档案与内容管理强调数据的资源性和业务性,有效的文件档案与内容管理能够帮助机构实现跨部门的信息资源共享和整合,减少部门之间因系统互操作差异等因素所带来的信息壁垒,实现对多源文件档案的内容挖掘与趋势分析,从而助力机构决策,提升机构的整体决策水平。4.5 洞察创新洞察创新 文件档案与内容管理有利于提升机构知识发现和创新能力,帮助机构洞察文件档案与内容管理有利于提升机构知识发现和创新能力,帮助机构洞察创新创新。有效的文件档案与内容管理能够实现对文件档案与内容的有效开发和利用,能够帮助机构充分挖掘和管理文件档案与内容中蕴涵的知识,从而提高机构的知识管理水平,提升机构的知识发现能力,实现机构创新发展。4.6 权益保障权益保障 8 文件档案与内容管理有利于帮助机构系统性留存合法凭证,保管客户法律文件档案与内容管理有利于帮助机构系统性留存合法凭证,保管客户法律证据证据。文件档案与内容管理一方面能够留存机构自身的证据性记录,另一方面还可以帮助机构客户留存相关合法凭证,保管客户法律证据,在机构业务范围内为客户提供可靠的数据管理服务。有效的文件档案与内容管理能够一定程度上提升客户对机构的评价,有利于增强客户关系管理。4.7 资产增值资产增值 文件档案与内容管理有利于强化机构信息管控能力,实现机构的信息资产文件档案与内容管理有利于强化机构信息管控能力,实现机构的信息资产增值增值。大数据与人工智能时代,信息的资产性越来越被社会所认可。如今,数据被视为机构的无形资产,能够与实际业务场景深度融合,使得文件档案与内容更加贴近业务流程,在信息流转过程中往往有多个经手人,容易造成信息资产的流失。有效的文件档案与内容管理能够有效避免相关数据泄露和遗失,强化机构对信息资产的整体管控能力,从而实现机构信息资产的保值与增值。4.8 记忆(历史)留存记忆(历史)留存 文件档案与内容管理有利于留存机构记忆,促进文化建设文件档案与内容管理有利于留存机构记忆,促进文化建设。从时间维度来看,短期来看,文件档案与内容是业务流程和事物的真实、可靠的记录,留存了机构的业务成果和过程记忆。长期来看,文件档案与内容是机构精神与文化的积淀,是机构文化记忆的载体,有助于促进机构文化的建设,丰厚机构的历史底蕴。5 内容管理软件的应用及类型内容管理软件的应用及类型 5.1 应用架构应用架构视角下的内容管理软件应用视角下的内容管理软件应用 内容管理(Content Management,简称 CM)是一种以各种类型内容为主体,实现内容创建、编辑、共享流转、利用、保护、管理、业务融合、洞察分析、归档销毁的应用软件集合。内容管理涵盖了企业内容管理、文档管理系统、内容协作系统、网页内容管理、影像管理系统、数字资产管理、质量体系文件管理、知9 识管理系统、涉密电子文档管理、内容归档系统、内容安全保护和内容智能应用等软件和系统(如图 3 所示)。随着数据量的激增,机构业务也在跟随着社会环境变化和市场需求的扩张进一步精细化,针对不断丰富的实际应用场景,内容管理软件也在随之变化,形成了当下百花齐放的管理软件应用发展态势。接下来针对部分典型应用系统与新兴的软件应用类型进行介绍。图 3 内容管理应用全景图 5.1.1 企业内容管理系统企业内容管理系统 企业内容管理(Enterprise Content Management,ECM)是一种战略、方法和工具,通常为平台型产品,通过内容获取、管理、存储、保护、利用等方式挖掘和释放组织流程相关的内容与文档的价值,最终促进机构数字化转型,提升运营效率,并获得业务洞察能力与长远竞争优势。ECM 已有二十多年的发展历史,在国内虽然起步较晚,但近年越来越受到各行各业的重视,在吸取国外发展经验的同时,结合本土需求,向着更成熟、更智能、更实用的方向发展。ECM 的核心能力包括:各种形态内容的全生命周期管理;提供统一的非结构化数据平台;全方位的内容数据保护技术;基于内容服务平台与低代码平台,实现与业务的深度融合;用于知识创新和辅助决策的内容洞察能力等。10 5.1.2 内容协作系统内容协作系统 内容协作系统是由内容创作工具、协同编辑组件和分享功能等组成的围绕内容创作、生成、互动、传递和利用等环节的基础内容管理软件。内容创作工具包括 Office、网页超文本 Wiki、在线文档、在线流程图、思维导图、Office/CAD 创作集成组件等;协同编辑组件主要是对 Office 等文档实现基于版本控制的协同编辑或在线多人编辑;分享功能解决组织内部成员间、以及组织内外部成员间的内容传递和协作。内容协作系统强调用户在进行内容创作和使用过程中的体验和交互,能够脱离硬件设备和访问终端的限制,随时随地进行团队创作工作,并且通过全场景的多人协作方式来提升整体内容创作和利用效率。5.1.3 网页内容管理系统网页内容管理系统 网页内容管理系统有两个主要应用分支:WCM(Web Content Management,WCM)和 CMS(Content Management System)。WCM 侧重于通过提供应用组件,实现面向组织内部员工的信息内容聚合和呈现(在国内也称作:Portal)。CMS 则是组织进行面向公众网站的内容创作、发布及管理的系统。随着两个应用分支的发展,两者之间的界限越来越模糊,并呈现出合二为一的趋势。两个分支虽有不同但都是针对 Web 内容的创作、发布和管理。网页内容管理强调创作方便、布局灵活、内容时效、表现丰富、扩展集成、宣传利用等特点。通过便捷的图文音视频编排即可形成具有视觉冲击和宣传效果的信息页面,供用户浏览和利用。5.1.4 文档管理系统文档管理系统 文档管理系统是指对非结构化文档进行采集、存储和管理并提供长期利用的信息系统,能够实现对文档的集中存储、权限管理、查询索引、文档审计、版本控制、编目编号、安全保护、规则应用、存储加密、数据备份、开发利用、统计编研等基本功能,强调对文档进行全生命周期管理。文档管理系统可以实现对电子邮件、文件、表格、图片、账单、文本记录、会议纪要、设计图纸、合同方案、单据报告、音视频素材等与经营活动相关的常11 见文件档案的统一存储、统一管理和统一利用。同时,文档管理系统能够提供文档收集、文档整理、文档价值鉴定、文档保管、文档编目、文档检索、文档统计和文档编辑研究等功能应用。5.1.5 影像管理系统影像管理系统 影像管理系统(Imaging Management System,IMS)是在业务活动中将纸质原始凭证进行扫描生成电子影像文件,进行统一管理和保护,并通过文字识别和提取技术获取影像文件中的文字信息进而规范管理和利用的系统。影像管理系统主要包含三大模块:扫描仪、文字识别模块和文档管理系统。扫描仪将纸质单据凭证进行电子化和影像化;文字识别模块通过 OCR 技术提取影像文字,进行价值信息获取;文档管理系统则对电子影像文件进行安全存储、共享分发、查询搜索和电子化流程管理等后续操作。影像管理系统在金融投资、保险信托、财务会计、通信、政府机关等产生大量纸质文档、票据的行业得到了广泛的应用。5.1.6 质量体系文件管理系统质量体系文件管理系统 质量体系文件管理(ISO)是对基于 ISO 标准体系,对于体系规定的相关文件的新增、发布、签收、培训、复审修订、废止等过程进行的全生命周期管理。质量体系文件是建立并保持企业开展质量管理和质量保证的重要基础,是质量体系审核和质量体系认证的主要依据。主要管理四类文件:质量手册、程序文件、指导书和表单记录。质量体系文件管理在制造业和医药制造方面具有普遍的需求和广泛的应用。5.1.7 知识管理系统知识管理系统 知识管理(Knowledge Management,KM)是对知识、知识创造过程和知识的应用进行规划和管理的活动。知识管理系统通过在组织中构建的知识系统,让组织中的内容与知识,在获得、创造、分享、整合、记录、存取、更新、创新等过程中形成永不间断的闭环累积,成为管理与应用的智慧资本。知识管理系统的规划与建设工作包括:建立知识统一存储平台、建立多维知识呈现体系、构建知识管理蓝图、建立社区化网络知识管理体系等。12 5.1.8 合同管理系统合同管理系统 合同管理系统从合同起草、合同审批、合同执行与合同归档分析四大方面入手,辅以智能手段,实现对合同的全生命周期管理。合同管理系统有助于解决如下现实问题:合同类型繁多,伴随业务大量产生;产生渠道众多,存储与管理容易形成孤岛;标准化程度低,难规范、难归档;审批效率低,直接影响到签订与履行;难以避免人为错误,问题溯源困难等。5.2 不同行业领域中的内容管理应用类型不同行业领域中的内容管理应用类型 内容管理软件在各行各业中被广泛应用,其中以制造业、医疗制药、工程建设、建筑设计、军工、汽车、银行金融、房地产、教育、航天航空、IT 互联网、媒体出版、零售电商、运输、通讯、政府机关、新能源和公益组织等更为突出(如图 4 所示)。不同行业的内容管理应用涉及到的软件系统组合各有侧重和特色,伴随着数字化转型的推进,一些行业也引入了具有实际业务特色的内容管理应用,接下来针对部分典型行业进行介绍。图 4 内容管理行业全景图 13 5.2.1 制造行业内容管理应用制造行业内容管理应用 中国是世界工厂,需要实现全球化接轨并通过数字化转型以支撑制造业的深层次发展。在这一进程中,制造行业必须解决海量业务中非结构化数据的高速互通、全球供应链的文档数据统一存储及一致性要求、快速扩展的员工协作要求、全生命周期的质量体系管控、技术及体系文件的外发协作、跨区域及体系的研发协作、数据安全与合规性保证、统一数据保证业务连贯性、随需的业务访问请求及多系统整合等问题,才能应对企业内容管理带来的挑战。因此,制造行业内容管理在底层架构层面需要以 PB 级存储为支撑,并且进行多数据中心部署、集团化架构、多站点部署、跨国部署、多系统集成、全球加速和实时数据同步。应用层面涵盖:文档管理系统、ISO 质量体系文件管理、文件档案一体化管理、研发文档安全防扩散管理、文档外发交换管理、知识管理、纸质文件捕获管理、图文档管理等环节。通过这些内容管理应用连接起企业各个部门,实现制造升级和智能制造,如图 5 所示。图 5 制造行业内容管理应用 5.2.2 制药行业内容管理应用制药行业内容管理应用 制药行业内容管理整合了文档管理系统、质量管理平台、资源计划管理、实验室信息管理平台、生产执行系统、记录管理系统、培训管理、档案管理系统等,共同构成全面的质量管理体系。规范体系文件的无纸化生命周期过程,提供涵盖文档、记录、档案及培训等全业务过程的制药管理应用,建立集中、安全的文件管理以及可追溯体系,同时借助系统实现业务数据的采集和分析,如图 6 所示。14 图 6 制药行业内容管理应用 5.2.3 军工行业内容管理应用军工行业内容管理应用 军工行业负责国家武器装备的科研、生产和配套等工作,对数据保密性、安全性具有非常高的要求。军工行业承接大量的以国防建设、军事工业发展为目的的各类项目,项目过程中的项目数据、办公数据、终端数据、业务数据和测试数据等内容需要加以管理和利用。完整的军工行业内容管理应用体系是以电子文档管理为基础,并在电子文档管理系统中通过分权管理体系、密级管控模块、智能定密模块、文件不落地模块等保障数据的安全和保密;在电子文档管理基础上结合网间文件安全交换,保障数据流转和使用过程中的安全。在上层通过项目文档管理应用进行项目过程及内容管理;通过质量体系文件管理应用对武器装备制造环节的质量进行严格规范地管控;通过文件档案一体化应用和知识管理应用将数据结构化和体系化,挖掘数据价值促进产品改良和组织创新,如图 7 所示。15 图 7 军工行业内容管理应用 5.2.4 金融行业内容管理应用金融行业内容管理应用 金融行业拥有大量的产品信息、CIF 信息、CRM 信息、合同资料、员工资料、财务报告等非结构化数据,这些数据作为企业资产需要进行体系化管理。金融行业的网络架构以生产网、办公网、互联网分级网络进行管理,同时根据国家档案局 2015 年通过并施行的金融企业业务档案管理规定要求,金融行业需要对自身业务办理及活动中形成的各种电子文件和档案记录进行统一规范的管理和应用。较为典型的金融行业内容管理底层以非结构化数据中台作为数据存储中心和基础平台,在非结构化数据中台的基础上搭载安全网盘应用、文件安全交换应用、影像管理应用和知识管理应用等。其中,文件安全交换应用解决金融企业多级隔离网络间的数据交换和摆渡需求;影像管理应用通过扫描仪捕获业务单据凭证等影像资料并基于文字识别模块进行数据抽取和业务流转;知识管理应用通过挖掘企业存量数据资产和分析外部市场环境促进金融体制或金融工具的创新。办公网或互联网用户通过VDI安全云桌面接入方式进行网盘数据资源访问,保障云端数据不外泄。同时从风险评估、风险控制、运行监控和应急恢复方面进行全方位的风险预警和处理,如图 8 所示。16 图 8 金融行业内容管理应用 5.2.5 新能源行业内容管理应用新能源行业内容管理应用 新能源行业聚焦于刚开始开发利用或正在积极研究、有待推广的能源,如太阳能、地热能、风能、海洋能、生物质能和核聚变能等。根据当下兴盛的能源种类,能够大致分为五大主要领域,风电、充电桩、核电、光伏与储能。能源安全是关系到国家经济社会发展的全局性、战略性问题,然而由于能源网络结构复杂、业务数据等级不同、信息交互要求各异、安全防护需求繁多,能源行业的内容管理体系构建面对着巨大的挑战。针对新能源行业的特殊情况,可以通过构建文档统一管理平台,辅以一体化的应用中心,结合智能化能力,全面打通机构内的数据孤岛,通过构建内外交互的统一平台,接入机构内部各类业务系统的非结构化数据,实现内容一站式管理,同时满足机构内员工的日常办公需求。5.2.6 核电行业内容管理应用核电行业内容管理应用 作为新能源行业下的细分行业,与其他新能源种类不同,核电行业以国家级项目为主,具有周期更长、内外部合作方诸多的特点,在项目的管理与实施过程中,将产生种类繁多、数据巨大的工程项目文件,包括工程函件、设计图纸、设备规格书、调试程序、外发函件、重要会议纪要等,这些文件的管理贯穿于整个项目的立项、采购、建设、调试等全过程。因此,建立数字化核电工程文档管理系统势在必行。在核电项目中,普遍存在着大量暗数据,各个环节17 中采用不同的工具,标准不统一、兼容性差;内容频繁变更,版本众多,难检索、易丢失;多方异地协作,加大统一管控的难度。因此,核电领域内容管理平台的建设重点应该放在对公司乃至项目管理过程中的文档进行集中化管控以及实现业务系统数据的统一管理上,通过建立标准统一文档管理体系,管理范围涵盖业务文件、设计图纸、往来信函与项目管理性文件等,为高效安全的核电建设提供文档支持,为项目参与人员搭建高效的协作平台。5.2.7 工程设计行业内容管理应用工程设计行业内容管理应用 全球化竞争全面加速,而工程设计行业中内容复杂和流程繁琐,更需要引入能够对各类系统进行协同管理的应用平台。因此工程设计行业的内容管理系统需要支持文件、图纸、票据、资料等的收集、流程批转及项目协同,成为设计企业内的“一站式内容管理入口”。一方面,通过引入内容管理应用,能够规范和体现设计协同过程,对流程与进度进行统一监管,同时实现施工图档的长期保存、精准检索与迅速复用;另一方面,基于平台底层能力,实现工程行业核心应用(设计软件、PDMS、ERP、OA 等)的无缝集成,以高效的交互与发布手段,实现工程公司、业主、合作伙伴、监管机构之间的有效沟通与安全信息传递。6 内容管理内容管理系统与文件档案管理系统系统与文件档案管理系统的发展的发展 6.1 内容管理内容管理系统的发展过程系统的发展过程 随着计算机技术的普及,办公自动化的推行,非结构化数据日益增加,国内外内容管理加速发展。国际上,1990 年,Documentum 公司成立,成为第一家利用标准关系型数据库技术以及面向对象方法提供企业级文档管理解决方案的公司;2000 年左右,以电子商务和电子政务为代表的门户网站的发展带来了网页内容的指数级增长,促进了网页内容管理的成熟与发展;2002 年 Documentum 正式发布 ECM 产品;2006 年,Sharepoint Portal Server 发布;2010 年,OpenText发布;2010 年后,云计算、移动互联网、大数据等新技术改变了 ECM 的形式与内容,ECM 的内涵与外延不断更新。国内来看,2002 年起,航空、核电和工程领域的国家 ECM 一线厂商开始进入我国,首先在这些行业内掀起 ECM 潮流;18 2008 年,上海鸿翼软件技术股份有限公司发布国内首款完整 ECM 产品“鸿翼edoc2 ECM”;2009 年拓尔思信息技术股份在金融和政府领域推出 WCM 产品;2010 年信雅达系统工程股份有限公司在金融领域推出 ECM 影像管理产品;2016年之后,应用层的网盘和功能更全面的 ECM 出现,ECM 系统中的文档协同和服务能力不断提升;2017 年开始,人工智能(AI)在 ECM 系统中的逐渐显现,例如利用 AI 实现元数据自动化提取等;2020 年开始,作为内容管理的成熟软件类型,中国 ECM 行业产品平台化趋势显现,被称为“中国 ECM 元年”;2021 年,国内首个非结构化数据团体标准非结构化数据应用分级要求正式发布,做为衡量非结构化数据管理能力的标准,有效地辅助机构定位自身内容管理阶段(如图 10 所示)。图 10 内容管理系统发展时间线 6.2 内容管理系统的发展内容管理系统的发展阶段阶段 图 11 内容管理系统四阶段进阶模型 按照其与机构业务的结合程度,内容管理系统的发展可分为四个阶段:(1)内容协作阶段。此阶段文档离散分布在机构内 PC 端,仅能通过系统完19 成文档之间的协作,不能实现内容与机构业务的融合。(2)内容服务阶段。此阶段机构数据以业务系统文件(比如 SAP 里票据影像)、体系文件(比如 SOP 作业标准文档)等形式存在,通过元数据进行网状式广泛关联,数据来源于业务,又输出服务于业务。数据经汇聚、整理、处理后,以全内容服务形式开放,构建起一个统一的机构非结构化数据管理平台。(3)数字业务阶段。此阶段,行业数据经过不同维度的整理、提炼,围绕业务的垂直领域性、体系性进行立体式关联与聚合,形成了行业性的知识体系,对企业迅速应对市场变化和进行业务创新进行支持。(4)智能服务阶段。此阶段通过深度学习,自然语言处理(NLP)、知识图谱等技术对海量数据进行深度整理,构建专属大模型,实现立足业务场景的内容智能化服务,为机构降本增效、决策制定提供支持。表 1 内容管理系统四阶段特征 一阶 二阶 三阶 四阶 数据形态 用 户 电 脑 上文件,过程性、离散文件 业务系统文件(比如SAP 里发票影像),体系文件(比如 SOP作业标准)经过整理、提炼后的行业领域性数据,从不同维度视角归纳后的数据 海量数据,标注数据 数据颗粒度 文件级 内容级 知识级 语义级 数据间关系 离散的,不关联 通过内容元数据进行网状式广泛关联 围绕业务的垂直领域性、体系性关联,是一种能立体式关联与聚合 语义层关联,主题图谱和实体知识图谱 业务融合 满 足 文 件 协作,无业务融合 数据来源于业务,又输出服务于业务 深度融合业务,甚至形成业务应用 立足于业务场景上内容智能 数据安全 协 作 过 程 中的数据流动,需要存储、访问、流转等安全保护能力,属于企业安全全形态数据防护覆盖;内容级颗粒度安全措施更精准;基于统一存储的全生命周期全方位安全防护体 业务场景化渗透性安全防控,安全紧随业务,为业务中数据安全保驾护航 多层面图谱结合用户画像和操作日志,深度追溯数据安全问题,洞察预测安全风险 20 防护初级阶段 数字化能力 文 件 协 作 层面的数字化 内容中台数字化,数据经汇聚、整理、处理后,以全内容服务形式开放 业务数字化,基于低代码平台形成垂直领域的业务体系化应用,支撑企业迅速应对市场变化和进行业务创新探索 智能数字化,利用NLP、AI、图谱与大数据技术为企业降本增效、辅助决策 6.3 文件档案文件档案管理系统的发展管理系统的发展 文件档案管理系统既可能是一个单独的内容管理应用系统,也可能是企业内容管理平台的应用,还可能是某些内容管理软件的部分功能。20 世纪 80 年代,很多机构开发了辅助纸质文档管理的早期文档管理系统,主要用于档案目录信息的集成、检索与统计等;90 年代,办公自动化进程加快驱动电子文件管理系统的出现与发展,功能聚焦在电子文件的捕获归档、存储、长期保存和检索等。到 21 世纪初,文件档案管理系统已经成为信息化程度较高或知识密集型企业的必备系统,数字档案馆概念兴起,传统纸质文档的数字化、元数据著录以及长期保存等问题成为这一阶段旨在解决的主要问题。2010 年之后信息技术在业务领域的深入应用将电子文件、档案管理系统建设推向纵深化,面向电子文件单轨运行和电子档案单套保存的试点系统不断出现,以民生档案跨馆出证为代表的跨机构、跨区域的档案数据整合服务应用不断普及。2020 年 新档案法发布,电子文件单轨制管理走向合法合规,电子文件管理系统与业务系统的无缝挂接成为必然趋势。同时,随着文档资源管理与开发能力的提升,以用户为中心、面向内容和知识的文档管理系统成为新的趋势,更加强调对文档全生命周期的管理以及基于文档管理的内容共享与知识服务。7 文件档案与内容管理的应用问题文件档案与内容管理的应用问题 7.1 IT 视角下的应用问题视角下的应用问题 7.1.1 业务系统核心文件“烟囱割裂”业务系统核心文件“烟囱割裂”为了高效完成业务推进,机构业务会不断细分,伴随业务细分而来的是每个环节的业务单元都在逐步数字化和系统化。在系统的使用过程中,核心的业务系21 统文件被分散在各个业务系统中的,每个业务系统的数据体系也会愈发复杂和深化,形成一个个高耸林立的数据“烟囱”,各个“烟囱”之间没有搭建互通的桥梁,机构数据体系在这种架构下,呈现出割裂的“烟囱群”情形。“烟囱割裂”式的业务系统给文档管理带来巨大挑战。每个业务系统的数据体系都异常复杂和庞大,离散在各个细分业务系统中的文档数据变得不可知、不可控、不可取、不可联和不可信。7.1.2 离散过程文件难以统一存储离散过程文件难以统一存储 组织的过程文件一般都离散存储于在各种文件服务器、邮件系统、个人电脑、运行设备和文件柜中,其涵盖了围绕机构业务活动产生的各种往来邮件、Office文档、会议纪要、设计图纸、音视频文件等。由于其形成环节众多,过程文件往往分布广泛且脱离控制,加之体量庞大,造成了离散过程文件的采集汇聚极为困难。7.1.3 海量数据带来存储扩展和安全问题海量数据带来存储扩展和安全问题 据 IDC 预测每年全球数据的增长量约为 40%。随着互联网、移动互联网、物联网技术的发展,数据产生途径已延伸至更广泛的用户群体、各种机器设备和多样化的现实世界。海量数据在不间断产生,业务连续性对存储动态扩展的要求,加上勒索蠕虫病毒的越发猖狂等,都给文档管理带来了严峻的存储和安全挑战。7.1.4 多分支机构对部署架构挑战多分支机构对部署架构挑战 多分支机构对文件档案管理系统的部署架构带来多方面挑战。第一个挑战就是多分支机构和庞大的用户群给系统架构带来的高并发压力。第二个挑战是在不同安全等级的分支机构间如何快速实现数据摆渡和高效地传递利用。第三个挑战是如何满足全球各地的分支机构都可以快速、低延迟地进行文件档案资源访问和利用。7.2 业务视业务视角下的应用问题角下的应用问题 22 7.2.1 用户很难发现想要的文件档案用户很难发现想要的文件档案 用户获取文件档案资源一般路径是从分类目录逐层进入发现、元数据检索、内容检索等。然而,文档分类规则往往并不严格和规范,欠缺业务传导途径。元数据也只是涉及非常有限的业务信息,且元数据质量经常不可控,这些都大大限制了通过元数据进行内容发现的效果。而对于内容检索,普遍性存在搜不到、搜不准、搜不完整等问题。7.2.2 业务文件不能及时、完整归档业务文件不能及时、完整归档 各种业务系统会产生大量的文件需要统一管理。但是在业务系统与文件档案管理系统对接的过程中,往往由于档案策略没有前置、与业务系统整合难度大、整合技术能力有限、业务人员与档案管理人员缺乏有效沟通等问题,造成业务文件不能及时、完整地归档。7.2.3 文件档案未形成体系化知识文件档案未形成体系化知识 文件档案是机构在业务运营过程中形成和沉淀的显性知识,是数据中最宝贵、最有价值的部分。然而,在机构开展知识组织、知识挖掘过程中,往往过度重视人与隐形知识挖掘的重要性,而忽视了文件档案显性知识的价值创造。另外,文件档案管理系统与业务系统进行集成整合程度较低,文件数据难汇聚一起;加上非结构化数据开发与挖掘的技术手段有限,导致文件档案知识化效果较差。7.2.4 文件档案与业务融合不足文件档案与业务融合不足 文件档案数据及其服务未能嵌入至具体应用场景中,未能成为有效而全面的业务支持数据,更没有形成文件档案驱动业务的管理理念。文件档案与业务融合的不足导致业务无法从文件档案数据中汲取知识资源以进行快速响应和业务决策。7.2.5 管理人员综合能力依然欠缺管理人员综合能力依然欠缺 在文件档案管理过程中,相关人员需要非常高的综合能力,包括熟悉信息对23 象、业务管理、档案管理、数据管理、信息化技术等。综合能力的欠缺会给文件档案管理造成几种常见困难:其一是在建设者欠缺综合理解情况下,无法基于行业产品和技术特色来准确描述自身需求,从而造成系统实现与应用场景产生较大偏差;其二是建设者更多地关注 IT 技术和数据管理而忽视业务场景的需求,导致文件档案管理系统无法完全满足业务使用;其三是文档管理者欠缺技术层面的考虑而导致系统架构支撑不力、安全性不足、难以扩展等问题。7.3 数据视角下的文档档案应用问题数据视角下的文档档案应用问题 7.3.1 文件档案核心数字资产地位未被认可文件档案核心数字资产地位未被认可 当下,文件档案作为资产所发挥出的效用和价值并未得到明显的关注和认可。然而随着各种非结构化数据处理和分析技术的发展,文件档案将渐渐发挥出非常关键的重要价值。不过,这种转变还需要些时间,文件档案的核心数字资产地位在大多数的组织机构中仍未被认可,给文件档案管理带来诸多不利影响。7.3.2 非结构化数据管理战略规划缺失非结构化数据管理战略规划缺失 机构数据管理实践中,非结构化数据意识相对淡薄。随着中央文件将“数据”纳入为核心生产要素,各界日益关注与重视非结构数据管理。完整的非结构化数据管理战略包含现状评估、业务效率、安全合规、数据文化和洞察创新等方面内容,机构若缺少非结构化数据管理战略顶层规划,也必然导致文件档案在组织机构内的不被重视及其开发利用不足。7.3.3 内容数据化能力不足内容数据化能力不足 非结构化的文件是一种组织无序、难分析的大颗粒度数据,且不同类型文件其数据组织、数据形成、数据呈现等都各不一样,从而造成了内容管理系统中的文件档案没有类似结构化数据的统一数据模型,也无法在其上层进行丰富的算术运算、逻辑分析和数据挖掘,更没有形成完善的技术生态体系。虽然基于元数据的著录、标引等都是内容数据化的基本手段,但都属于元数据应用的“浅层”状态;目前通过 AI 与图谱技术对文件档案可进行一定程度的24 内容结构化与内容关联,但仍处于培育与早期发展阶段,无法实现全面而深层的结构化。内容数据化能力不足是当前文件档案的利用开发不足、分析探索不够、安全管控不力的最关键原因。7.3.4 文件档案数据价值释放不够文件档案数据价值释放不够 本应是机构最具有价值的文件档案,却面临着“档案只是用于法规遵从的档案”、“数据中心建设与档案无关”、“档案人员与 IT、数据人员的语言不通”等基础而又普遍存在的问题,造成多年来文件档案开发利用手段有限、能力不足,致使本属于高含金量的数据未得到应有的价值传递与释放。8 8 数据管理中的文件档案管理框架数据管理中的文件档案管理框架 图 12 数据管理中的文件档案管理框架 根据国内外文件档案管理标准以及 DAMA 数据管理框架,结合文件档案管理领域的实践进展,可总结提炼出文件档案管理框架,如图 11 所示。该框架自25 上而下包括四个部分,分别是价值实现层、文档治理层、管理活动层和技术实现层。价值实现层是文档管理的价值目标和整体定位,是方向性的,处于最顶层;文档治理层涉及战略、职责、制度、沟通和监督等,是宏观层面的统筹考量;管理活动层既涉及文件档案生命周期中的流程性管理活动,也涉及贯穿全生命周期的管理活动,是微观层面的操作实施;技术实现层是支撑其他层次的基础和保障。图 11 中的箭头代表文档管理的动力,其中,左侧的箭头表示文档管理是需求引导、价值驱动的,右侧的箭头表示文档管理同时也是技术赋能、系统驱动的。8.1 价值实现层价值实现层 在数据管理框架下,文档管理的核心价值包括合规与风控、协同与高效、业务连续性、创新与决策、文化记忆等五个方面。合规与风控合规与风控是合规管理和风险控制的简称,即满足机构的法规遵从要求,并能以文档的形式证明自身的合规性,规避违反安全、隐私相关规定带来的风险;协同与高效协同与高效是指文档的高效协作和管理,能够减轻机构运作的压力,提高业务工作效率;业务连续性业务连续性是指通过沉淀机构核心业务信息资产(即文档),在发生突发事故时能够迅速恢复业务,防止业务中断;创新与决策创新与决策是指基于人工智能和大数据等技术实现文档的智能挖掘、分析、利用、展示、呈现和洞察,提高机构的创新水平和决策能力;文化记忆文化记忆是指文档管理不仅具有业务方面的价值,还有文化传承方面的贡献,基于文档的开发利用能有效盘活机构记忆、传承组织机构的精神和文化内核。8.2 文档治理层文档治理层 文档治理层是指在组织与文化变革的背景下,重点关注战略管理、组织与职责、制度与流程、沟通与协调、监督与评估等方面。其中,战略管理战略管理包括规划、实施和评估。战略规划应当明确文档管理的理念、价值观和愿景,组织内外部的法律和业务环境,目标、使命陈述和评价手段,工作内容和时间安排以及制定规划的路径等;战略实施应当根据现状和发展目标之间的差距,确定工作内容的优先级,提供资源和资金保障,推动战略实施;战略评估是指在战略实施过程中跟26 踪进度,根据评估的反馈结果适时修订和更新规划。组织与职责组织与职责包括组织架构、岗位设置、文档管理责任和团队建设等内容。其中,组织架构是指建立权责明确且内部沟通顺畅的文档管理组织;岗位设置是指建立文档管理相关的岗位,明确岗位职责及任职要求;文档管理责任不仅是文档管理专业人员的责任,也是组织机构内所有员工的职责,应当明确文档管理专业人员、高层领导、管理者、系统开发与设计人员、全体员工在文档全生命周期中的责任;团队建设包括建立文档管理能力体系,制定系统且持续的团队培训和能力提升计划,确保相关人员具备履职所需的技能。制度与流程制度与流程是指组织机构应建立完善的文档管理制度规范体系,并按照制定、发布、宣贯、实施、评估和反馈的管理流程进行制度规范的检查和更新,以确保各项文档管理活动的规范有序开展。一般来说,制度规范体系应包括政策、办法和细则三个层级,规定文档生命周期各项活动的目标、遵循的行动原则、完成的明确任务、实行的工作方式和责任主体、采取的一般步骤和具体措施,以及与文档管理系统建设运维、信息安全、人员与岗位职责等相关的管理要求。沟通与协调沟通与协调是指精准识别不同利益相关者的差异化诉求,确保组织机构内全部利益相关者都能及时了解相关政策、标准、流程、角色、职责和计划的最新情况,通过引入高层管理者等方式建立文档管理相关事宜跨部门的协商机制,提供多元的问题沟通和解决渠道,旨在提升跨部门和部门内部的文档管理能力,形成良好的文档管理文化。监督与评估监督与评估是指组织机构应当根据相关规范性文件构建符合业务需求的文档管理成熟度模型,建立具体的评价指标体系,定期开展成熟度等级评价。通过评估组织机构文档管理的政策、系统、流程和方法,发现存在的问题并解决问题,实现文档管理能力的持续提升。上述各项治理活动都需充分考虑组织机构内外部的法律、社会、技术与文化环境对文档管理工作的影响。当环境发生变化时,文档治理活动需要进行适应性的灵活调整和变更。8.3 管理活动层管理活动层 管理活动层涉及两种类型的业务活动,一种是流程性的管理活动,包括生成、27 鉴定、捕获/归档、分类与索引、存储、使用和复用、长期保存、处置等。科学合理和高效有序的文档管理活动需要分类方案、归档范围、元数据方案、访问许可规则、保管期限与处置表等配套业务管理规则的支撑。其中,生成生成是文档生命周期的第一个阶段,在此阶段中,文档通过创建或接收的方式得以积累,主要包括协作、创建、接收、流转、更改、分发、传输等。鉴定鉴定是指综合考虑法律、业务、社会、历史、文化等因素对文档的价值进行综合评估,判断其是否属于归档范围并划分保管期限的行为。归档(系统中的捕获)归档(系统中的捕获)是指将业务活动中生成或接收到的数据对象作为文档及其元数据一起保存到文档管理系统中的过程,包括为文档分配唯一标识符、捕获或生成关于文档的元数据、建立文件与其他文件以及业务活动之间的关联。分类与索引分类与索引是指依据分类方案中逻辑上的结构化规定、方法和程序规则,对文档进行的系统标识并整理成类目,同时建立相应的索引元数据。存储存储是指确保文档能够不受未经授权的访问、更改、丢失或破坏(包括盗窃和灾难)的方式进行存储,确保文档的实体安全和信息安全。使用和复用使用和复用是指用户对文档的查找、使用和检索以及基于文档内容创建新的文档并开展业务活动的行为。长期保存长期保存是指一系列对文档信息进行持续管理和维护的活动,包括更新、复制、迁移、仿真、封装等策略,以确保文档信息的长期有效性、真实可信,能够被未来的使用者理解和应用。处置处置是指按照鉴定得出的保管期限与处置表对保管到期的文档实施移交、销毁或续存的一系列过程。其次是贯穿全流程的管理活动,包括安全合规、元数据管理和质量管理等,这些活动都是持续性的工作。安全管理安全管理是指文档管理需要遵从相关法律、法规,以及合规、隐私等方面的安全保护要求,构建完备的文档合规体系,从政策法规、数据资产、利益相关者和基础设施角度构建基于数据全生命周期的合规控制机制。元数据管理元数据管理是有效开展文档管理工作、确保文档质量的关键。元数据包括文档元数据和文档管理元数据,涉及文档、业务、责任者、关系等不同类型的实体。管理的内容涉及元数据定义、元数据策略、元数据权限、元数据搜索、元数据视图和元数据分析等关键环节。质量管理质量管理需要从文档质量要求、文档质量策略、文档质量政策、文档质量标准、文档质量程序、文档质量实施规划等方面展开,围绕“计划-执行-检查-处理”的质量管理生命周期确保文档质量持续满足要求。28 8.4 技术实现层技术实现层 技术实现层是针对内容的采集、存储、治理、安全合规、协作和利用、长期保存等各环节的相关技术的总和,为文件档案的“四性”即真实性、完整性、可用性和安全性提供全面的技术保障。从文件档案生命周期管理的角度来看,内容采集内容采集可以采用手工上传、在线创建、模板生成、数据同步、主动备份、强制采集、页面抓取、表单提交、爬虫工具、Connector、Adapter、SDK、API 接口等多种方式;采集数据采集数据的传输方式包括大文件分片传输、小文件聚合、数据压缩、断点续传、去重技术、差量更新、block大小智能调整、多线程多任务等高并发快速传输技术;内容存储内容存储技术包括对象存储、分布式存储、分层存储、混合存储、策略存储等技术;内容安全合规内容安全合规技术包括权限管控、零信任管理、敏感词过滤脱敏、加密、查杀毒、内容 DLP 等技术;文档协作文档协作技术包括文控流程、文件锁、多人协同编辑、文件共享、摆渡、数据外发等协同;文档智能技术通过集成人工智能、知识图谱和大数据等新一代信息技术,实现非结构化数据智能分析和利用功能,包括统一搜索、智能搜索、智能分类、智能标签、智能 OCR 识别、智能抽取和生成、智能推荐、知识图谱、数据挖掘、可视化呈现等;长期保存技术长期保存技术包括对归档数据进行格式转换、封装、迁移等处理,并且将归档数据保存在长期保存介质的技术。从文件档案“四性”保障的角度来看,真实性保障技术真实性保障技术包括安全网络、用户身份识别/认证、权限控制、操作日志、数字签名、数字摘要、可信时间戳、区块链等;完整性保障技术完整性保障技术包括定义归档范围、完整性检测技术等;可读性保障技术可读性保障技术包括复制、更新、迁移、仿真、封装、载体维护、技术保存等;安全性保障技术安全性保障技术包括容灾备份等存储安全技术,细颗粒度访问权限控制、身份认证、密级权限验证和安全域边界权限等使用安全技术,水印、基于智能 DLP(数据泄露防护)敏感检测的传输安全技术,基于大数据和知识图谱技术的审计安全技术等。9 数据管理中文件档案数据管理中文件档案与与内容管理的发展趋势内容管理的发展趋势 9.1 结构化数据和非结构化数据融合发展结构化数据和非结构化数据融合发展 结构化数据和非结构化数据都是组织机构的重要业务资产和关键生产要素。29 其中,非结构化数据已经成为数据治理体系中不可忽视的组成部分,在组织机构运转过程中发挥着不可替代的重要作用,亟待进行资产化管理。同时结构化数据和非结构化数据之间存在相互转化和互为补充的关系。一方面,结构化数据可以通过输出版式文档的方式,转化为非结构化数据,从而满足合规管理和长期保存的需求。另一方面,非结构化数据可以通过 OCR 识别、单据识别、物体识别、基于语义内容的智能标签/智能分类、实体抽取、业务元数据等手段和方式转化为结构化数据,从而满足业务和应用的需求。其中,实体关联图谱的有效抽取和抽象主题图谱的构建与持续完善是未来文件档案内容管理的重要发展方向之一。组织机构设置的数据治理委员会、数据管理部门等的关注重点将从结构化数据逐渐扩展至非结构化数据及其与结构化数据的融合,最终实现数据之间的关联、展示、分析和洞察,全面发挥数据的价值。图 13 非结构化数据与结构化数据之间能够相互转化融合 9.2 文档管理和内容管理融合发展文档管理和内容管理融合发展 文件档案管理是内容管理软件的重要功能,文档管理行业和内容管理行业密不可分,相互支撑、互为依靠,逐渐形成联动发展、互利共赢的良好生态。我国文档管理行业和内容管理行业之间的联系愈加紧密,文档管理行业逐渐成为内容管理行业的重要支撑。两者融合发展主要表现在以下三个方面:一是目标和理念的融合。以往的文档管理侧重安全合规、业务连续、权益保障、记忆留存等,内容管理侧重支持决策、提效降本、创新发展、资产维护等,现在两者都被纳入数据管理体系中,将互相利用对方的优势,共同支撑组织机构的运作以及业务活动的高效有序开展。30 二是组织和职能的融合。文档管理部门不再是居于后端的保管者,而是重新思考自身的职能和定位,一方面,参与机构整体的数据治理工作;另一方面,成为非结构化数据治理的责任部门,文档工作者成为“内容管事”,承担非结构化数据的统筹规划、全生命周期管控、数据质量保障、安全合规等职责。三是技能和工具的融合。一方面,内容管理行业需要来自文档管理行业的支撑以及与之配套的管理理念和管理规则;另一方面,文档管理行业也需要与其需求相匹配的系统、平台、技术、工具,内容管理行业能够为其提供更为丰富多样的产品及信息化的集成化解决方案。9.3 文档管文档管理和数字化业务融合发展理和数字化业务融合发展 首先,从文档管理与业务活动的关联程度来看,国际标准化组织发布的文档管理核心标准(如 ISO 15489、23081、21946、26122 等)确立了面向组织机构业务需求的以职能活动和业务流程分析为核心的方法体系,两者的融合程度逐步提高。组织机构实施文档管理的目标不再局限于文档本身的规范化和有序化,而是要更多地支撑、反馈和驱动业务活动。一方面,文档管理“从业务中来”,即业务数据化。通过分析业务可形成数据资产清单,准确识别文档及其元数据,实现数据资产的实时登记和动态监测,将文档管理需求嵌入业务流程,实施嵌入式档案化管理,满足合规管理要求。另一方面,文档管理要“回业务中去”,即数据业务化。基于业务流程分析,可精准识别各项业务的数据需求,确保合适的人能够在合适的时间以合适的方式获取合适的文档,实现数据赋能业务。其次,从数字转型的角度来看,文档管理是实现组织机构数字转型的抓手和推力,文档管理产品是优化资源配置、促进高效协同的重要工具。近年来,美国、英国、澳大利亚、新西兰、加拿大等国的文档管理主管机构相继出台政策法规,实施战略部署,推动文档管理的数字转型。我国相关主管部门也在大力推进电子文件的单套归档和单轨管理。新修订的档案法明确规定“电子档案与传统载体档案具有同等效力,可以以电子形式作为凭证使用”。文档管理数字转型意味着全流程的电子化和数字连续性的实现,是打通组织机构数字化“最后一公里”的关键。例如,就数字政府建设而言,电子证照是实现在线政务服务的关键;就数字经济发展而言,推行电子发票、规范电子会计凭证报销入账归档是促进企业运作无纸31 化、实现企业高效运作的重要举措;对智慧法院而言,电子卷宗随案生成和归档是实现案件全流程在线办理的重要环节。9.4 文档管理与内容模型的融合发展文档管理与内容模型的融合发展 模型,是对数据特征的抽象,能够为数据库系统的信息表示与操作提供抽象的框架,也是数据库系统的核心和基础,而针对非结构化数据构筑起来的底层模型便是内容模型。内容模型是对现实世界内非结构化数据相关的业务进行抽象形成的一套底层逻辑,包括业务的静态特征、动作行为与合规安全约束。图 14 内容模型及其核心能力 无论是业务端的内容库、文件夹,或者是数字档案端的门类、分类、案卷等,都对应着组织现实业务世界中确实存在的某一种业务对象,这一业务对象拥有自己独特的属性特征、关联关系、内容要求、元数据、子域规划、行为活动、权限体系、存储规则等,这些都是抽象出内容模型不可或缺的条件。围绕内容模型,能够将文件业务的现实世界与映射入文件业务的数字世界一一对应进行映射,并衍生出针对内容管理的各项相关的文档管理手段,通过数字世界来控制升级现实世界,构成完整的内容数字空间,实现业务非结构化数据的有效规整。在内容模型的支撑下,电子文件数据质量可以在不同空间、不同时间下得以确保,数据流转、处理等活动也能够在统一策略下准确执行,实现业务非结构化数据的有效规整管控。基于内容模型,能够实现对业务价值链框架的塑造与指引,确保数据标准、数据质量、数据安全和元数据管理职能活动的高效开展,全面支撑业务需求与决策。32 9.5 文档管理基础建设和智能开发融合发展文档管理基础建设和智能开发融合发展 文档和内容管理呈现出从简单的文档集中、协作办公、安全交换走向基于人工智能的智能开发的趋势,从数字化、数据化走向智能化,但需要指出的是,各阶段之间并不是直接替代的关系,而可能长期并存。未来的文档管理工作应该做到“两手抓”,一方面是文档管理基础建设,包括文档协作、文件归档、安全管理等方面。近年来,基于文档协作和共享的知识高效协同和文档全生命周期安全防控体系的市场需求呈上升趋势,成为文档管理的重要基础工作。另一方面是基于文档的深度挖掘和分析,呈现出智能化乃至智慧化的趋势。文档管理应是语义层面的管理,基于人工智能,尤其是深度学习和知识图谱,实现洞察分析,同时融合应用云计算、大数据、区块链、5G 等其他信息技术,共同赋能文档管理工作。具体来说,文档管理的智能应用场景将重点包括智能推荐、图谱探索、智能搜索、安全分析。随着 AI 技术的不断发展,如何以机构内不断增长的数据为根基,智能生成符合机构实际业务需求的内容成为了当下最热门的话题。以海量大数据为“资料”,构筑起专属的垂直内容大模型,就能够形成组织机构的“发电厂”,将原本未被充分释放的数据资源“大煤矿”转化为高效的“电能”,真正赋能万千业务活动。基于企业内容的一站式管理的“数据库”,打通组织机构内多个系统平台,能够不断地将日常运营产生的数据作为“养料”,生成多样的、可落地的智能应用,以内容生成辅助用户创作。通过构建专属大模型,实现文档的智能生成,根据用户的使用场景基于模版一键生成所需的文件,例如标书、合同等,可以有效提升类型文件编写效率,增强文件合规。因此,文档管理基础建设是实现智能开发的前提和保障,而发展智能则能够反向推动基础工作的完善,以人工智能生成代替人力,完成重复工作,实现降本增效,推动文档管理基础建设和智能开发的融合发展。
全球大数据消费体验洞察最佳实践白皮书(2024)2024 Global Big Data-Driven Consumer Experience InsightsBest Practice Whitep.
1001001本报告版权为复旦大学数字与移动治理实验室(复旦DMG)所有,如需引用本报告内容,请参照以下规范:复旦大学数字与移动治理实验室.中国地方公共数据开放利用报告省域(2023年度)R/OL.(2023-11-01)引用日期,格式为YYYY-MM-DD.http:/ 数林概貌 数林指数 数林标杆 数林亮叶 评估方法附录 002001004017024027038目录002引言001引言“中国开放数林指数”是我国首个专注于评估公共数据开放利用水平的专业指数,由复旦大学数字与移动治理实验室制作出品。自 2017 年首次发布以来,“中国开放数林指数”定期对我国各地公共数据开放利用水平进行综合评价,精心测量各地的“开放数木”,助推我国公共数据的流通与价值释放。2023 年起,开放数林指数将年度报告的名称从中国地方政府数据开放报告改为中国地方公共数据开放利用报告,以体现从“政府数据开放”迈向“公共数据开放”的方向,以及指数对公共数据从流通、到利用、到价值释放全过程的关注。开放数林指数将省及其下辖地市作为一个整体的“区域”来进行评测,并发布中国地方公共数据开放利用报告省域(以下简称报告)。202020212022201720182019002数林愿景2023开放数据,蔚然成林,“开放数林”意喻我国公共数据开放利用的生态体系,我们期待:开放数林是繁盛多姿的,各种“数木”都能竞相并生、枝杈相连、根系相通;开放数林是生生不息的,无时无刻不在成长变化,充满生机和活力;开放数林更是包容温暖的,既能让林子里的各种“生物”共享数林的美好,又能遮阳挡雨,不让他们被数据“灼伤”或“淋湿”。最终,一棵棵地方开放“数木”能够成长为一片繁盛多样、持续生长、包容宜人的中国“开放数林”。003数林概貌004数林概貌截至 2023 年 8 月,我国已有 226 个省级和城市的地方政府上线了数据开放平台,其中省级平台 22 个(不含直辖市和港澳台),城市平台 204个(含直辖市、副省级与地级行政区)。与 2022 年下半年相比,新增 18个地方平台,其中包含1个省级平台和17个城市平台,平台总数增长约9%。自 2017 年起全国地级及以上公共数据开放平台数量持续增长,从 2017 年报告首次发布时的 20 个到 2023 下半年的 226 个,如图 1 所示。一、数林概貌 图 1 历年地级及以上数据开放平台数量增长情况目前,在我国 27 个省级行政区(不含直辖市和港澳台)政府中,81.84%已经上线了公共数据开放平台。自 2015 年浙江省上线了我国第一个省级(不含直辖市和港澳台)平台以来,省级平台数量逐年增长,目前已达到 22 个,历年已上线与未上线数据开放平台的省级地方数量如图 2 所示,表 1 是各省级平台(不含直辖市和港澳台)上线时间。同时,报告也注意到有五个省级平台在上线后又出现了无法访问的情况,主要集中在中西部地区,包括甘肃、河南、宁夏、青海与新疆。005 数林概貌 图 2 历年省级(不含直辖市)平台上线情况 表 1 省级(不含直辖市)数据开放平台上线时间截至 2023 年 8 月,全国各地上线的省级(不含直辖市)公共数据开放平台的地区分布如图 3 所示,颜色越深,代表平台上线时间越早,整体上呈现出从东南部地区向中西部、东北部地区不断延伸扩散、相连成片的趋势。006 数林概貌 图 3 各省级(不含直辖市)平台上线时间的地理空间分布 图 4 2017-2022 年省级(不含直辖市)平台分布自中国开放数林指数 2017 年首次发布以来的七年中,全国各地的公共数据开放省域已蔚然成林。图 4 为 2017 年到 2023 年期间,省级地方(不含直辖市)公共数据开放平台区域分布的变化情况。007数林概貌 图 5 各省域平台整体上线情况地理空间分布截至 2023 年 8 月,全国各省域数据开放平台的整体上线情况如图 5和表 2 所示,省域包括省(自治区)本级和省内下辖城市,图中颜色越深,代表该省域数据开放平台的整体上线程度越高。目前,福建省、广东省、广西壮族自治区、贵州省、江苏省、江西省、山东省、四川省与浙江省共 9个省域的省(自治区)本级和下辖所有城市都已上线了数据开放平台(图中显示为全境深绿色的省域)。从整体上看,东南沿海和中部地区的数据开放平台已经基本相连成片。008数林概貌 图 6 历年地方政府开放的有效数据集总数自中国开放数林指数 2017 年首次发布以来,每年采集到的各地平台上开放的有效数据集总数逐年增长(如图 6 所示),2017 年全国所有地方只开放了八千多个数据集,2023 年已增长到 34 万多个,是 7 年前的 41 倍。表 2 部分省域及下辖地市平台上线情况009数林概貌 图 7 历年各地方政府无条件开放的数据集总容量(数量级:万)数据容量是指将一个地方平台中可下载的、结构化的、各个时间批次发布的数据集的字段数(列数)乘以条数(行数)后得出的数量,体现的是平台上开放的可下载数据集的数据量和颗粒度。2019 年以来各地平台无条件开放的可下载数据集的容量从 2019 年的 15 亿到 2023 年超 480 亿,5 年间增长了 32 倍(如图 7 所示)。中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要明确提出“开展政府数据授权运营试点,鼓励第三方深化对公共数据的挖掘利用。”当前,部分地方已在积极探索授权运营工作,截至 2023 年 9 月,各地已正式出台的与公共数据授权运营相关的法规政策如表 3 所示,发布的相关征求意见稿如表 4 所示。010数林概貌 表 4 各地公共数据授权运营相关法规政策征求意见稿一览表(截至 2023 年 9 月)表 3 各地公共数据授权运营相关法规政策一览表(截至 2023 年 9 月)011数林概貌目前各地已公开上线的公共数据授权运营平台或在数据开放平台上开设授权运营专区的地方如表 5 所示。表 5 地方公共数据授权运营平台或专区012数林指数013 数林指数二、数林指数2023 年度全国省域开放数林指数分值如表 6 所示,报告还基于综合指数分值将各地的公共数据开放利用水平分为五个“开放数级”。浙江省和山东省的综合表现最优,进入第一等级“五棵数”,获得“数开繁盛”大奖。贵州省也总体表现优秀,进入第二等级“四棵数”,其次是福建省、四川省、广东省、广西壮族自治区等地。在四个单项维度上,浙江省在准备度、数据层和利用层上表现最优,贵州省在服务层上表现最优。表 6 中国开放数林指数省域综合排名014 数林指数省域开放数林指数空间分布如图 8 所示,颜色越深代表综合指数分值越高。指数分值较高的地方主要集中在我国东部的浙江省、山东省、福建省、广东省以及西部的贵州省、四川省和广西壮族自治区。图 8 省域开放数林指数空间分布015 数林指数“数林匹克”指数数据开放利用是一场马拉松,而不是速滑赛,不在于一个地方是否跑得早、跑得急,而在于这个地方能否跑得长、跑得久。报告继续通过“数林匹克”四年累计分值,反映一个地方在过去四年(2020 年-2023 年)开放数据的持续水平。省域“数林匹克”指数由 2020 年到 2023 年这四年该省域的全年开放数林综合指数的分值累加而成。表 7 为 2020-2023 省域“数林匹克”累计分值排在前十名的地方,浙江省分值最高,其次是山东省、贵州省和广东省。表 7 省域“数林匹克”累计分值(前十名)016数林标杆017数林标杆三、数林标杆1.浙江省浙江省已建立了完备的数据开放与授权运营法规政策体系,制定了地方性法规浙江省公共数据条例、地方政府规章浙江省公共数据开放与安全管理暂行办法以及一般规范性文件浙江省公共数据开放工作指引,并制定了我国省级层面首部专门针对公共数据授权运营的规范性文件浙江省公共数据授权运营管理办法(试行),以规范公共数据授权运营管理,推动公共数据有序开发利用。浙江省数据开放平台注重用户获取数据的体验,提供了类似“购物车”的“数据批量下载”功能(如图 9 所示),用户可在选择添加多个数据集后一并下载。同时,还通过“社会数据专区”为企业和社会组织提交自己持有的数据提供了入口(如图 10 所示),供其他用户下载。其中,部分社会数据来自于以往数据开放大赛孵化的成果,实现了公共数据的价值释放与回流。图 10 浙江省平台的“社会数据专区”图 9 浙江省平台的“数据批量下载”功能018数林标杆浙江省平台开放的数据集整体质量较高,在可用性、可理解性、完整性与及时性等方面均在全国处于领先位置。平台还设有数据高铁专区,通过接口形式将业务场景下实时产生的数据向用户开放,用户申请接口后基于调用参数即可持续获取数据(如图 11 所示),降低了数据产生到开放之间的流通时间。浙江数据开放平台还为开放的数据集提供了较为详细的描述说明,为部分数据集提供了数据字典,以描述数据采集的背景并对数据字段作出解释(如图 12所示)。图 11 浙江省数据开放平台的数据高铁专区 图 12 浙江省数据开放平台上为部分数据提供数据字典说明019数林标杆 浙江省注重公共数据的开放利用和价值释放,通过对开放数据的有效利用为公众提供更便捷的服务,鼓励社会力量积极参与城市治理。例如,为了在高速应急施救中解决社会救援资源调度不足、利用率低、响应不及时等问题,浙江数据开放创新应用大赛孵化的“安迅应急救援道路安全的守护者”应用通过汇集公共数据和社会数据并进行分析利用,建立了一套社会救援力量数字化调度体系,整合优化施救驻点和救援资源分布,缩短救援响应时间,形成 1 分钟接警、3 分钟出警、15 分钟到场的“1315”高速公路施救流程标准和城市道路施救流程标准,大幅提高了道路应急救援效率(如图 13 所示)。图 13 浙江省的“安迅应急救援”项目020数林标杆“安诊无忧”陪诊服务是浙江省 2022 年数据开放创新应用大赛评选出的优秀作品。“安诊无忧”利用医院信息数据(包括医院的名称、位置、级别、类型等数据项)、医疗机构服务情况(包括急诊、门诊人次等数据项)、护士职业证书数据、职业技能证书等开放数据,并结合自有数据,搭建线上陪诊预约平台,为老人、儿童、残障人士提供专业陪诊服务。“安诊无忧”致力于对接陪诊师的需求与供给,改善弱势人群的就医体验,减少患者的就诊时间和负担,如图 14 所示。图 14 浙江省的“安诊无忧”陪诊服务应用021数林标杆2.山东省山东省注重制定年度数据开放工作计划,发布数据集开放清单,在 2023年新增公共数据开放清单 中提供了数据来源、数据集名称、字段、开放属性、开放条件、更新频率、计划开放时间等具体信息(如图 15 所示)。山东省无条件开放的数据数量在全国处于领先地位,省本级无条件开放数据集的平均容量近 120 万,省域内所有地市开放数据集的平均容量超46万。此外,省本级与省域内各地市开放的高需求高容量数据也名列前茅,尤其体现在企业注册登记、气象、卫生等领域。山东省数据应用创新创业大赛设置了多条赛道,其中“数据赋能高校创业赛道”(如图 16 所示)为高校学生提供了门槛较低的参赛通道,以扩大比赛的参与面。图 15 山东省2023 年新增公共数据开放清单(部分截图)022数林标杆 图 16 山东省开放数据利用大赛设置高校就业赛道为了解决商业医保理赔数据打不通、流程繁琐等问题,山东省推出“政保通”平台,向商业保险机构开放公共数据,打通商业医保理赔服务的“最后一公里”(如图 17 所示),运用隐私计算技术实现数据“可用不可见”,并按照“一数一授权”的模式,要求个人数据需经本人授权后方可被调用。图 17 山东省 政保通“支撑商业医保快速理赔023数林亮叶024数林亮叶四、数林亮叶除了以上两个标杆案例,2023 年其他省域在公共数据开放利用和授权运营工作上也出现了不少亮点:海南省在卫生健康领域开放的数据容量较高、质量较好,涉及到医疗机构、药品目录、疾病诊断信息等市场需求高、具有较高利用价值的数据;福建省对省级平台上已开放数据及时进行更新,约 50%的无条件开放数据集今年实现了更新。广东省数据开放平台提供的数据接口调用方式便捷,调用所需参数少,方便易用。贵州省平台重视与用户的互动反馈,对用户提出的有条件开放数据申请、未开放数据请求、意见建议、数据纠错和权益申诉均进行了及时有效的回复,并公开了相关信息。即使对决定不同意开放的数据申请也给出了具体的原因和建议(如图 18 所示)。数据层亮叶服务层亮叶025数林亮叶公共数据开放还为科研工作提供了数据支撑,山东省、贵州省开放的公共数据产出的科研论文数量较多,涉及旅游经济、产业发展、生态保护等研究领域。公共数据授权运营方面的探索也已产生了初步成果,山东省和福建省产出的授权运营的数据产品涵盖财税金融、生态环境、卫生健康、经贸工商等领域。利用层亮叶 图 18 贵州省平台对有条件开放数据申请的回复026评估方法027 评估方法五、评估方法指标体系开放数林指数邀请国内外政界、学术界、产业界七十余位专家共同参与,组成“中国开放数林指数”评估专家委员会,以体现跨界、多学科、第三方的专业视角。专家委员会基于数据开放的基本理念和原则,立足我国公共数据开放的政策要求与地方实践,借鉴国际数据开放评估经验,构建起一个系统、专业、可操作的公共数据开放评估指标体系,并每年根据最新发展态势和重点难点问题进行动态调整。1、从“政府数据开放”迈向“公共数据开放”2023年起,开放数林指数将评估对象从“政府数据”扩展为“公共数据”,即各级党政机关、企事业单位依法履职或提供公共服务过程中产生的公共数据。2021 年,中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要提出要“扩大基础公共信息数据安全有序开放,探索将公共数据服务纳入公共服务体系,构建统一的国家公共数据开放平台和开发利用端口。”2022 年,中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见要求“对各级党政机关、企事业单位依法履职或提供公共服务过程中产生的公共数据,加强汇聚共享和开放开发”,“对不承载个人信息和不影响公共安全的公共数据,推动按用途加大供给使用范围”。2023 开放数林指数在指标体系和评估方法上的调整重点如下:028 评估方法2、将“公共数据授权运营”纳入评测内容2023 年起,开放数林指数将各地在公共授权运营方面的探索和成果也纳入评测内容。2021 年,中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要指出要“开展政府数据授权运营试点,鼓励第三方深化对公共数据的挖掘利用。”2022 年,中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见指出要“鼓励公共数据在保护个人隐私和确保公共安全的前提下,按照原始数据不出域、数据可用不可见的要求,以模型、核验等产品和服务等形式向社会提供。”开放数林指数认为,公共数据开放和授权运营的目的都是为了畅通公共数据资源的大循环,减低市场和社会主体获取公共数据的门槛,释放公共数据的价值,两者相辅相成,又各有侧重。因此,开放数林指数将一个地方的公共数据开放和授权运营水平做为整体,来评价该地方释放公共数据价值的总体成效。2023 开放数林指数具体从以下几个方面初步开展对公共数据授权运营的评估:准备度评测关注各地制定和出台的与授权运营相关的法规政策,以促进和规范公共数据授权运营工作;服务层评测关注数据开放平台与授权运营平台之间的联通协同以及数据目录的整体展现;数据层评测关注授权运营数据的数量、种类、透明度和可理解性等方面;利用层评测聚焦数据授权运营的成果产出及其价值。3、将评估维度“平台层”更名为“服务层”2023 开放数林指数将平台层更名为服务层,以强调数据开放和授权运营平台的持续运营与有效服务。具体而言,进一步下调了平台功能设置相关指标的权重,提高了数据获取、互动反馈、回应落实等体现平台实际运营服务水平的指标的权重,即不是看“平台对用户说了什么”,而是看“有没有说到做到”。029 评估方法4、强化需求驱动和利用导向2023 开放数林指数进一步强化数据开放和授权运营的需求驱动和利用导向。需求、开放与利用之间具有循环并进的关系,市场和社会对公共数据的需求是开放和运营的起点和依据,而开放和运营又是利用的基础,利用则是开放和运营的目的,反过来,利用又能激发出新的需求,从而进一步促进开放和运营。具体而言,2023 开放数林指数在以下几个方面强化对需求驱动和利用导向的评估:准备度评测重视相关法规政策中对需求征集、需求回应以及开放范围与目录按需动态调整等方面作出的要求;服务层评测重视平台对用户所提需求的实际回应与落实情况;数据层评测增加对高需求高容量数据集开放数量的评测;利用层评测关注数据开放带来的经济和社会价值,以及数据开放利用赛事中形成的创新方案的落地转化情况,并在成果数量指标中新增对基于开放数据发表的科研论文的评测。5、增加对公共治理/公益服务类数据的评测2022 年中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见指出要“推动用于公共治理、公益事业的公共数据有条件无偿使用”。因此,开放数林指数在去年重点对企业注册登记、交通、气象、卫生四个领域的关键数据集开展评测的基础上,今年又进一步将“教育”、“社会民生”等领域纳入关键数据集范围进行评测。6、细化对数据质量的评测在数据层评测中,兼顾数据容量增长的总量与质量,加强对数据的完整性、及时性与持续性等方面的检测;增强对实时动态数据接口的评测;对于社会高需求数据集,增加对其关键字段开放情况的评测。7、注重普惠包容评测政策法规中对多种社会主体平等获取数据作出的要求,评测平台在开放协议及在有条件开放数据的申请条件设置中是否贯彻了非歧视性原则,并注重开放数据大赛的参与门槛与社会参与度。030 评估方法2023 开放数林评估指标体系共包括准备度、服务层、数据层、利用层四个维度及下属多级指标(如图 19 所示)。2023中国开放数林指数省域指标体系框架如下:准备度是“数根”,是数据开放的基础,包括法规政策、标准规范、组织推进等三个一级指标。服务层是“数干”,是数据开放的中枢,包括平台体系、功能运营、权益保障、用户体验等四个一级指标。数据层是“数叶”,是数据开放的核心,包括数据数量、开放范围、数据质量、安全保护等四个一级指标。利用层是“数果”,是数据开放的成效,包括利用促进、利用多样性、成果数量、成果质量、成果价值等五个一级指标。031 评估方法 图 19-1 2023 中国开放数林指数指标体系(省域)032 评估方法 图 19-2 2023 中国开放数林指数指标体系(省域)033 评估方法 表 8 省本级平台一览表(按拼音首字母排序)评估范围开放数林指数将省作为一个“区域”,而不仅仅是一个“层级”来进行评测。根据公开报道,以及使用“数据开放”“数据公开”“公共数据”“地名数据”“地名公共数据”“地名公共数据开放”等关键词进行搜索,发现了截至 2023 年 8 月我国已上线的地方公共数据开放平台,并从中筛选出符合以下条件的平台:1、原则上平台域名中需出现 ,作为确定其为政府官方数据开放平台的依据。2、平台由行政级别为地级以上的地方政府建设和运营(不含港澳台)。3、开放形式为开设专门、统一的地方公共数据开放平台,或是在政府官网上开设专门栏目进行集中开放,由条线部门建设的开放数据平台不在评估范围内。本次评估中,共发现符合以上条件的省级公共数据开放平台 22 个(如表 8 所示),和城市平台 200 个(不含直辖市)。报告将上线了以上这些平台的 27 个省域(不含港澳台和直辖市)作为评估对象。034 评估方法此外,报告还使用“数据开放”“公共数据运营”“公共数据服务”“政务数据运营”“政务数据服务”等关键词进行搜索或通过数据开放平台提供的入口,发现了截至 2023 年 9 月我国已上线的地方公共数据授权营运平台或专区,如表 9 所示。表 9 地方公共数据授权运营平台或专区数据采集与分析方法准备度评估主要对相关法律法规、政策、标准规范、年度计划与工作方案、新闻报道等资料进行了描述性统计分析和文本分析。搜索方法主要包括以下两种:一是在搜索引擎以关键词检索相关法规与政策文本、标准规范、年度工作计划、政府工作报告、数字政府方案、以及数据开放和授权运营主管部门的信息;二是在地方政府门户网站以及公共数据开放平台与授权运营平台上通过人工观察和关键词检索采集数据。数据采集截止时间为 2023 年 9 月。服务层评估主要采用人工观察和测试法对各地公共数据开放平台与授权运营平台提供的服务进行观测并做描述性统计分析,并对平台的回复时效和回复质量进行了评估,数据采集截止时间为 2023 年 9 月。此外,服务层还引入了“体验官”对用户在数据发现与数据获取过程中的实际体验进行评测,与人工观察同时进行。035 评估方法数据层评估主要通过机器自动抓取和处理各地公共数据开放平台与授权运营平台上提供的数据,结合人工观察采集相关信息,然后对数据进行了描述性统计分析、交叉分析、文本分析和空间分析。数据采集截止时间为 2023 年 9 月。利用层评估主要对各地公共数据开放平台与授权运营平台上展示的利用成果进行了人工观察和测试,对 2021 年以来各地开展的开放数据创新利用比赛信息进行了网络检索,并对采集到的数据进行了描述性统计分析。数据采集截止时间为 2023 年 9 月。此外,为确保采集信息准确,避免遗漏,部分指标采取报告制作方自主采集和向各地征集相结合的方式。各地征集结果经过报告制作方验证后纳入数据范围。同时,本次评估发现,个别已上线的地方平台出现无法访问造成数据供给中断的情况,或虽然平台仍在线,但实际上无法通过平台获取数据。指数计算方法指数制作方基于各地在各项评估指标上的实际表现从低到高按照 0-5 分共 6 档分值进行评分,其中 5 分为最高分,相应数据缺失或完全不符合标准则分值为 0。对于连续型统计数值类数据则使用极差归一法将各地统计数据结果换算为 0-5 分之间的数值作为该项得分。各地平台在准备度、服务层、数据层、利用层四个维度上的指数总分等于每个单项指标的分值乘以相应权重所得到的加权总和。基于指标本身的重要性、各地在各项指标上的平均达标情况和地区间差距配置权重。最终,各地开放数林指数等于准备度指标分值、服务层指标分值、数据层指标分值、利用层指标分值乘以相应权重的加权平均分。省域开放数林指数计算公式如下:036 评估方法省域开放数林指数18224515服务层指标分值此图由AI生成037附录038指数制作团队报告校对组体验官观察员郑磊、刘新萍、张忻璐、吕文增、张宏、侯铖铖、蒋佳钰、鞠逸飞胡业飞、王翔、袁千里、马李滨、韩笑丁超逸、高梦婷、胡颖、凌丹、潘悦滢、魏澜、吴逸萌、朱丹妮薄佳妍、蔡伊南、曹雁飞、陈宸、陈佳玉、陈曦来、陈祺康、陈业、陈镒丹、陈昱彤、褚晓、崔梦柯、邓佳星、胡珍、姬祥飞、李姗蔓、李霞、李之端、梁嘉桐、梁天佑、刘馨、陆婷婷、罗姝瞳、罗意、欧阳材泓、彭灿、任姝菡、孙孟杰、王晶格、王潇睿、王野然、王怡文、尉苇、项善、辛悦、萧海玥、徐佳迪、徐若茜、徐思佳、徐玉东、于锦文、张梓琦、朱启珠、庄文婷指数制作方039评估专家委员会040联合发布方合作单位冥睿(上海)信息科技有限公司 中山大学数字治理研究中心 晴禾(南京)文化有限公司 复旦发展研究院