《量子科技产学研创新联盟:2024基于量子安全的分布式容错云存储应用场景研究报告(39页).pdf》由会员分享,可在线阅读,更多相关《量子科技产学研创新联盟:2024基于量子安全的分布式容错云存储应用场景研究报告(39页).pdf(39页珍藏版)》请在三个皮匠报告上搜索。
1、 1 编 制 说 明 本报告围绕基于量子安全的分布式容错云存储的应用场景展开研究。本报告首先介绍了存储技术、容错技术及量子安全相关概念,并列举了分布式容错云存储技术在多个行业领域的应用场景,分析总结了当前分布式云存储系统主流架构,接着本报告提出了基于量子安全的分布式容错云存储技术方案,包括需求分析、方案设计、技术路线实现、技术特点总结等内容。最后本报告对研究内容进行了总结,并给出发展建议。编写组成员:编写组成员:马春利、赵勇、黄强、李东东、赵梅生、武宏宇、赵于康、王子、周晓刚、刘勇、刘绘 2 目目 录录 编制说明.1 目录.2 1 前言.1 2 缩略语.1 3 相关技术介绍.2 3.1 存储技
2、术.2 3.1.1 集中式存储.3 3.1.2 分布式存储.3 3.2 容错技术.4 3.2.1 数据镜像.4 3.2.2 纠删码.4 3.2.3 秘密共享.5 3.3 量子安全.5 3.3.1 基于数学方法.5 3.3.2 基于物理方法.6 4 分布式云存储应用场景.6 4.1 应用场景介绍.7 4.1.1 电子政务云.7 4.1.2 金融科技.8 4.1.3 电力行业.9 4.1.4 广电 CDN.10 4.1.5 航空电子系统.11 4.1.6 铁路综合视频监控.13 4.1.7 车联网.14 4.1.8 气象数据.15 4.1.9 高校数据中心.17 4.1.10 医疗大数据.18 4
3、.2 应用场景总结.19 4.2.1 DHFS 架构.19 4.2.2 Ceph 框架.20 4.2.3 Swift 框架.21 4.2.4 总结及改进思考.22 3 5 基于量子安全的分布式容错云存储.23 5.1 需求分析.23 5.2 方案设计.24 5.2.1 量子安全保证数据的机密性.24 5.2.2 纠删技术实现数据的完整性与容错性.25 5.2.3 秘密共享增强用户对密钥的分散存储及数据的管控.25 5.3 技术路线实现.25 5.3.1 三种存储方案的比较.26 5.3.2 基于量子安全的分布式容错云存储架构.27 5.3.3 应用层密钥秘密共享及数据预处理.27 5.3.4
4、系统层的数据存储容错处理.31 5.4 技术特点总结.32 5.4.1 存储技术与量子安全相结合.32 5.4.2 密钥的秘密共享及分散存储.32 5.4.3 密钥密文同存保护.32 5.4.4 纠删码与副本拷贝混合存储策略.33 5.4.5 系统低速处理高速处理分离.33 6 展望.33 7 参考文献.34 量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 1 1 前言 数据存储已成为现代信息技术和数字化社会的基石,深刻影响着各行各业的发展以及人们日常生活的方方面面,其发展与研究的意义非常重大。通过存储技术使得数据信息可以得到保存与传承;企业和组织中,数据存储已经成为业务运
5、营的核心部分;随着大数据时代的到来,数据存储也成为数据分析与决策的基础;数据存储技术的进步也不断推动着科技创新的发展。比如在人工智能、机器学习等前沿技术方面需要大量的数据进行训练和验证,而高效的数据存储解决方案为这些技术发展提供了坚实基础。随着云计算技术的发展,数据存储也已进入云存储时代,分布式云存储成为数据云存储的研究热点之一。然而,随着越来越多的个人和企业将敏感信息委托给云服务,数据安全和隐私变得至关重要。数据泄露或未经授权访问的潜在后果是严重的,从经济损失到声誉损害。面对众多的网络威胁和复杂的攻击技术,需要强有力的安全措施来应对防范这些风险。如何更高效更安全地存储数据已经成为云存储最为关
6、注的问题。QKD(量子密钥分发,Quantum Key Distribution)是一种利用量子态实现安全密钥分发的方案,常用于保障传输数据的安全性。本研究报告探索 QKD 在传输安全之外更丰富的量子安全服务应用场景,比如数据存储、数据处理等方面,也提供量子安全的能力。本研究报告首先介绍了分布式云存储及量子安全技术相关概念,总结了分布式云存储当前现状及相关背景研究。接着介绍了当前云存储系统在政务、金融、电力、广电、航空、交通、教育、医疗等多方面领域的应用场景,并对主流云存储系统架构进行了分析总结,并提出了改进思考。本研究报告对三种当前主流的容错存储方案的优缺点对比分析、分布式云存储系统如何融入
7、量子安全、如何高效容错存储、在单用户和多用户场景下的密钥安全保护及分散存储、数据拥有者对共享数据的管控等关于量子安全的分布式容错云存储系统的多个研究方向进行了重点分析,并提供了解决和改进方案。研究报告在基于量子安全的分布式容错云存储系统的需求分析、技术路线实现、技术方案设计、技术特点总结等多个方面进行了详细阐述。最后,报告对基于量子安全的分布式容错存储在未来各个领域发挥的作用及研究方向进行了展望。2 缩略语 CDN:内容分发网络(Content Delivery Network)CIFS:通用互联网文件系统(Common Internet File System)CRUSH:可扩展哈希下的受控
8、复制(Controlled Replicated Under Scalable Hashing)量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 2 DAS:直接附加存储(Direct Attached Storage)EBS:弹性块存储(Elastic Block Storage)EC:纠删码技术(Erasure coding)ECC:椭圆曲线密码算法(Elliptic Curve Cryptography)FC:光纤通道(Fibre Channel)HDFS:Hadoop 分布式文件系统(Hadoop Distributed File System)IoV:车联网(Int
9、ernet of Vehicles)iSCSI:互联网小型计算机系统接口(internet Small Computer System Interface)MDS:元数据服务(Meta Data Server)MON:监控器(Monitor)MS:镜像存储(Mirroring Storage)NAS:网络附加存储(Network Attached Storage)NFS:网络文件系统(Network File System)OSD:对象存储设备(Object-based Storage Device)P2P:对等网络(Peer-to-Peer)PQC:后量子密码(Post Quantum Cr
10、yptography)QKD:量子密钥分发(Quantum Key Distribution)RSA:RSA 公钥加密算法(Ron Rivest,Adi Shamir,Leonard Adleman algorithm)SAN:存储区域网络(Storage Area Network)SCSI:小型计算机系统接口(Small Computer System Interface)SS:秘密共享(Secret Sharing)VD:虚拟盘(Virtual Disk)VM:虚拟机(Virtual Machine)3 相关技术介绍 本研究课题涉及存储技术、容错技术以及量子安全等方面内容,下面就这几个方面
11、的相关技术做个简要介绍。3.1 存储技术 存储技术主要分为集中式存储和分布式存储两大类。集中式存储属于传统的存储方式,其特点是数据集中存放在一个物理位置。分布式存储通过连接多台独量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 3 立的存储设备的磁盘空间起来,构成一个虚拟的、逻辑上统一的存储设备,实现数据的分散存储和管理。3.1.1 集中式存储 集中式存储包括 DAS(直接附加存储)、NAS(网络附加存储)、SAN(存储区域网络)等。DAS 是指将存储设备通过 SCSI 线缆或光纤通道直接连接到服务器上,这种连接方式可扩展性差,而且在应用系统大量读取文件时,SCSI 通道成为
12、 I/O 最大瓶颈,因此 DAS 法满足大规模存储的要求。NAS 是一种文件共享服务。NAS 拥有自己的文件系统,通过 NFS 协议或 CIFS 协议对外提供文件访问服务,因此能实现不同的操作系统进行文件共享。NAS 依赖于业务网络,其应用访问存储和存储内部的数据备份、恢复管理等共用网络,容易给网络形成双重负担,特别是当网络拥塞时,应用访问存储以及存储的数据备份恢复等操作都会受到影响,容易形成单点故障。NAS 主要用于非结构化数据存储。SAN 是一种通过网络方式连接存储设备和应用服务器的存储架构,这个网络专用于主机和存储设备之间的访问。当有数据的存取需求时,数据可以通过存储区域网络在服务器和后
13、台存储设备之间高速传输。目前常用的 SAN 结构根据协议和连接器的不同,主要分为两种:一种是 FC SAN;另一种是 IP SAN。主流的存储阵列由于同时提供光纤通道接口和普通网络接口,因此能够利用 FC SAN和 IP SAN 结构与主机连接。SAN 存储主要用于结构化数据的场景。SAN,特别是 IP SAN,组网灵活,不受地域限制,存储也相对高效,但其后端安装复杂,价格比较昂贵。大数据时代,在数据急剧膨胀的情况下,集中式存储存在容量扩展不易、性能瓶颈、运维成本高等诸多问题。3.1.2 分布式存储 相较于传统存储方式,分布式云存储带来了全新的高性能、高扩展、高稳定、高性价比等优势,特别是对于
14、非结构化的数据,分布式云存储具备传统存储不可比拟的优势。分布式存储能够有效地解决传统集中式存储在处理大规模数据时面临的性能瓶颈、可靠性和安全性问题。分布式存储通过将数据分布在多个节点上,实现了数据的冗余备份,提高了数据的可用性和可靠性。即使某个节点发生故障,其他节点仍然可以提供数据访问服务,从而保证了数据的持续可用性。分布式存储具备高扩展性,可以灵活地增加或减少存储节点,以适应数据量量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 4 的增长或减少。这种动态扩展的能力使得系统能够轻松应对大规模数据存储的需求,降低了因数据量增长而带来的存储压力。分布式存储通过并行处理和负载均衡
15、等技术,提高了数据的访问速度和系统的响应能力。多个节点同时处理数据请求,可以显著提高数据访问的吞吐量和效率。分布式存储技术广泛应用于大数据处理、云存储服务、物联网和人工智能等各种需要大规模数据存储和处理的应用场景。云存储是一种基于云计算技术的存储技术,它将数据存储在云服务器上,并通过互联网进行访问和管理。云存储也属于分布式存储技术的一种,它采用分布式存储架构,具备分布式存储的所有特点,同时云存储还提供了按需付费、数据安全和灵活性等额外优势,是一种灵活、可靠、安全且成本效益高的数据存储解决方案。3.2 容错技术 对于任何一类存储,采用容错技术以保证数据不因节点失效而丢失都至关重要的。实现容错有很
16、多种方式,比如数据镜像技术、纠删码技术,以及秘密共享技术等。3.2.1 数据镜像 数据镜像(也称副本拷贝)技术是一种重要的数据管理和备份方法,它通过创建原始数据的完整副本,并将这些副本存储在不同的位置,以此来保障数据的完整性、可靠性和可用性。这种复制通常是实时的或近实时的,旨在确保在源位置发生故障或需要恢复时,能够迅速地从目标位置获取准确的数据。通过使用专门的软件或硬件工具,数据镜像在源位置和目标位置之间建立一个同步机制,监控和比较源数据的更新。3.2.2 纠删码 纠删码技术是一种数据保护方法,它将数据分割成片段,并通过编码将冗余数据块扩展、编码后存储在不同的位置,如磁盘、存储节点或其他地理位
17、置。纠删码技术通过创建一个数学函数来描述一组数字,从而可以检查数据的准确性,并且在数据丢失时能够恢复。这种技术最早应用于通信行业,解决数据在传输中的损耗问题,后来被引入到存储系统中,以提高存储可靠性并降低存储成本。纠删码的实现算法有很多种,其中较为常见的是 Reed-Solomon 算法,它通过计算原始数据的冗余部分,并将这些数据和冗余部分存储起来,以达到容错的目的。当原始数据或冗余数据丢失时,可以通过剩余的数据和冗余部分恢复丢失的数据,量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 5 从而保证数据的可靠性。纠删码技术提供了与传统的副本机制相同的容错能力,但能大幅度降低存
18、储成本,因为它的存储开销通常不超过 50%,而传统的副本机制通常会有 200%的额外开销。3.2.3 秘密共享 秘密共享(Secret Sharing)是通过利用密码技术将秘密信息分拆成 n 个份额,并分发给多个成员,只有阈值数量 k(kn)个合法成员的份额共同参与才能恢复出原秘密信息。在这个过程中,任何单个参与者或少于 k 个的参与者组合都无法获得关于秘密的任何有用信息。秘密共享的主要目的是阻止秘密过于集中,以达到分散风险和容忍入侵的目的,是信息安全和数据保密的重要手段,秘密共享可以实现秘密的分散保存和容错存储。秘密共享在容错上的应用具有显著的优势和广泛的应用前景。它不仅能够提高系统的容错能
19、力和安全性,还能够为分布式存储系统、安全协议等领域提供有力的支持。3.3 量子安全 量子安全(Quantum Safe)是一种能够抵御量子计算等超强算力威胁的信息安全技术。随着量子科技的快速发展,传统的信息安全技术面临着前所未有的挑战,量子安全技术的出现正是为了应对这一挑战。在数据存储领域中,量子安全不仅能够保障数据的机密性和完整性,提高数据存储安全,还能够在节省存储空间、增强数据容错上发挥重大作用。未来随着量子技术的不断进步和应用的不断拓展,量子安全在存储领域的作用将会更加凸显。实现量子安全方式主要分为基于数学方法和基于物理方法两类。3.3.1 基于数学方法 随着量子计算的发展,其强大的计算
20、能力给当前许多经典安全协议和密码算法带来巨大威胁和挑战,如 RSA、ECC 等都很容易受到量子计算的攻击。因此,量子安全技术需要寻找新的加密方法和协议,以确保在量子计算时代的信息安全。基于数学难题的后量子密码(PQC)是指这类密码算法可以抵御已知量子计算攻击,其安全性同样依赖于计算复杂度,但与传统加密算法不同的是,它们在设计时就考虑到了量子计算的威胁。这类算法或协议通过采用新的数学难题或计算模型,使得量子计算无法在短时间内破解。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 6 3.3.2 基于物理方法 基于物理方法的量子安全是指基于量子物理原理实现的经典密码学目标的密码技
21、术。当前最具代表性和实用性的就是量子密钥分发(Quantum Key Distribution)技术,它能够在通信双方之间安全地生成和分发密钥,而无需担心密钥被窃取或破解。本文涉及的量子安全内容主要是指的就是量子密钥分发技术。量子密钥分发(QKD)是一种利用量子力学原理保证通信安全的技术。在经典密码学中,密钥的安全性通常依赖于算法的复杂性和计算的难度,但在量子计算出现后,这种安全性可能受到威胁。而 QKD 利用量子力学中的不确定性原理和量子不可克隆定理等特性,提供了一种理论上无条件安全的密钥分发方式。目前,QKD 已经在一些特定的场景和实验中得到了应用,如金融、政府、军事等领域的高安全通信需求
22、。随着量子信息技术的不断发展,QKD 有望在更广泛的领域中得到应用,成为未来保障信息安全的重要手段之一。4 分布式云存储应用场景 分布式云存储作为一种灵活、可扩展且成本效益高的数据存储解决方案,已经广泛应用于各个领域的多方面的应用场景:比如企业的数据备份与恢复以及资源共享与协作,企业可以利用云存储进行关键数据的定期备份,以防数据丢失或损坏。云备份服务提供了快速恢复数据的能力,减少了因数据丢失导致的业务中断。比如电商平台的商品资料存储与客户数据与订单管理,电商平台需要存储大量的商品图片、视频和描述信息,云存储提供了经济高效的解决方案,支持商品信息的快速检索和展示;云存储用于存储客户的个人信息、购
23、买历史和订单数据,便于企业进行客户关系管理和订单处理。比如医疗行业的患者数据管理和远程医疗服务,医院和诊所将患者的电子病历、影像资料等敏感数据存储在云端,可以实现数据的集中管理和安全共享。医生也可以通过云存储平台访问患者的历史病历和检查结果,进行远程诊断和给出治疗建议。比如教育机构可以通过云存储方式建议教育资源库,可以将教学资料、课件、视频等教育资源存储在云端,供师生随时访问和学习。科研机构可以利用云存储平台存储实验数据、分析结果和研究成果,促进科研数据的共享和交流。比如政府的公民信息管理,政府部门可以将公民的身份信息、社保记录等敏感数据存储在云端,实现数据的集中管理和安全共享。以及智慧城市应
24、用,利用云存储为智慧城市项目提供数据存储支持,如智能交通、环境监测等系统产生的海量数据可以通过云存储进行高效管理和分析。下面就政务、金融、电力、广电、航空、交通、教育、医疗等领域的几个应用场景做个简单介绍。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 7 4.1 应用场景介绍 4.1.1 电子政务云1 随着人们生活水平的提高以及公共云建设的推动作用,人们对政府信息资源的获取也越来越重要。国家也制定相应的政策减少行政审批事项,简化相应的审批流程,为了使得居民获得更好的服务,加快政务资源的共享成为政府重点关注的问题。在社会信息化进程不断深入的情况下,云计算技术也在社会的相关领
25、域中得到了较为广泛的应用,也可以说云计算技术是现代化信息技术发展到一定阶段的产物。面对当前数据信息资源不断增加的情况,云计算技术能够有效提高相关资源的利用率,同时也会降低对用户终端性能的要求,在政府应用领域中,以云计算技术为基础的政务云能够更好的帮助政府发挥相关服务的功能,并且应用也越来越广泛。政务云是一种基于云计算技术的平台技术框架,对于政府部门的管理和服务职能,其能够进行有效的优化,并且还能够有效提升政务办理的效率和政府部门的服务水平。政务云能够有效整合和配置政府部门的 IT 资源,对居民、企业和相关部门而言,可以将这些资源进行共享,这在一定程度上,能够有效提高政府部门相关资源的利用率。从
26、政务云应用的方面来看,其就像处于政府部门底层的一个基础架构平台,能够将传统的政务应用进行迁移,在政务云平台上实现相关业务的办理,并且实现各个部门资源的共享,提高政府的服务效率和服务能力。电子政务云模型如图 1 所示。图 1 电子政务云模型5 电子政务云平台采用分层框架设计,结合了传统的应用系统设计框架和云计算数据存储平台,从整体上看,政务云系统的服务应用架构可以分为服务层、管量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 8 理逻辑层以及数据处理层。服务层是一种功能界面,最终呈现在用户面前,主要包含政务公开、信息共享和网络审批的功能;数据处理层是完成政务云中数据的存储,并根
27、据用户的相关请求来处理数据;管理逻辑层主要负责用户登录、管理、任务管理,能够将提前设计好的功能界面呈现给用户,用户通过应用这个功能界面,就能够顺利的完成相关政务业务的办理。政务云平台的总体设计框架如图 2 所示。图 2 电子政务云平台分层框架5 电子政务云平台中应用 HDFS 分布式文件系统,对于政务云平台中数据的存储而言,该分布式文件系统能够很好地实现,Web 服务器与分布式文件系统集群中的相关结点进行交互,进而能够很好地实现数据的相关管理功能,对于客户端而言,这还能够开放一些应用程序接口,用户在使用客户端的时候,就可以直接通过 Web 服务器来实现数据的相关操作。政务云平台的建设依靠于数据
28、中心的服务器、存储等资源,采用大数据、云存储、云计算等前沿科技,努力实现电子政务从低效能分散的粗放式建设向高绩效协同的集约化发展模式转变,降低了政务服务的建设成本,全面推进了跨部门、跨层级的业务协同和政务资源信息共享,有效解决了政府间的“信息孤岛”问题,推动了云计算、大数据在政府管理、公共服务、决策等领域的广泛应用,形成了具有特色的智慧政务的良好局面。注 1:本小结内容参考文献5政务云服务化探索研究J.软件.2019,Vol.40,No.11。4.1.2 金融科技2 随着时代和科技的飞速发展,金融科技企业在日常的业务运营中,会产生大量信息,TB 级数据已经很常见,PB、EB 级的数据已成为趋势
29、。通过搭建 Hadoop大数据平台,对金融科技企业海量数据实施分布式存储,可以提高数据存储性能和数据安全性,为企业节省数据存放成本。海量的业务数据,再加上许多非结构化的数据,传统的关系型数据库已经不能满足存储需求。数据的安全性也非常重要,如果数据仅存在于某个数据库或者某台机器,安全性达不到要求,那么数据的共享程度也不高。为解决这些问题,可以通过在多台大容量 Linux 服务器上部署 Hadoop 大数据平台,搭建 HDFS 分量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 9 布式集群环境,对数据文件进行分布式处理,能提高数据的存储效率、安全性、可靠性。在 Hadoop 大
30、数据平台上,构建 Hive 数据仓库,在 Hive 数据仓库中对海量结构化数据进行分析,能满足大数据分析的需求。金融科技企业的大数据 Hadoop 平台可以为企业发展的提供技术保障,通过大数据平台,也可以对大数据进行分析,挖掘数据潜在的商业价值,进一步推动金融科技企业良好有序发展,为社会创造更大的价值。金融科技企业分布式存储架构如图 3 所示。其中包括三大核心组件:HDFS、MapReduce 和 Yarn,分别发挥着各自的功能和作用。图 3 金融科技企业分布式存储架构6 其中,HDFS 是分布式文件系统,主要将文件分布式存储在多台服务器上;MapReduce 是并行计算编程框架,其作用主要是
31、在多台服务器上实现并行运算;Yarn 是分布式资源调度平台,主要是帮助用户调度大量的 MapReduce 程序,并能够合理地分配分布式运算资源。在 Hadoop 系统架构中,HDFS 是 Hadoop 生态系统的分布式文件系统,主要负责数据的切片与分布式存储。HDFS 可以提供高吞吐率的数据访问服务,在超大数据存储上的应用最为广泛。注 2:本小结内容参考文献6大数据分布式存储技术在中小型金融科技企业的应用与推广J.中国管理信息化.2021,Vol.24,No.11。4.1.3 电力行业3 在电力行业中传统存储方式应用范围最广的是 SAN 和 NAS。SAN 主要用于存储结构化数据的场景,如数据
32、库部署。NAS 相对应用较少,主要用于非结构化数据归档等。随着当前电力数据急剧膨胀的情况下,集中式存储存在扩充容量困难、存取性能低下、运行维护成本过高等问题,目前大多转型分布式存储。分布式存储的实现方式是通过网络整合多个节点的存储资源,构成一个统一整体的数据存储方式、技术和系统。参照分布式架构的 CAP 理论,系统无法同时满足可用性(Consistency)、一致性(Availability)和分区容忍(Partition tolerance)量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 10 三个特性。向较于互联网公司主要存储的是类似图片、视频、文件等非结构化数据,其分
33、布式架构更关注于可用性和分区容忍,少量文件的不一致或丢失不会影响系统整体可用的应用需求,电力行业是数据一致性要求极高的关系型数据库应用场景。一方面需要存储节点故障时必须保证不影响系统的继续使用,另一方面要求整个存储系统必须具备高可用性。如图 4 所示,电力存储系统框架采用目前流行的开源分布式存储 CEPH,底层使用 RADOS 对象存储,客户端块存储 IO 请求时,I/O 路径包括:LibrbdNetworkingOSDFileSystemDisk,分布式存储系统的性能表现基本能满足需求。图 4 电力分布式存储 CEPH 框架7 电力分布式存储系统主要采用副本方式来避免节点异常产生的数据丢失,
34、厂商建议和默认副本数为 3,虽然支持精简配置,用户也可自行设定副本数量或数据一致性强度,但事实是副本数越多磁盘利用率越低。从信息技术发展来看,分布式架构存储系统较传统存储系统具备先进性。随着硬件技术的不断发展和系统解耦的不断深化,分布式架构和硬件重构在未来存储系统中存在更多发展可能。电力行业信息技术也在不断发展,未来的电力存储系统也需要能深入契合行业应用特点,开拓创新。注 3:本小结内容参考文献7电力行业分布式存储应用研究J.自动化与仪器仪表.2016,Vol.1。4.1.4 广电 CDN4 广电 CDN,即广电系统的内容分发网络(Content Delivery Network),是广电行业
35、为了提升用户体验、解决网络拥塞问题而采用的一种关键技术。它是在Internet 上建立的一张面向业务内容的分发网络,该网络能够实时地根据网络流量、网络负载状况、服务器与用户的距离,以及服务请求的响应时间等一系列信量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 11 息,调整用户的服务中心,将用户的请求引向离用户最近的服务中心,从而使用户可以就近取得所需的内容。当前,分布式云存储的主要技术方案包括 Ceph 和 Swift。Ceph 支持块存储、文件存储和对象存储;Swift 仅支持对象存储,不支持块存储和文件存储,如要支持对象存储相关应用,需要进行接口对接,部分应用需要重新
36、开发。为满足不同应用的存储要求,贵广网络选择 Ceph 作为云存储的主要技术方案。基于 Ceph 的分布式云存储通过在通用服务器上部署分布式存储软件,构建一个开放、可扩展的对象存储系统,其主要由硬件集群层、核心存储系统层、接口层以及应用层组成,系统架构如图 5 所示。图 5 广电 CDN 分布式云存储架构8 广电分布式云存储系统采用 3 副本机制来保证数据的可靠性,即将存储数据切分成固定大小的数据对象,每一个数据对象被复制为 3 个副本(1 个主用副本和 2 个备用副本),然后按照一定的分布式存储算法将这些副本保存在集群中的 3 个不同节点。分布式云存储除了适用于 CDN 存储以外,也适用于广
37、电行业媒资系统存储、BOSS 用户影像数据存储、配置备份文件以及日志存储等应用场景。注 4:本小结内容参考文献8分布式云存储在广电 CDN 中的应用J.广播电视网络.2023,No.6。4.1.5 航空电子系统5 当今的航空电子系统已发展为分布式综合化航空电子系统,由专用的大容量存储模块负责数据的存储,其他模块通过机载总线从大容量存储模块中获取或记录数据。因此,对于航空电子系统的分布式存储技术的研究是十分有必要的。综合化模块化航空电子系统由可更换的 LRM 模块组成,其中包括网络交量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 12 换模块、图形图像模块、输入输出模块、数据
38、处理模块、电源模块和大容量存储模块,模块之间通过高速的机载总线相连。大容量存储模块提供数据存储服务,其他模块通过机载总线访问存储在大容量存储模块上的数据,如图 6 所示。图 6 航空电子系统分布式文件存储系统架构9 大容量存储模块作为服务器,数据是完全相同的。由主服务器提供数据的访问服务,其他服务器作为备份。航空电子系统的云存储模型是将客户端访问大数据的任务分解成多个较小的子程序,各个子程序通过网络向远程的服务器请求数据的读写;每个服务器为任务提供部分数据;客户端的读写任务最终将子程序读写结果综合,向用户提供最终的读写结果。通过云存储技术,能为航空电子系统提供高速的数据存取服务。航空电子系统的
39、云存储工作原理如图 7 所示。图 7 航空电子系统云存储工作原理9 在云存储系统中,数据在服务器上的存储不再以完整的形式存在,而是被划分成许多的区块,并使用链条的形式串联起来。每个数据块在两个或者多个服务器上都有存储,避免单服务器故障导致数据丢失,可以由多台服务器同时为用户提供数据访问服务,提高了数据访问的速度。云存储系统的数据存储原理如图 8所示。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 13 图 8 航空电子系统云存储的数据存储9 为了避免单服务器故障造成数据丢失和提高数据的访问速度,同一个数据块必须在两台或两台以上的服务器上同时部署,避免单台服务器故障造成服务器
40、的数据块丢失。航空电子系统的云存储架构是将访问数据的任务进行多机分解,由多台远程服务器协同工作,为系统提供快速的数据访问服务。注 5:本小结内容参考文献9航空电子系统的云存储技术研究J.电光与控制.2022,Vol29,No.3。4.1.6 铁路综合视频监控6 随着大数据、云计算、物联网等技术的快速发展,铁路综合视频监控系统规模迅速扩大,现有视频图像系统的规模、架构、系统应用已不能满足新形势的要求,铁路综合视频云存储系统的搭建势在必行。云存储则是一种云状结构的存储系统,通过集群应用、分布式文件等技术,将网络中不同类型的存储设备集合进行协同工作,并通过协议接口对外提供业务访问和数据存储备份等工作
41、。云存储技术能够很好地处理数据冗余和复制,具有良好的可扩展性,可以有效节约成本,提高部署效率。相比于仅含有硬件资源的传统存储,铁路综合视频监控云存储系统架构见图 9。云存储系统集合了网络设备、存储设备、服务器、公网访问接口和用户客户端程序等多个部分,其功能结构可分为三层:第 1 层为存储层,可以由多种不同类型的存储设备构成,由一个统一的管理平台进行管理,用于实现设备虚拟化、多链路冗余优化和设备状态监控及维护;第 2 层为基础管理层,是最核心的部分,通过集群、网格计算和分布式文件系统,实现存储设备的协同工作,提供良好的设备访问性能,并通过内容分发系统、数据加密技术和多种备份容灾措施,保证数据的安
42、全性、完整性和稳定性;第 3 层为应用接口层,对外提供各种应用服务。系统采用的是分布式存储 Ceph 框架,Ceph 是一个高度集成的框架,将云存储需要的各个层级进行整合,主要由基础管理层的监视器设备、元数据存储设备和存储层的对象存储设备构成。其中,对象存储设备负责对数据进行存储、复量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 14 制、转发和恢复,并定时上报给监视器设备;监视器设备负责对集群进行检测维护,对集群中的成员进行管理,并对成员属性相关的信息进行分发,当有新的数据需要进行存储时,会根据对象身份信息和当前存储状态分配存储地址;元数据存储设备主要针对于文件存储,一般
43、情况下不使用。图 9 铁路综合视频监控云存储系统架构10 除了直接访问外,Ceph 还提供了 Radosgw(对象存储接口)、Rbd(Rados 块存储)、CephFS(文件系统)等存储接口。Ceph 存储容错通常采用多副本备份或纠删码技术方式。随着日益升级的智慧铁路建设,综合视频监控网络化、高清化、智能化开始普及,视频数据的深度应用成为系统发展的未来导向,如何有效存储和高效使用大量视频监控数据,成为了新的研究对象。为此,将云存储、云计算技术引入到铁路综合视频监控系统中来,适应铁路发展的潮流。云存储的推广和应用,可从容量、成本、空间可扩展性、服务可用性、接口通用性、数据可靠性等多个角度,提升综
44、合视频监控存储及应用的质量和效率。注6:本小结内容参考文献10 铁路综合视频监控系统云存储技术应用研究 J.铁道通信信号.2021,Vol.57,No.9。4.1.7 车联网7 随着车联网体系逐渐成熟,信息存储量也呈指数增长并且信息类型复杂程度增大。因此,在车联网系统中,可靠的数据存储和高效的数据处理是必不可少的。结合车联网数据在实际应用中的特点与需求,为实现海量车联网数据存储和处理目标,同时满足系统对稳定性、实时性和高效性的要求,构建的以分布式存储和处理为主的车联网数据分布式系统总体架构如图 10 所示,系统划分为数据存储层,数据处理层和应用层。量子科技产学研创新联盟 基于量子安全的分布式容
45、错云存储应用场景研究 15 图 10 车联网数据分布式系统架构11 其中基于 HDFS 架构实现的高度容错的分布式文件系统,能够提供极高吞 吐量的数据访问,适合用于海量车联网离线数据的存储,基于 HDFS 的车联网数据分布式存储架构如图 11 所示。图 11 基于 HDFS 的车联网数据分布式存储架构11 注 7:本小结内容参考文献11 海量车联网数据分布式存储处理系统的设计与实现C.福建省电机工程学会论文集.2020.6。4.1.8 气象数据8 近年来,随着气象业务的不断发展,各类气象探测数据和气象产品数据的规量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 16 模都呈现
46、出快速增长的态势,这不仅体现在数据种类上,也体现在数据的覆盖范围、数据的传输频次以及数据应用与分析规模上。气象数据具有以下几个显著特点:1)观测数据实时存储和长序列大数据集的历史存储需求并存;2)观测数据和产品数据具有并发特性,即数据的存储和数据的访问都会按照固定时次出现峰值;3)数据种类多,内容复杂,结构化(如自动气象站数据)与非结构化数据(如雷达、卫星等)共存;4)数据不间断,全天候产生。现有的气象信息系统多采用关系型数据库和文件系统相结合的数据管理构架,在有限数据规模情况下可正常运行,但当数据总量始终处于不断扩大的状态时,这种传统的集中式存储架构对于系统的高冗余性、高可扩展性、高并发性和
47、高可用性等方面的需求就会越来越力不从心。与集中式存储相对的是分布式存储,它并不是将数据存储在某个固定的节点上,而是将数据分散存储于多台独立的设备上,使这些设备共同分担存储负荷,它不但解决了传统集中式存储系统中单存储服务器的瓶颈问题,还提高了系统的可靠性、可用性和扩展性。基于 HDFS 的气象数据分布式云存储存储系统架构如图 12 所示。图 12 基于 HDFS 的气象数据分布式云存储架构12 基于 Hadoop 的 HDFS 架构分布式存储系统具备高吞吐量、高并发、高容错性、高可靠性、低成本等优点,可满足实现气象数据分布式存储的技术要求,适用于气象数据中典型的非结构化数据,对于解决气象数据目前
48、所面临海量扩张、高并发读写、长序列大数据集数据检索效率等问题有着重要的意义。注 8:本小结内容参考文献12 基于 Hadoop 的气象数据分布式存储技术研究 J.信息技术.2022,No.1。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 17 4.1.9 高校数据中心9 随着高校信息化的发展,高校各种业务数据越来越多,原有的传统的专用存储虽然能满足数据存储的要求,但随着学校各种业务数据的急剧上升,如教学网络平台生成的课件和学生的作业,校园云平台上快速增加的虚拟机等这些都需要大容量,高可用性,扩展能力强的存储系统,专用存储越来越无法满足这些要求。以学校数据中心为例,由于学校
49、部署了校园云自助服务平台和网络教学平台,每年的业务数据增量很大因此每年都要采购专用的存储来满足需求,然而这些专用存储不仅价格昂贵,而且不便于扩展。由于采购的因素限制,学校每次采购的专用存储可能型号不一,导致现有的存储系统之间管理方式不兼容,存储 I/O 带宽也无法线性扩展,同时配置也很繁琐。专用存储系统可用性和数据持久性不能满足学校教学网络平台和校园云平台的需求,一旦存储控制器故障和硬盘灾难性损坏,数据将不无法保证可用性。基于 OpenStack Swift 架构的云存储技术具备高可用性,扩展性强,成本低等优势,通过 Swift 架构组建的校园分布式云存储平台,可解决上述学校数据中心所面对的问
50、题。基于 Swift 存储技术的校园云存储体系架构如图 13 所示。图 13 基于 Swift 存储技术的校园云存储体系架构13 Swift 面向对象的高可用分布式存储最初由 Rackspace 公司开发,后来作为核心子项目被贡献给 OpenStack 开源社区。部署 Swift 分布式面向对象存储只需要廉价的标准服务器和硬盘,并且硬盘无需组建 Raid 也可以保证高可用性。Swift 通过在软件层面引入一致性环形 Hash 散列技术和数据冗余备份机制来提供强大的扩展性、冗余和高可用性。传统存储的单点故障一直是困扰数据中心管理人员的难题,而 Swift 架构不存在单点故障,可用性高。Swift
51、 架构中并没有单独的元数据节点,所有元数据信息都均匀分布在所有节点上,并且存有副本,这样任何一个节点故障都不会影量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 18 响到整个存储系统的正常运行。该体系结构在线扩展性强,数据存储容量和性能扩展不受限制,无单点故障,可用性高,无需采购专用存储系统设备,采购成本低,能解决高校数据中心使用专用存储所面对的难题。注 9:本小结内容参考文献13 基于 Swift 云存储技术在高校数据中心的应用 J.信息技术.2016.No.7。4.1.10 医疗大数据10 近年来,随着信息技术飞速发展,医疗与医学研究领域正步入大数据时代,医疗数据的日增
52、长量达到了 TB 级别。海量的医疗数据蕴含着巨大的价值,构建医疗数据存储平台,实现数据的统一存储与检索,有利于不同医疗机构之间共享数据。医疗数据属于大数据,具有数据来源复杂、结构多样、规模巨大、增长迅速、多模态性等特点。其中,多模态性包括二维数据、图像、视频、文本文档等。然而,在当前医疗服务业务中,获取数据的实时性、存储设备的可靠性及数据分析的准确性仍是亟待解决的三大问题。传统关系型数据库无法存储非结构化数据且受到单机性能限制,无法满足数据存储的需求。而分布式技术以其低成本、高可靠、大容量等优点在存储领域得到广泛应用,为存储海量医疗数据提供了新思路。Apache Hadoop 是一款主流支持海
53、量数据存储与处理的分布式系统,包括 Hadoop File System(HDFS)、MapReduce、Hadoop DataBase(HBase)等重要组件。其中,HDFS 是 Hadoop 系统数据存储和管理中心,具有高容错性、高效写入等特点。其集群包括 NameNode 和 DataNode 两大组成部分,NameNode 负责管理文件系统的元数据和 DataNode 节点,DataNode 是文件系统的实际工作节点,负责存储和检索数据,并定期将存储的块信息发送给 NameNode。基于 HDFS的医疗大数据存储架构图如图 14 所示。量子科技产学研创新联盟 基于量子安全的分布式容错云
54、存储应用场景研究 19 图 14 基于 HDFS 的医疗大数据存储架构图14 分布式技术可实现医疗数据的统一存储与查询,但目前研究仍然存在一些问题。例如,医疗数据中包含大量患者隐私信息,而目前的存储方案均未很好地考虑数据隐私保护问题。注10:本小结内容参考文献14 分布式医疗大数据存储方案研究综述 J.软件导刊.2022,Vol.21,No.4。4.2 应用场景总结 综合以上介绍的各领域的多个应用场景可以看出,当前实现分布式云存储的架构技术主要包括 DHFS、Ceph 和 Swift。我们分别介绍如下:4.2.1 DHFS 架构11 HDFS(Hadoop Distributed File S
55、ystem)是 Hadoop 项目的核心子项目,是专为大数据环境设计的分布式文件系统,HDFS 分布式云存储架构如图 15 所示。图 15 HDFS 分布式云存储架构15 HDFS 架构采用 Master/Slave 方式,主要包括客户端(Client)、NameNode(NN)、DataNode(DN)和 Secondary NameNode(SNN)四个核心组件。客户端是用户与 HDFS 交互的接口。它负责将文件切分成多个数据块(Block),与 NameNode 交互获取文件的位置信息,以及与 DataNode 交互进行数据的读写操作。客户端还提供了一些命令来管理 HDFS,如启动或关闭
56、 HDFS,以及通过命令访问 HDFS。NameNode 是 HDFS 的管理者,也被称为元数据节点。它维护着整个 HDFS的命名空间(文件目录树)和数据块映射信息。NameNode 管理 HDFS 的名称空间,包括文件名、目录结构,管理数据块映射信息及副本信息,即文件被分割成的数据块及其存储位置以及处理客户端的读写请求,指导客户端如何与DataNode 交互。NameNode 是整个 Hadoop 集群中至关重要的组件。DataNode 是实际存储数据块的节点,是 HDFS 中的从节点(Slave),负责存储实际的数据块,并根据 NameNode 的命令执行数据块的读写操作。周期性地量子科技
57、产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 20 向 NameNode 发送心跳信息和块信息,报告自身的状态和数据块信息。与其他DataNode 同步数据块,以达到数据副本数的要求。Secondary NameNode 主要是辅助 NameNode 进行元数据的合并操作。通过数据块多副存储方式,DHFS 架构具备高容错性,同时 DHFS 架构还具备高扩展性(可动态扩展集群节点)、适合大数据处理、低成本运行等优点。DHFS 架构不适合低延时数据访问、小文件存取、并发写入和文件随机修改等场景。作为主流架构之一,HDFS 架构可以为大数据环境提供高效、可靠的数据存储解决方案。注 11
58、:本小结内容参考文献15关于分布式存储应用于智慧广电建设的探讨J.西部广播电视.2022,No.1。4.2.2 Ceph 框架12 Ceph 是一种性能优越、可靠性高的分布式云存储系统,也是当前热门的开源云存储架构之一,具有良好的可扩展性,可轻松扩展至 PB 级。Ceph 作为开源项目,从最初发布到逐渐流行,已经发展了近十年。当前在 Openstack 社区,Ceph 是最受欢迎的开源存储项目,且国内外知名厂商如 Intel、Cisco、Dell、华为等,均采用 Ceph 作为存储方案。与 HDFS 的间接通信不同,Ceph 不存在中心节点,Ceph 是典型的完全无中心架构,不同于传统的存储架
59、构,没有主控制器,因此扩展性较高,并且整体集群性能会随着节点数量的增加而线性增长。Ceph 使用 CRUSH 算法是一种基于随机分布、复制的选择算法,可以很好地实现集群容灾域隔离、数据的副本规则,以及跨机架、机房的感知等。Ceph 集群中可以自定义数据的副本数量,并支持指定副本数据存储在不同物理节点及故障域上,在单节点或单机架发生故障时,Ceph 通过 CRUSH 算法对损坏的数据在其他正常运行的节点进行自动重建,从而保持数据的高可用。Ceph 作为主流的分布式统一存储技术,支持块存储、文件存储、对象存储三种接口,并且可以在一个集群内划分不同存储池分别挂载三种系统同时使用。基于 Ceph 分布
60、式云存储架构如图 16 所示。底层为 RADOS(Reliable Autonomous Distributed Object Storage)集群,由大量的存储节点组成对象存储系统。当 Ceph 集群数据读写时,CRUSH 算法先确定存储位置,RADOS 再以对象的形式将数据存储在集群内,确定对象状态一致性。基础库 LIBRADOS 层对RADOS 层的对象进行封装,对上层提供完整的应用访问接口,用户不用关心底层 RADOS 的逻辑,在 Ceph 上直接调用 LIBRADOS 层 API 进行开发即可。LIBRADOS 层之上为应用接口层,提供 RBD、CephFS 和 RadosGW,分别
61、对应块设备、文件系统、对象存储的应用,使 Ceph 集群可以同时满足不同业务需求场景。应用层适用于不同外部需求的应用访问,例如兼容 S3 和 Swift 接口协议量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 21 的对象存储访问,基于 RBD 的云主机访问和基于 CephFS 的文件存储等。图 16 基于 Ceph 分布式云存储架构16 随着分布式存储技术的日益成熟,传统存储业务应用部署已经向分布式存储上迁移。从项目实际建设总结,基于 Ceph 的分布式存储架构具备高可靠性和高可用性,以及丰富的数据访问方式,可提高了集群存储效率,节约了项目建设成本,是分布式数据存储较好方
62、案。注 12:本小结内容参考文献16基于 Ceph 的云存储系统的设计与实现D.电子科技大学.2023.06。4.2.3 Swift 框架13 作为云存储系统之一的对象存储系统 Swift 框架具有扩展性强、无单点故障、简单可靠等特性,因其能够较好的满足海量数据存储的需求而被广泛应用。Swift 分布式存储系统最初是由 Rackspace 公司开发的项目,该公司在 2010 年将其贡献给 OpenStack 开源社区作为子项目之一,十余年间,基于 Swift 框架的技术研究也在不断发展进步。Swift 存储系统是云环境下的分布式对象存储系统,它向用户提供整个对象的访问,不提供对原始数据块的访问
63、服务或基于文件的访问。在 Swift 存储系统中,用户可以通过类似基于 HTTP 协议的 URL 的 Swift URL 对系统进行操作,类似于使用浏览器访问 web 服务器。对象存储不直接提供数据的存储位置,而是将其抽象成 URL,在扩展系统规模时,不影响数据的存储位置,使得对象存储能够在较低成本下实现大规模和高并发。随着系统规模的和扩大,对象存储系统仍然能够提供单一的命名空间,且不需要将数据分块存储到不同位置,用户不需要关心底层存储系统的情况,极大的减少了运维成本。Swift 存储系统的总体结构可以分为两层:访问层和存储层。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究
64、 22 访问层主要包括代理服务、认证服务和缓存服务。代理服务对外提供对象服务 API,作为客户端与后端存储服务的桥梁,并转发客户端请求至相应的账户、容器或对象服务;认证服务提供用户身份信息的认证和授权;缓存服务缓存令牌、账户和容器信息,可以提高数据访问速度,减少后端存储服务的压力。存储层由存储服务器组成,负责存放实际数据。容器服务提供容器元数据和统计信息;对象服务提供对象元数据和内容服务,每个对象以文件形式存储在文件系统中。复制服务负责检测本地副本和远程副本是否一致。基于 Swift 分布式云存储架构如图 17 所示。图 17 基于 Swift 分布式云存储架构17 Swift 的架构设计充分
65、考虑了分布式系统的复杂性和挑战,通过合理的组件划分和高效的数据管理机制,实现了高可用、可扩展和容错的云存储服务。无论是从逻辑架构还是物理部署架构来看,Swift 都展现出了其作为云存储解决方案的强大实力和灵活性。注 13:本小结内容参考文献17基于 Swift 的存储技术优化与研究D.四川大学.2021.04。4.2.4 总结及改进思考 当前主流的几种存储架构技术有着各自的特点:(1)HDFS HDFS 架构适合存储大文件,如 G 级、T 级文件。HDFS 通过元数据进行文量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 23 件管理,元数据包括目录信息和存储块信息,是占用管
66、理节点 NameNode 内存的,如果应用于小文件的存储,会产生大量的元数据,耗费内存,导致系统性能下降。HDFS 适合低频写入,并行读取。HDFS 一次只允许写入单个文件,不支持动态修改文件,要求让文件一次写入就不再变化,要变化只能在文件末尾添加内容。HDFS 适用廉价 PC 设备。多副本的存在提高了存储的容错和恢复机制,使得 HDFS 可以应用于普通的 PC 设备上,相较于传统的中心式存储,降低了对单机设备的硬件要求。存储的文件类型上,文件存储适用 HDFS。(2)Ceph 支持小文件的存储。在 Ceph 中,条带设置通常为 KB 级别,而 HDFS 对应的块大小默认为 64 MB。支持并
67、发写入。区别于 HDFS,Ceph 支持多个并发写入。Ceph 通过 CRUSH 算法运算 PGID 找到适合存储的 OSD(数据存储单元),完成数据的写入,一份数据写多个副本。保持数据的强一致性。设读操作需要读取的节点数为 R,写操作需要更新的节点数为 W,数据复制的份数为 N。在 Ceph 中 R+WN,读写操作的节点存在交集,保证了数据的强一致性(CAP 理论)。统一存储(块/对象/文件统一体)适用 Ceph。(3)Swift 支持无单点故障。Swift 的元数据的存储地址每个节点的地位是平等的,处理存储的方式是一致的,保证了其具有强大的容错性。相较于 HDFS 中的单一故障点 Name
68、Node,Swift 具有更好的容错能力。扩展性。Swift 的架构是完全对称的,可以通过新增设备来实现线性提升,系统会自动处理数据迁移,使各服务节点达到新的平衡。数据强一致性。Swift 默认配置是 N=3,W=2,R=2。这里 R=2,代表同时读取两个节点的元数据,然后比较时间戳以确定新旧版本。如果两个节点的数据出现差异,后台进程会进行数据同步,确保数据的强一致性。对象存储适用 Swift。综合上述,可根据应用场景和具体的存储需求选择部署适合的存储架构。几个主流的分布式云存储系统框架也都存在共性,比如分层设计,并且分层结构基本一致,各层都提供对外接口,各层中功能模块化等通用特性,这就使得对
69、基于这些分布式云存储系统框架而实现的应用系统进行二次开发和优化提供了可能。5 基于量子安全的分布式容错云存储 5.1 需求分析 随着云计算技术的发展,数据存储也已进入云存储时代,分布式云存储是数据存储的研究热点之一。然而,随着越来越多的个人和企业将敏感信息委托给云服务,数据安全和隐私变得至关重要。数据泄露或未经授权访问的潜在后果是严重的,从经济损失到声誉损害。面对众多的网络威胁和复杂的攻击技术,需要强有力的安全措施来应对防范这些风险。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 24 传统数据安全云存储也一直存在着数据保密强度不够、数据传输和存储资源消耗大、用户对数据的管
70、控能力不足等问题。数据的私密保护、完整可用以及可管可控一直是数据存储的重中之重。如何更高效更安全地存储数据已经成为云存储最为关注的问题。我们一直从事量子安全方面的研究,在量子技术尤其是 QKD 具有深厚的积累。我们希望探索除了将 QKD 应用于传输安全之外,是否能够给社会提供更丰富的量子安全服务,比如在数据存储、数据处理等方面也提供量子安全的能力。研究课题的内容包括如下几个关键词,同时这也是满足项目研究需求的几项目标:1.基于量子安全:方案采用量子随机数和量子密钥分发技术实现密钥的量子安全,使用对称密码算法实现算法的量子安全。2.分布式云存储:云存储可满足数据存储的成本效益、可扩展弹性、灵活访
71、问与共享等要求。数据的分布式存储,减少单个节点故障或被攻击的风险影响,增强数据的完整性和可用性。3.容错存储:增加数据冗余备份,增强数据的完整性和可用性。4.安全可控:通过技术手段保证密钥和保护数据的安全性,同时增强对密钥和保护数据的管控性。5.2 方案设计 我们项目研究目标是实现一种更安全、更高效可靠的基于量子安全的分布式容错云存储方案,用于满足各个行业分布式云存储应用场景。更安全实现途径:量子安全,秘密共享。更高效可靠实现途径:分布式,纠删技术,数据容错,冗余存储。5.2.1 量子安全保证数据的机密性 加强数据云存储安全的一个十分有前景的研究方向就是利用了量子通信技术的潜力。量子通信特别是
72、量子密钥分发(QKD),提供了以量子力学基本原理为基础的安全通信模式。我们希望探索除了传输安全之外,是否能够给社会提供更丰富的量子安全服务,比如数据存储、数据处理等方面,也提供量子安全的能力。加密密钥来源于量子密钥分发网络和本地量子随机数,实现信源与传输通道的量子安全。整体上实现基于量子安全的一体化分布式云存储安全方案。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 25 5.2.2 纠删技术实现数据的完整性与容错性 为保证数据可用性,数据容错机制对于保证云存储可靠性十分关键。目前最广泛使用的是副本冗余策略,如 GPFS,HDFS,GlusterFS,Ceph 等都提供这种
73、副本冗余容错策略。另一种容错机制是纠删码技术。相较于副本镜像备份存储方式纠删码技术可以大大减少了存储成本。纠删技术是一种实现数据冗余存储的技术,从而实现数据的完整性和容错性。纠删技术的原理基于信息冗余和容错编码思想。具体来说,就是把原始数据分割成多个数据块,然后通过编码矩阵计算得到冗余块,这些数据块和冗余块分散存储在不同的位置,比如不同磁盘、存储节点或者其它地理位置,以实现更安全的冗余存储。纠删技术具备高容错、可扩展、高效率等特点。通过较小的冗余块实现高可靠的数据恢复。调整冗余度,可以适用不同备份存储要求。纠删码之前在通信中应用广泛,这些年被高度关注在分布式云存储应用中,纠删码技术在分布式云存
74、储中的应用会越来越广泛。5.2.3 秘密共享增强用户对密钥的分散存储及数据的管控 密钥尺寸相较与加密数据是非常小的,这非常适合采用 Shamir 秘密共享机制对密钥实施保护和分散存储。密钥分为认证密钥和数据加密密钥,我们用认证密钥保护数据加密密钥,然后对认证密钥实施 Shamir 秘密共享,并对生成的份额进行分散存储。只要保证外部分散存储的份额总额不足于阈值,密钥就是绝对安全的。用户保留的既不是数据加密密钥,也不是认证密钥,而是认证密钥的部分份额,这样大大降低了用户保存密钥的安全等级和风险,也大大增强了密钥的安全性。秘密共享技术不属于云存储方式,它本质上是一种将秘密分割存储和安全共享的方法,具
75、备信息论安全性特点。通过秘密共享,也可以实现用户(单用户和多用户应用场景)通过对密钥份额的分发而实现数据共享,从而实现数据拥有者对加密数据的管控。5.3 技术路线实现 本方案考虑融合当前可用的技术,如采用公认的信息论安全的密钥分发技术(QKD)和公认的量子安全的加密算法(对称密码算法),信源和信道加密密钥来源于量子密钥分发网络和本地量子随机数,实现高安全的数据机密性和传输信道间的隔离性,确保信源及传输安全。方案整体上实现基于量子安全的一体化分布式云存储安全。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 26 2021 年,日本团队曾发布过一篇关于采用 Shamir 秘密共
76、享的量子安全分布式数据云存储方案,并在东京 QKD 网络上运行演示验证2,包括这个日本团队在其他研究文献里的一些工作13,方案均采用 Shamir 秘密共享方法处理保护数据。这种处理方式需占用大量的云存储空间资源,极大地限制了方案的实用性。我们对于采用 QKD、Shamir 秘密共享、纠删处理等多方面技术如何与分布式云存储如何有效融合利用进行了研究。Shamir 秘密共享机制更适用于密钥的分散存储,而对于加密数据采用纠删方案或镜像备份方式实现冗余存储更合适。5.3.1 三种存储方案的比较14 秘密共享、镜像备份和纠删码技术三种存储方案有各自特点,从数据机密性、数据可用性和存储效率三个角度分析如
77、下:首先,从数据机密的角度来看:假设源数据是加密的,加密算法是安全的,不能通过量子计算等方法破解,那么三种方案的安全性是相同的。如果数据源未加密,则三种方案的保密性存在差异。设单个存储节点的数据泄漏概率为 p(p1)。在镜像方案中,完全数据泄露的风险是 p 乘以副本数量,以复制 3 个副本为例,这意味着风险将至少增加到 3*p。在基于秘密共享和基于纠删码方案中,设 k 是阈值,n 是数据块的总数。数据完全泄漏的风险是,在 p 较小的情况下,秘密共享和纠删方案都具有优势,秘密共享方案中的每个数据块都具有不泄露部分信息的信息论安全性,而没有源加密的纠删方案会泄露每个数据块的部分信息。因此,从数据机
78、密性的角度来看:秘密共享方案纠删码方案镜像备份方案。从数据可用性的角度来看:设单个存储点损坏的概率为 q(q1)。在镜像备份方案中,数据不可用的概率是 q*备份数。在秘密共享和纠删码方案中,数据不可用的概率为,这意味着超过 n-k 个存储点损坏的所有可能情况的总和。因此,镜像备份方案的鲁棒性强于秘密共享和纠删码方案。因此,从数据可用性的角度来看:镜像备份方案纠删码方案=秘密共享方案。从存储效率的角度来看:镜像备份是数据的完全拷贝复制,秘密共享并不会减少秘密份额的尺寸,而纠删码方案只会增加一些冗余块尺寸,存储空间利用率高。因此,从存储效率的角度来看:纠删码方案镜像备份方案秘密共享方案。三种存储方
79、案比较见表 1 所示。表 1 三种不同云存储方案的比较4 数据机密性 数据可用性 存储效率 镜像备份方案 秘密共享方案 纠删码方案 注 14:本小结内容参考文献4Quantum-secure fault-tolerant Distributed Cloud Storage SystemJ.AIP Advances 13,115309(2023)。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 27 5.3.2 基于量子安全的分布式容错云存储架构 方案在现有的分布式数据云存储系统(诸如 DHFS/Ceph/Swift 等)基础上,主要关注三个方面的改进和增强:在上层应用的密钥
80、管理上加入秘密共享机制以实现密钥的保护、分散存储及权限分配;在系统层数据存储上选择以纠删技术为主或以纠删码和镜像备份相混合策略的容错存储策略,实现数据容错机制。系统整体上支持基于量子的安全保障,QKD 网络通过系统各层接口为分布式数据云存储系统提供安全密钥,在系统的各个层间传输实现 QKD 安全通道,实现应用数据安全、数据传输安全和数据传输通道间的隔离。基于量子安全的分布式容错云存储架构如图 18 所示。纠删码或混合策纠删码或混合策略略(纠删码纠删码+镜像镜像)应用层秘密共享秘密共享接口层硬件层系统层各类接口各类接口库库客户端客户端APP分布式云存储系统(DHFS/Ceph/Swift)低速处
81、理高速处理keykeykey数据预处理数据预处理key QKD网络网络 图 18 基于量子安全的分布式容错云存储架构 5.3.3 应用层密钥秘密共享及数据预处理 5.3.3.1 单用户应用场景 秘密共享可以实现秘密的安全拆分和安全存储。考虑到秘密份额的存储空间的利用效率,秘密共享更适合用于小尺寸数据比如密钥的秘密共享。在单用户场景下,通过在存储系统的应用层中增加密钥秘密共享机制,可实现对用户密钥的分散存储和安全备份。数据的预处理包括了由秘密共享生成的子量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 28 密钥份额插入密文,与密文同存保护的过程。a)用户数据上云处理流程描述如
82、下:1、用户获取量子安全密钥 K 和 R(由 QRNG 生成的量子随机数),其中 K 加密用,R 认证用,同时 R 也作为 K 的密钥加密密钥。2、用户准备待加密的明文数据 D。3、用户使用密钥 K 加密数据 D 形成密文数据 E。4、用户使用 K 与 R 异或生成数据 KR。5、用户使用 R 生成随机数 n1,n10,maxlen(E),maxlen(E)为密文 E 的最大长度。6、用户采用 Shamir 秘密共享(3,4)方案,设 k=3,n=4,构造密钥 R 的秘密份额 R1、R2、R3、R4(秘密份额 4 份中取 3 份即可重构出密钥 R)。用户自己保留 2 份,例如 R1、R2(保证
83、用户手里保留秘密份额的大部分),R3、R4 分散到外部保存。7、用户使用秘密份额 R1 与 R2 异或生成 R12,由 R12 生成随机数 n2,n20,maxlen(E),maxlen(E)为密文 E 的最大长度。8、按值 n1 位置将 KR 插入密文 E 中,形成数据 E。9、按值 n2 位置将 R3 插入数据 E中,形成数据 E。10、用户用密钥 R 对数据 E进行完整性校验,计算所得值 M,接入数据 E尾部,形成数据 N,N=(E|M)。11、R4 与 n2 合并形成数据 R4,R4=(R4|n2)。用 R1 对 R4 做完整性校验生成 M14,用 R2 对 R4 做完整性校验生成 M
84、24。M14 和 M24 与 R4 合并,形成数据 B,B=(R4|M14|M24)。12、用户将数据 N 与数据 B 发送给云存储系统,数据 N 由云存储系统纠删处理后上云分散存储,数据 B 作为备份数据由云存储系统本地保存。数据通信采用加密传输,由 QKD 网络保证,实现网络数据的量子安全。比如可采用QKD+OTP 方式可实现 ITS 安全。13、用户将 K、R、KR、R3、R4、R12、n1、n2 等所有过程数据全部删除,只保留 R1、R2,用户需保证秘密份额 R1 和 R2 的安全,至少要保证 R1 和 R2 不能同时丢失。数据上云的密钥秘密共享及数据处理操作流程如图 19 所示。量子
85、科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 29 图 19 单用户场景的数据上云处理过程 b)数据下云(数据恢复)普通情况处理流程描述如下:1、通常情况下,用户手中保留有 R1 和 R2,用户只需向云存储系统请求数据N。2、用户对收到的数据 N 解析为密文数据 E 和 MAC 值 M。3、用户使用手中保留的 R1 和 R2 异或生成数据 R12,由 R12 生成位置参数n2。4、用户按 n2 位置在密文 E 中提取出秘密份额 R3,与用户手里的 R1 和 R2 按Shamir 秘密共享 SS(3,4)方案(t=3,n=4)重构出原秘密,即认证密钥 R。5、用户使用 R 对数
86、据 E 进行完整性校验,计算得值 M,M与数据 M 比对,相等执行下一步操作,不相等则操作终止。6、用户用 R 生成位置参数 n1,按 n1 位置在密文 E 中提取出 KR。7、用户将 KR 与 R 异或,还原出密钥 K。8、密文 E 按先后顺序,从 n2 位置剔除 R3,从 n1 位置剔除数据 KR,形成新的密文 E。9、用户使用 K 对密文数据 E解密,恢复明文数据 D。数据下云(数据恢复)普通情况的密钥秘密共享及数据处理操作流程如图 20 所示。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 30 图 20 单用户场景的数据下云处理过程(普通情况)c)数据下云(数据恢
87、复)特殊情况处理流程描述如下:1、当用户手里的 R1 和 R2 有一个丢失情况时(假设丢失了 R1),这种情况下,用户向云存储系统中的服务器请求数据 N,同时也请求服务器本地保存的备份数据 B。2、用户对收到的数据 B 解析为 R4、M14、M24 三部分,B=(R4|M14|M24)。3、用户使用手中剩余的秘密份额(R2),对数据 R4 进行完整性校验,计算得值 M24,M24 与数据 M24 比对,相等执行下一步操作,不相等则操作终止。4、用户对收到的数据 N 解析为密文数据 E 和 MAC 值 M,N=(E|M)。进一步将 R4 解析成 R4 和 n2 两部分,R4=(R4|n2),从
88、R4 中提取出 n2。5、按 n2 位置在密文 E 中提取出秘密份额 R3,在 R4 中提取秘密份额 R4,R3、R4 与用户手里的 R2 按 Shamir 秘密共享 SS(3,4)方案(t=3,n=4)重构出原秘密,即认证密钥 R。6、用户使用 R 对数据 E 进行完整性校验,计算得值 M,M与数据 M 比对,相等执行下一步操作,不相等则操作终止。7、用户用 R 生成位置参数 n1,按 n1 位置在密文 E 中提取出 KR。8、KR 与 R 异或,还原出加密密钥 K。9、密文 E 按先后顺序,从 n2 位置剔除数据 R3,从 n1 位置剔除数据 KR,形成新的密文 E。10、用户使用 K 对
89、密文数据 E解密,恢复明文数据 D。数据下云(数据恢复)特殊情况的密钥秘密共享及数据处理操作流程如图 21所示。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 31 图 21 单用户场景中数据下云处理过程(特殊情况)5.3.3.2 多用户应用场景 在多用户场景下,存储系统的应用层中增加密钥秘密共享机制不但可以实现用户密钥的分散存储和安全备份,而且通过系统层中服务器端的配合,还能够实现数据拥有者对数据共享用户的授权和共享数据的管控。代理重加密是当前数据共享的一种通用方法,在多用户场景下,可以使用基于秘密共享机制的代理重加密方法,实现数据拥有者对数据共享用户的授权和共享数据的管
90、控。以两个用户为例,数据拥有者,也是密钥拥有者 Alice,首先生成一个会话密钥,并将密钥进行秘密共享,与单用户应用场景相同,Alice 将共享数据上云处理,并将生成的一个密钥分量分发给数据共享者 Bob。Bob 可以凭借此密钥分量去系统层的服务器认证,以获得数据授权。服务器用 Bob 的密钥分量对加密的共享数据进行转换加密,实现代理重加密。通过采用基于秘密共享机制的代理重加密方式,数据拥有者在保证数据安全的同时,实现共享数据的管控。5.3.4 系统层的数据存储容错处理 对于数据存储容错方面,目前主流分布式云存储系统大多仍采用副本方式,但镜像备份这种方式对存储空间的利用效率太低。纠删码技术实现
91、的容错方式能够明显提高存储效率,因此,也越来越受关注,有很多分布式云存储系统也升级或改造支持纠删码容错存储技术,比如 GFS 的后继者 Colossus,以及 HDFS 的量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 32 升级版 HDFS-Xorbas,都是基于纠删码实现的数据容错存储方式的分布式存储系统。更进一步,本方案的改进分布式数据云存储系统建议是采用一种纠删码技术与镜像备份相结合的混合策略来实现容错存储。不同于之前对冷热数据的概念,系统可定期根据对数据的存储频率来判断采用何种策略,动态设置标识和变更存储策略。混合策略可以保障在存取效率与空间利用率上达到一种平衡,
92、使系统综合效能最优化,运行更高效可靠。5.4 技术特点总结 5.4.1 存储技术与量子安全相结合 存储技术与量子安全技术的结合是当前信息技术领域的一个重要趋势和研究方向。量子安全是利用量子通信基本原理(如量子态不可克隆原理和量子态的测量塌缩等特性)保证信息传递安全。以量子密钥分发(QKD)协议为基础的量子密码技术是现阶段量子通信最重要的实际应用之一。量子密码以量子力学为基础,它的安全性是建立在测不准原理、量子的不可克隆及量子相干性等物理特性之上的,被证明是无条件安全的。方案的系统中使用的密钥由量子密钥随机数发生器生成,由量子物理过程所产生的随机性具备真随机性,保证了密钥源的安全,配合应用量子安
93、全的对称密码算法,保证了原数据加密的量子安全。分布式存储系统中,不同存储位置对应的传输链路由专属 QKD 和对称密码算法加密保护,保障了复杂理由环境中数据传输的隔离。5.4.2 密钥的秘密共享及分散存储 方案中基于秘密共享机制设计实现密钥份额分配及分散存储保护方法,保证密钥的安全性的同时,通过密钥份额分散存储,实现密钥的存储备份。用户手中保留的是部分子密钥份额,可减轻用户维护手中密钥资源负担,降低因用户密钥丢失或损坏的安全风险。通过秘密共享,也可实现数据拥有者对拥有数据的管控。5.4.3 密钥密文同存保护 密钥份额与密文一同保存,首先可以提供存储上的便利;其次,密钥的份额是经过秘密共享产生的,
94、自身具备机密性。密文中随机插入的子密钥份额,相当于在密文中加入了随机噪声,也可进一步增强密文的安全性。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 33 5.4.4 纠删码与副本拷贝混合存储策略 对于分布式存储采用的容错存储策略,方案推荐采用纠删码与副本拷贝相结合的混合策略,在增强存储空间利用率的同时,能充分地考虑数据存储速率与存储空间利用率这两个关键指标,达到一种平衡,使系统运行更高效。5.4.5 系统低速处理高速处理分离 方案中相对耗时的密钥秘密共享处理及数据预处理(密钥密文同存等过程)存在于应用层客户端,应用层增加的处理过程不影响分布式系统底层数据存储过程,数据低速
95、处理与高速处理分离,不影响系统整体运行的高效性。6 展望 随着 AI 大模型、大数据湖仓一体等新兴应用的崛起,分布式容错存储技术将迎来更广阔的应用前景。新的应用为分布式容错存储技术提供了更广阔的发展空间,同时也对分布式容错存储系统的高性能、高扩展性和高安全性提出了更高要求。量子技术与分布式容错存储系统的融合将不断深化,而当前以量子密钥分发为主流的量子安全技术在效率和稳定性上会进一步提高,从而加快数据加密和解密的速度,减少数据传输和存储的延迟,能更好地满足大规模数据存储和实时数据处理的需求。在不久的未来除了量子密钥分发外,也会有更多的量子技术如量子纠缠、量子隐形传态等技术引入分布式容错存储领域,
96、进一步提升分布式容错存储系统的安全性和性能,为数据的安全传输和存储提供新思路和新方法。量子科技产学研创新联盟 基于量子安全的分布式容错云存储应用场景研究 34 7 参考文献 1 M.Fujiwara,A.Waseda,R.Nojima,S.Moriai,W.Ogata,M.Sasaki,Sci.Rep.6,28988(2016).2 M.Fujiwara,A.Waseda,R.Nojima,T.Tsurumaru,S.Moriai,M.Takeoka,M.Sasaki,IEEE Trans.Quantum Eng.3,4100111(2021).3 M.Fujiwara,H.Hashimoto
97、,K.Doi,M.Kujiraoka,Y.Tanizawa,Y.Ishida,M.Sasaki,M.Nagasaki,Sci.Rep.12,18530(2022).4 CL.Ma,DD.Li,YL.Li,etc.Quantum-secure fault-tolerant Distributed Cloud Storage SystemJ.AIP Advances 13,115309(2023).5 杜军龙,周剑涛.政务云服务化探索研究J.软件.2019,Vol.40,No.11.6 张岩,胡林生.大数据分布式存储技术在中小型金融科技企业的应用与推广J.中国管理信息化.2021,Vol.24,N
98、o.11.7 倪良稳,电力行业分布式存储应用研究J.自动化与仪器仪表.2016,Vol.1.8 苟明宇.分布式云存储在广电 CDN 中的应用J.广播电视网络.2023,No.6.9 范超,韩忠,赵琳.航空电子系统的云存储技术研究J.电光与控制.2022,Vol29,No.3.10 陈 彦 文.云 存 储 在 铁 路 综 合 视 频 系 统 的 应 用 研 究 J.铁 道 通 信 信号.2019,Vol.55,No.5.11 陈思颖,陈其泽.海量车联网数据分布式存储处理系统的设计与实现C.福建省电机工程学会论文集.2020.6.12 周笑天,冯勇,陈益玲,陈澍.基于 Hadoop 的气象数据分布式存储技术研究J.信息技术.2022,No.1.13 谢超群.基于 Swift 云存储技术在高校数据中心的应用J.信息技术.2016.No.7.14 朱承璋,刘梓汐等.分布式医疗大数据存储方案研究综述J.软件导刊.2022,Vol.21,No.4.15 赵开宇,田兰梅.关于分布式存储应用于智慧广电建设的探讨J.西部广播电视.2022,No.1.16 贾黄春.基于 Ceph 的云存储系统的设计与实现D.电子科技大学.2023.06.17 黎颀.基于 Swift 的存储技术优化与研究D.四川大学.2021.04.