卷实时保护算法在数据安全技术中的研究
   来源:智能计算机与应用     2018年09月09日 16:08

信息中心 大数据应用安全研究报告

姚蕾

文章编号: 2095-2163(2018)03-0172-04中图分类号: 文献标志码: A

摘要: 关键词: (Chengdu Polytechnic, Chengdu 610041, China)

Abstract: The era of big data has arrived. Data is the core of all kinds of information system applications. All information systems run normally under the premise of data security storage. How to ensure data security is the focus of this project. We study the algorithm of real-time protection of volume, and strive to find a way to improve data security.

Key words:

基金項目:

作者简介:

收稿日期: 引言

数据是各类信息系统应用的核心,信息系统能够正常运行是建立在数据安全存储的前提之下。IT 运维人员往往更重视服务器系统的可用性和安全性,而较易忽视数据安全的重要性。实际上,数据才是各类信息化应用及业务系统的中枢所在,特殊情况发生时,交换机、服务器、存储设备等必要的硬件资源能够快速恢复或重新配置,但如果数据发生损坏或丢失,可能很难找回或恢复。因此,实时保护数据安全已成为了信息安全的重中之重。

目前,随着云计算和大数据产业的快速发展,企业在大数据环境下的数据安全方面发生了巨大变化,传统的数据安全解决方案早已无法满足大数据的安全需求,主要体现在以下3个方面:

(1)大数据备份时间长,数据易丢失

企业的应用逐渐丰富和多元化,这使得企业的数据量成几何级增长,且增长速度越来越快,特别是非结构化数据正逐渐成为其增长的主力,过去简单的结构化数据的备份模式不再实用,普通的企业用户对复杂界面的备份操作感觉吃力;如果在业务运行时对大数据进行备份,会导致累积增量数据过多,空闲时间增量数据经常备份不完,增加备份间隔又会导致事故发生时丢失数据变多。

(2)大数据逻辑损坏,备份后的数据无法正常使用

数据损坏可以分为2种情况,一种是损坏后的数据彻底无法使用,这种损坏称为物理损坏;另一种是失效的数据仍可以部分使用,只是数据之间的关系发生了错误,这种失效称为逻辑损坏。传统的存储复制灾备模式几乎不能隔离任何逻辑错误,一旦出现数据库逻辑错误,如:数据库BUG、磁盘坏块、网络内存错误等,磁盘镜像技术将无损地把这些错误也传播到备份数据库的磁盘中,最终导致备份数据库将无法正常使用。

(3)大数据备份耗时又耗力,业务难恢复

在大数据平台遭遇到物理故障、逻辑错误或人为因素造成的数据损坏后,如采用传统备份恢复手段,会因数据量大以及网络带宽有限等因素导致业务中断时间过久,且随着数据量的增大,企业用户不断更新动态。目前,企业需要更加灵活、快速和精细化的数据恢复方法。尤其在大数据环境下,备份不能进行恢复演练,无法确定备份有效性;在需要数据恢复时,不能预先查看备份内容,导致长时间恢复的数据可能不是想要的数据。这将严重影响到业务的正常开展,给企业带来巨大的经济损失和负面影响。

针对上述问题,本文采用PB级大数据卷实时保护算法和虚拟磁盘卷技术,结合卷级IO 拦截与分离、ESXI 虚拟机自动生成等技术,通过对大数据卷进行卷级实时保护,在大数据卷需要数据恢复时,可将大数据卷的备份数据快速虚拟成可读可写的临时磁盘卷,用于应急恢复大数据卷中的数据,在极端情况下,也可以临时替换受保护的大数据卷,保证业务持续性。本文的研究成果不仅可保障云平台、智能制造等大数据环境下的数据安全,同时可实现数据安全产品自主可控,保障大型数据安全。

1系统功能模块介绍

本文通过卷实时保护技术对大数据卷进行实时保护,通过虚拟磁盘卷的技术将大数据卷的备份数据快速虚拟成可读可写的临时磁盘卷,用于应急恢复大数据卷数据。本文根据快速原型法和敏捷开发的思想,采用B/S和C/S混合架构,总体架构如图1所示 。

根据需求规格对界面进行原型设计,采用网页方式将设计的界面原型导出,通过不同用户对界面原型交互完善需求规格的设计。

(1)卷实时保护算法模块

首先,完成卷的初始化同步、实时同步保护、卷快照的创建、删除;其次,完成卷的异步保护功能、定时数据同步、暂停保护、继续保护等;最后,完成卷快照删除时的空间释放、卷镜像中断后快速增量初始化等。每个阶段的程序即可独立测试也可集成到总框架中进行联调。

(2)开发虚拟磁盘卷模块

首先,将真实磁盘卷通过ISCSI/FC target 映射给生产服务器,通过程序进行挂载与卸载磁盘卷等;其次,将单个文件虚拟成磁盘卷,将虚拟磁盘卷通过ISCSI/FC target 映射给生产服务器等;最后,将多个物理设备上的文件重组成一个虚拟磁盘卷,将虚拟磁盘卷通过ISCSI/FC target 映射给生产服务器等。每个阶段的程序即可独立测试也可集成到总框架中进行联调。

完成各模块的集成和系统测试后,将系统安装到推荐硬件环境下并在实际环境中继续进行测试优化,根据用户反馈改进用户体验。

2系统总体设计

系统设计主要分为以下几方面:

(1) Linux 操作系统下ISCSI/FC 虚拟磁盘卷技术研究此项技术可以将位于不同物理存储上的文件重组成虚拟磁盘卷,再通过ISCSI/FC target 将虚拟磁盘卷映射到生产服务器,作为生产服务器被保护卷(生产卷)的镜像卷,对生产卷进行保护。

(2)虚拟磁盘卷技术研究

此项技术主要研究虚拟磁盘的创建、删除、映射、挂载与卸载。挂载与卸载都需要在系统运行时进行,不能重启系统,卸载时需要考虑卷上有程序或文件被打开时的处理。

(3)卷级IO 拦截与分离技术研究

此项技术主要研究各种操作系统下,在卷读写IO 时拦载并分发至镜像卷,需要支持同步与异步两种模式,同步模式下生產卷与镜像卷数据完全一致,数据0 丢失;异步模式下,需要提供暂停机制,以免影响生产系统效率。下面对各技术进行详细描述。

2.1卷级实时保护算法

基于多维链表IO 日志记录算法的卷级实时保护给逻辑卷每一个数据块增加一个TimeStamp 以及占用者Unit Number 来标记{Time,Unit Number},Unit Number 表示被某个存储单元占用,Time 表示何时占用。分别建立两张表,一张为LMT(logic mapping table)表,一张为IRT(io recording table)表。LMT表记录当前时间该数据块指向哪个位置,LMT表存储当前卷的数据。IRT表记录该数据块何时被谁占用,IRT表存储最备份集的数据,如图2所示。

本算法通过块索引,快速重建任意时间点的数据;根据设置的卷实时保护数据保留时间策略,自动回收卷实时保护数据所占用的空间。

2.2虚拟磁盘卷技术

备份服务器上安装虚拟磁盘驱动并生成虚拟磁盘,通过ISCSI/FCtarget 映射给生产服务器,生产服务器通过卷过滤驱动将生产磁盘的所有IO 操作同样分发一份到虚拟磁盘,在虚拟磁盘上应用卷级CDP 算法进行整个逻辑卷的实时保护。同样,可将任意时间点的备份版本生成虚拟磁盘,通过ISCSI/FC 协议挂载到任意服务器,也可以作为裸磁盘映射到虚拟机,在生产服务器故障时快速接管生产服务器应用。具体流程如图3所示。

2.3卷镜像中断后快速增量初始化技术

目前,几T与几十T的卷已经比较常见,假设当前系统有10TB的有效数据,按250 MB/S的读速度计算,仅读取当前有效数据的时间就会超过10小时。因此,当生产卷与镜像卷镜像关系中断造成数据不一致需要重新初始化时,如果使用现有的技术进行增量初始化,会长时间占用系统CPU、系统IO 资源、系统内存,影响生产系统运行。本文使用增量Bitmap表技术解决上述问题,实现原理如图4所示。

在镜像卷未尾分配连续扇区用于存放增量Bitmap 表,对生产卷进行划磁盘块,本文定义每块大小为16MB ,增量Bitmap表中每一个Bit 与生产卷一个磁盘块对应,代表此磁盘块的写标识,初始时每个Bit 的值为0。100TB 的数据卷对应的增量Bitmap 表等于800KB。在生产服务器上安装卷过滤驱动,监控对生产卷的写IO 操作,如果写IO 中的扇区所在磁盘块对应写标识为0,则修改写标识为1,且立即保存增量Bitmap 表有修改的扇区。

在镜象复制开始时,如果上一次系统是非正常关机或上一次镜象复制异常中止,则进行增量初始化镜像卷。将增量Bitmap 表中写标识为1 的磁盘块包含的扇区n转化成文件系统中簇的位置(簇号=(n-卷起始扇区)/每簇扇区数),通过文件系统API 判断簇是否有数据存在,将有数据的扇区内容复制至镜像卷,再将磁盘块相应bit 修改为0,并且立即保存增量Bitmap 表有修改的扇区。在处理增量Bitmap 表中的增量数据的过程中,系统产生新的增量数据保存至镜像复制缓存。

3结束语

本文将需要保护的大数据卷(生产卷)的磁盘IO 分离至虚拟的镜像卷,在镜像卷使用卷实时保护算法,可以生成任意时间点的备份版本,对生产卷的磁盘IO 不作任何改变,保证生产卷的效率与安全性。本文研究具有如下优势:

(1)基于多维链表IO 日志记录卷级实时保护算法,逻辑卷每一个IO 写入都可以生成对应时间点的卷备份版本,版本间隔可达毫秒级,每份版本仅占用增量空间,过期的版本自动被最新的版本覆盖,保证备份持续进行。

(2)数秒内完成封装最近时间点或任意历史时间点的大数据内容为虚拟磁盘形式,可供任意服务器挂载并提供访问,用于确认备份有效性。

(3)生产卷与镜像卷关系中断造成不一致后,使用增量Bitmap 表技术进行快速初始化同步,使生产卷与镜像卷数据保持一致。支持Windows 2003、Linux 2.6 以上操作系统的逻辑卷实时保护,支持保护1PB 以上的数据量。

实时保护运行时,CPU 占用率低于5%,内存占用可手动设置,默认100M以内;支持以秒为单位选择任意时间点的备份版本生成虚拟磁盘,1 分钟内通过ISCSI/FC 协议挂载虚拟磁盘获取相应时间点的数据;支持反复回滚,回滚到某一时间点时,不丢失此时间点之后的IO 记录;支持虚拟化演练与接管,虚拟服务器可以使用最近时间点的版本数据在3分钟内启动自动生成的虚拟机。通过本项目逐渐形成产业化发展,促进本地区高新技术产业链形成较完整的产业集群。

参考文献

[1] 贾心恺,顾庆峰.移动互联网安全研究[J]. 移动通信,2011,35(10):66-70.

[2] 肖志辉. 移动互联网研究综述[J]. 电信科学,2009,25(10):30-36.

[3] 谢胜落,张佩辰. 移动互联网安全加密技术[J]. 网络安全技术与应用,2001(4):22-24.

[4] 全秀霞. 移动互联网中基于会话的Web负载测试研究[D]. 华南理工大学,2011.

[5] 郝文江,武捷. 互联网舆情监管与应对技术探究[J]. 信息网络安全,2012(3):1-4.

数据 磁盘 文章