分类
Technology|技术

基于3-2-1备份策略的存储实践

前言

免费、便捷的存储大行其道的今天,数据似乎变得越来越没有存在感。昨天好友发来了一张趣图,今天打开对话框就能转发给别人。上午没写完的方案保存在桌面,下午回来接着写。开会要用到的演示文档,复制到U盘里再粘贴到投影仪专用电脑上……诸如此类的理所当然,归功于产品经理、电子工程师、计算机科学家和软件程序员的不懈努力。

但是,这些数据安全吗?所谓安全,一是想删掉的数据没有任何手段可以找得回来,二是想保存的数据不会因任何意外而丢失,三是未经允许的任何实体都不能获取到数据。然而世界上的意外和恶意如此之多,没有人和方法能够做到滴水不漏。社交媒体上是否时而能看到误删聊天记录无法恢复的哀怨?有没有遇到过软件崩溃导致没及时保存的设计稿灰飞烟灭的情况?经历过U盘所插过的电脑全部中勒索病毒的绝望吗?

除此之外,从数据的载体上看,每种介质都有其天然的缺陷。光盘与机械硬盘的盘片非常害怕划痕。基于电子势态或者逻辑门的各类内存除了自身的读写次数有限外,还对周围的电磁环境和电路稳定性十分敏感。而网络存储,没有哪个空间供应商能够保证万无一失的。

某网盘的免责声明

鉴于网络服务的特殊性,用户同意xx网盘服务有权随时变更、中断或终止部分或全部 的网络服务。如变更、中断或终止的网络服务属于免费网络服务,xx网盘服务无需通知用户,也无需对任何用户或任何第三方承担任何责任。

某笔记软件的免责声明

在法律允许范围内,我们对以下情形导致的服务中断或受阻不承担责任:
网络服务特性而特有的情况,包括但不限于基础网络运营商或网络设备技术提供商的故障、计算机或互联网相关技术缺陷、互联网覆盖范围限制、受到计算机病毒、木马或其他恶意程序、黑客攻击的破坏。

某聊天软件的免责声明

xx不对你在本软件及服务中相关数据的删除或储存失败负责;
xx有权根据实际情况自行决定单个用户在本软件及服务中数据的最长储存期限,并在服务器上为其分配数据最大存储空间等。你可根据自己的需要自行备份本软件及服务中的相关数据;

没有人(代指“实体”)敢为数据安全兜底,没有人有能力为数据安全兜底。而这篇文章讨论的是,基于3-2-1备份策略在数据存储方面促进数据安全。

3-2-1备份策略的基本思想

3-2-1备份策略指的是,3份副本,2种介质,1个异地。举两个简单的例子说明之:

  1. 在家里的电脑上新建一个文档,在文件夹里复制多两份。这满足了“3份副本”的原则,即使不小心把剪切按成了删除,还有2份副本可供恢复。但是不满足后两个原则。
  2. 在上面的基础上,把其中一副本刻录到光盘里。这就额外满足了“2种介质”的原则,即使硬盘中毒挂掉了,还能从光盘里把文档恢复到别的电脑上。
  3. 在上面的基础上,把光盘放到公司。这就额外满足了“1个异地”的原则,即使家中失火,光盘里的数据还能够安然无恙。

可见,要实践这个策略其实并不复杂,仅需本地留两份副本,再把一份副本复制出来放到别处去即可。然而真正实践起来,还有其他需要注意的地方。3、2、1仅是最低限度的要求,提升这些数字能够降低数据丢失的几率。一旦其中一项、两项或三项标准不能满足了,应该尽快恢复到能够满足最低限度的状态。对一台设备上产生的一批数据做备份的确不复杂,但是对多台设备不断产生的数据组织备份计划才是日常生活中的情景,才是工程学上要解决的实际问题。

实践过程

利益声明:本博客仅作分享技术用途,由作者全资运作。作者不靠任何由本博客产生的价值营利。过去、现在、将来没有也不会接受任何形式的推广、资助或捐赠。下文由于涉及到实践细节,将会不可避免地出现具体厂家。

硬件准备

  • 一台NAS。品牌:威联通/QNAP,型号:TS-551-2G,参考价格:¥1489。
  • 两块硬盘。品牌:西部数据/Western Digital,型号:My Book 8TB,参考价格:¥868.31✖2。
  • 一台路由器。品牌:华硕/ASUS,型号:RT-AC86U,参考价格:¥899。
  • 一台UPS。品牌:施耐德/APC,型号:BK650-CH,参考价格:¥494。

NAS的作用把存储空间独立在日常使用的电脑之外。购买该NAS是因为它自带了根据3-2-1备份策略设计的软件,其他品牌的NAS和自组主机也可以。但要充分考虑系统稳定性和功率。

硬盘选择了两块同型号的8T氦气盘。硬盘容量根据已有数据和计划存储的数据量决定。要考虑硬盘的噪音和散热。

路由器使用了内外网口都是千兆的无线路由器。在有足够接口带宽的支持下,数据传输才不会成为瓶颈。

突然掉电会损坏机械硬盘,加一台UPS作为后备电源能够避免意外掉电带来的危害。UPS应该选择带通讯接口的,目的是通知NAS及早进入保护模式或安全关机。

实践步骤和要点

首先对所有硬件进行基本检查,防止买到翻新件、二手件,有防伪码的就去验证一下。对硬盘进行基本的检测,包括但不限于读写测试、坏道测试、S.M.A.R.T评判。然后进行一段时间的普通使用再重复检测一次。如果硬盘有暗病,有很大几率在初期使用的时候就会显现出来。在模拟断电的情况下测试UPS是否正确启动。在硬件完全准备就绪之后才进入下一步,硬件是一切方法的根基。

下一步是把硬盘妥当地安装在NAS的插槽中,然后锁入NAS盘位。为了让两块8T硬盘只保存纯粹的“数据”,额外放了一块小硬盘保存NAS系统的应用程序。首次开机,跟随向导进行一系列初始化配置。在此过程中,可以先不处理数据盘,只在软件盘划出分区安装应用即可。

等待成功进入NAS的操作系统后,就可以开始思考如何设计存储策略了。

从分散到集中

每分每秒,都在产生数据(特指已数字化的)。有因工作而产生的,有因社交而产生的,也有纯粹属于内省的数据。这些数据分散在手机、电脑等数码设备中。存储策略的第一步,就是把分散的数据集中起来。

数据从分散流向集中

数据一开始被数字化的地方可以是多种多样的,最后都被集中到NAS中处理。传输的途径可以是内网内无线到有线,可以是内网内有线到有线,可以是内网穿透到外网再穿透到内网,甚至是从NAS主动抓取互联网的数据。数据传输手段和网络拓扑形式不在本文讨论范围之内。总之,在此实践中,数据都被集中到NAS中存储了。

需要使用RAID吗?

关于RAID的基本概念不在本文的介绍范围之内。有两块相同容量的硬盘时,无非只有两种选择:RAID0,数据被撕开两半分别存储于两个硬盘中,总可用容量为两个硬盘容量之和。因为可以同时从两块硬盘上访问数据,理论上读写速度是所有RAID中最快的。但是当其中一块硬盘坏时,丢失全部数据。另一种选择是RAID1,数据被镜像存储于两个硬盘中,总可用容量为单个硬盘。由于两个硬盘内的数据一模一样,理论上防损性是所有RAID中最好的。当任何一块硬盘坏时,不影响另一块硬盘中的数据。

看起来RAID1很符合3-2-1策略,使用这种模式自然地会有两个副本。但是基于两个原因,此实践不使用RAID。一,RAID的设计目的是提高可用性。要理解高可用性,就要同步理解容错和灾难恢复。借用很经典的三个例子来描述这三个概念。容错,就像有多发动机的飞机。在任何一个发动机罢工,但还没有爆炸的前提下,飞机还是可以靠剩余的发动机完成降落。灾难恢复,就像战斗飞机的弹射座椅。在飞机中弹后,还能借此逃出生天。高可用性,就像越野车的备胎。当轮胎被扎破了,花少量时间换上备胎,接着进行任务。备胎是给车子快速换上,让车子在最短时间内能够跟之前没两样地继续跑起来。而RAID在硬盘损坏后,凭借健康硬盘中存在的部分或全部,已损坏了的硬盘中的数据,尽快让存储系统恢复到硬盘损坏前的状态。这对企业来说是非常重要的,停止服务的时间每多一秒中都会带来经济上的损失。而对家庭用户来说,没有那么高的可用性需求。今天看不成十年前的照片,明天看也一样,只有数据还能被恢复即可。二,使用RAID1是会无条件地全盘复制到另一个硬盘上,对存储空间的占用极大。有些数据在网上随处可见,存在NAS中只是为了方便访问,即使丢失了也随时可以重新下载。这种数据就没必要保存副本了。

存储池和卷

当确定了每块物理硬盘都独立使用后,就确定了存储池的形式。按照威联通NAS的存储空间组织形式,最底层的存储单位就是一块块物理硬盘。然后在上层使用软件的方式把符合条件的物理硬盘以一定的方式,组织成RAID(或独立使用)。之后,将一个或多个RAID或独立硬盘融合成存储池。若两块8TB的物理硬盘以RAID0的方式组成一个16TB的空间,再将这个空间组成存储池后,用户只需把它当成一个16TB的“硬盘”使用,至于底层怎么将数据分布存储在每块物理硬盘中的,用户无需关心。

然而卷才是被文件系统访问的基本单位。按照威联通NAS的存储空间组织形式,有三种卷。静态卷,直接构建在RAID或独立物理硬盘上,不能在存储池上构成。因而静态卷有最佳的读写性能,但是不支持快照和LUN等功能。厚卷和精简卷在存储池之上构建。一个存储池可以有一个或多个这两种卷,且不能跨存储池。厚卷的概念和Windows的逻辑分区类似,在创建之时就会占用固定大小的空间。这个空间不能超过存储池的大小。就像某些下载软件的空间占用策略一样,先用一大堆的“0”把要下载文件的空间占用了,然后随着下载的进程用真实的数据逐个覆盖掉占位用的无意义数据。精简卷是先声明要占用一定大小的空间,这个空间可以超过存储池的大小。因为存储池也可以在日后扩展空间的。但是精简卷只会实际占用被卷内有效数据占用的空间,因此多个精简卷的声明空间总和可以超过当前存储池的空间。例如存储池的空间有8TB。一,可以创建两个4TB的厚卷。二,可以创建7TB的厚卷加上10TB的精简卷。三,可以创建好几个10TB的精简卷。但无论哪种方式,在存储池不扩展的情况下,总共就只能存下8TB的有效数据。同时,由于机械硬盘的存储在物理上是连续的,应该尽量避免数据碎片化。

  • 几个物理硬盘组成RAID
  • 一个或几个RAID可以组成存储池
  • 一个或几个物理硬盘(非RAID形式)可以组成存储池
  • 一个或几个RAID混合一个或几个物理硬盘(非RAID形式)可以组成存储池
  • 厚卷和精简卷需要创建在存储池中
  • 静态卷需要直接创建在一个RAID或一个物理硬盘中
  • 厚卷和精简卷可以共存在同一个存储池中
  • 厚卷和精简卷不能跨存储池创建
  • 厚卷创建时就占用固定的空间
  • 精简卷创建时只声明需要占用的空间
  • 静态卷创建时占用全部的RAID或物理硬盘空间
  • 厚卷和精简卷都可以在创建后调整占有空间的大小
  • 厚卷占用空间的大小不能超过存储池
  • 精简卷占用空间(声明式)的大小可以超过存储池
  • 存储池可以在创建后再调整大小

NAS本地存储空间规划

基于上述的信息,结合手上已有两块硬盘(实际上插入NAS中有三块,其中一块用于保存操作系统软件,不参与数据存储实践)进行分析。首先,两块硬盘独立存在,不组RAID。然后,一块硬盘单独构建存储池,2TB的空间构建厚卷,用于存储需要永久保存的数据。1TB的空间构建精简卷,用于保存没那么重要,丢了也没所谓的数据。最后,另一块硬盘单独构建静态卷,用于定期从厚卷中备份数据。

实践的存储结构

为什么第一块硬盘要分厚卷和精简卷?快照等存储池功能是分卷实施的,分两个卷易于数据管理。需要永久保存的数据在本实践中变化是较为缓慢的,一旦有数据被划分为永久保存数据就需要进行保存,因此需要已经确定的空间来存储,分为厚卷最为合适。不需要永久保存的数据在短期内的变化是较快的,使用精简卷较为合适。

为什么第二块硬盘只作为静态卷使用?静态卷更接近硬件底层,因此有更高的性能。而且第二块硬盘的唯一作用就是备份第一块硬盘中厚卷的数据,不需要其他存储池特有的功能支持。越简单故障恢复的几率越大。

厚卷与精简卷的空间分配策略为何如此?厚卷作为永久保存数据的地方,首先要满足能够保存所有现有的需要被永久保存数据的大小。为了减少调整卷大小的频率,再留一定的余量。余量越大,后期需要调整分区大小的频率就越低。当然这也与数据总量的增速有关。精简卷可以不必过多关注,先随意分配一点空间就够了。但注意不要一次就把整个存储池占满,因为部分数据管理有关的操作需要存储池有未被分配的空间。当实际数据占用率已经接近物理存储空间的80%就需要考虑购入新的硬盘扩展存储池了。

完成NAS本地存储规划后,也就满足了“3-2-1”策略中的两个数据副本目标和一个存储介质目标。还剩一个数据副本,一个另外的存储介质和一个异地保存。

实践中的空间分配(由于系统功能占用了部分空间,数据可用空间少于硬盘大小)

云存储

最直接实现“3-2-1”策略的方式就是使用云存储服务。将一个副本放在云上,就能满足三个数据副本的目标。云上的存储可能是机械硬盘,也可能是固态硬盘,这不需要考虑太多,可以直接把云硬盘当做第二种存储介质。而且云本来就和NAS异地。

威联通在软件层面上支持远程NAS、Rsync服务器、FTP服务器、CIFS/SMB服务器等协议型服务器以及Amazon S3、阿里云、Azure、Google等商品云。在商品云中使用的是对象存储服务。

本实践中使用的是阿里云的OSS服务。购买了OSS的存储资源包和流量资源包后,新建一个Bucket用于存储数据。

然后新建一个子账户,并授予其OSS的管理权限。并获得其Access Key和Secret Key。

自动化备份

只有当备份的过程越接近无感,才能越容易地把备份策略执行下去。

在威联通自带的Hybird Backup Sync中配置两条自动备份策略。

  1. 源位置:本机NAS的厚卷(具体文件夹)到目标位置:本机NAS的静态卷(具体文件夹)。
  2. 源位置:本机NAS厚卷(具体文件夹)到目标位置:阿里云的OSS Bucket(具体文件夹)。

为防止数据混乱,以上自动备份策略皆是单向策略。要恢复数据需要手动进行,且不建议从同一路径回流数据。即在厚卷中误删了某个文件,不要直接从静态卷复制到厚卷。先从静态卷取到电脑,再从电脑上传到NAS的厚卷。数据以一个方向流动不易造成混乱,尤其在开启了版本管理的情况下。

备份计划

结语

本文解释了何为3-2-1备份策略,并介绍了其中一种实践方式。三份副本中,两份在本地的两个不同硬盘中,一份在云中。两种存储介质分别为机械硬盘和云端。一个异地为云端。

不想因为数据丢失而措手不及,最简单有效的方式就是多留备份。不同的备份方式对于减少数据永久丢失的贡献是不同的。不同的备份方式对使用者的知识水平和时间精力的要求也是不同的。

及早地行动起来,不要等失去之后才来后悔。

于本网站所提及之商标、服务标志、商号名称、标志、品牌、产品名称及其他商品表征,倘若非属 本网站 所有,均属个别所有人之商标或服务标志。本网站亦保留未详述的其他权利。

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注