概念
>分级存储是根据数据的重要性、访问频率、保留时间、容量、性能等指标,将数据采取不同的存储方式分别存储在不同性能的存储设备上,通过分级存储管理实现数据客体在存储设备之间的自动迁移。数据分级存储的工作原理是基于数据访问的局部性。通过将不经常访问的数据自动移到存储层次中较低的层次,释放出较高成本的存储空间给更频繁访问的数据,可以获得更好的性价比。这样,一方面可大大减少非重要性数据在一级本地磁盘所占用的空间,还可加快整个系统的存储性能。
>在分级数据存储结构中,存储设备一般有磁带库、磁盘或磁盘阵列等,而磁盘又可以根据其性能分为FC磁盘、SCSI磁盘、SATA磁盘等多种,而闪存存储介质(非易失随机访问存储器(NVRAM))也因为较高的性能可以作为分级数据存储结构中较高的一级。一般,磁盘或磁盘阵列等成本高、速度快的设备,用来存储经常访问的重要信息,而磁带库等成本较低的存储资源用来存放访问频率较低的信息。
>信息生命周期管理(Information Lifecycle Management,ILM)是StorageTek公司针对不断变化的存储环境推出的先进存储管理理念,ILM试图实现根据数据在整个生命周期过程中不断变化的数据访问需求而进行数据的动态分布。分级存储和ILM在存储体系结构上基本相同,目标也都是使不同级别的数据在给定时间和不同级别的存储资源能够更好的匹配。二者本质差别是数据分级的标准不同:前者标准为数据近期被访问的概率;后者标准为数据近期对企业的价值。
>存储方式
>传统的数据存储一般分为在线(On-line)存储和离线(Off-line)存储两级存储方式。而在分级存储系统中,一般分为在线(On-line)存储、近线(Near-line)存储和离线(Off-line)存储三级存储方式。
>在线存储是指将数据存放在高速的磁盘系统(如闪存存储介质、FC磁盘或SCSI磁盘阵列)等存储设备上,适合存储那些需要经常和快速访问的程序和文件,其存取速度快,性能好,存储价格相对昂贵。在线存储是工作级的存储,其最大特征是存储设备和所存储的数据时刻保持“在线”状态,可以随时读取和修改,以满足前端应用服务器或数据库对数据访问的速度要求。
>近线存储是指将数据存放在低速的磁盘系统上,一般是一些存取速度和价格介于高速磁盘与磁带之间的低端磁盘设备。近线存储外延相对比较广泛,主要定位于客户在线存储和离线存储之间的应用。就是指将那些并不是经常用到(例如一些长期保存的不常用的文件归档),或者说访问量并不大的数据存放在性能较低的存储设备上。但对这些设备的要求是寻址迅速、传输率高。因此,近线存储对性能要求相对来说并不高,但又要求相对较好的访问性能。同时多数情况下由于不常用的数据要占总数据量的较大比重,这也就要求近线存储设备在需要容量上相对较大。近线存储设备主要有SATA磁盘阵列、DVD-RAM光盘塔和光盘库等设备。
>离线存储则指将数据备份到磁带或磁带库上。大多数情况下主要用于对在线存储或近线存储的数据进行备份,以防范可能发生的数据灾难,因此又称备份级存储。离线存储通常采用磁带作为存储介质,其访问速度低,但价格低廉的海量存储。
>分级存储设备是根据具体应用可以变化的,这种存储级别的划分是相对的,可以分为多种级别。如可以采取FC磁盘-SCSI磁盘-SATA磁盘这种三级存储结构,也可以采取SSD盘-FC磁盘-SCSI磁盘-SATA磁盘-磁带这种五级存储结构,具体采用哪些存储级别需要根据具体应用而定。
>管理的关键技术
>分级存储管理(Hierarchical Storage Management,HSM) 起源于1978年,首先使用于大型机系统。存储实现分级以后,在线存储、近线存储和离线存储存放的数据价值不同,在同一级别存储内部(比如在线存储和离线存储),存放的数据也应该不同,实现每一级别内的“分级存储”。如何将各个级别存储中数据统一管理起来便成了最为关键的问题。
>分级存储管理是将离线存储、近线存储和在线存储融为一体的技术。在分级存储系统中涉及许多技术,如数据增量扫描技术、基于多指标的数据分级策略、在线迁移中的一致性保证技术、数据自动迁移存储技术、存储虚拟化技术、分级存储管理技术等等。这里主要就几个关键技术进行讨论。
>增量扫描技术
>在一个文件数为10亿级的大规模文件系统中,选择分级存储管理操作的候选对象可能是非常耗费资源的,一般须扫描整个文件系统的名字空间。而每秒大约能扫描5000个文件,扫描10亿个文件大约需要27小时。现有的分级存储管理工具一种是集成到文件系统之中,一种是存在于文件系统之外。无论是哪一种,能够获得文件访问情况并利用这一特性,大幅度减少文件扫描规模,减少维护文件访问信息的开销是非常重要的。如于一个20万个文件的文件系统,每天只有不到1%的文件被访问。随着文件系统规模增加,访问百分比还会下降。因此,通过增量扫描技术周期性增量扫描系统元数据来获得文件信息与文件访问情况,如本周期内所有被访问文件的访问统计(包括访问次数和文件大小)、总访问热度等信息,通过增量扫描技术,元数据服务器不必扫描整个文件系统,而通过定期获取近期访问过的文件信息,这样就可大大减少维护文件访问信息的开销。
>基于多指标的数据分级策略
>分级存储采用的存储方式与选择的存储设备的依据是数据的重要性、访问频次等多个指标。多指标的数据信息分级策略,是指根据基于数据的生命周期、上次访问时间、大小、数据信息的关联性等多个参数对数据的价值进行分级;如果数据一创建就能预测其访问特性进而给出相应级别,将能够减少不必要的迁移颠簸。因为数据分级变化意味着数据要在不同级别的存储设备间迁移,以保证合适的数据在合适的时间存放在合适的存储级别上。
>在实际应用中,如能充分挖掘数据的静态特征和访问的动态特征为基础的分级将能获得