您好,欢迎来到中国软件产教联盟!

海量数据存储

发布人: | 发布时间:2014-10-21| 浏览次数:

海量数据存储

存储技术在满足数据的前提下,不断的更新换代着,数据的增长量决定了存储技术的发展快慢。随着数字图书馆、电子商务、多媒体传输等应用的不断发展,数据从GB、TB到PB量级海量急速增长。存储产品已不再是附属于服务器的辅助设备,而成为互联网中最主要的花费所在。海量存储已成为继计算机浪潮和互联网浪潮之后的第三次浪潮,磁盘阵列与网络存储成为先锋。

一、 磁盘阵列

磁盘阵列和网络存储作为当前实现海量信息存储的主要手段,主要包括如下关键技术。

(一) 可承受单磁盘故障的编码技术:

RAID0~RAID5都只能承受一个磁盘故障,对于海量存储系统可能无法满足需求。

(二) 可承受多磁盘故障的编码技术:

美国California大学Guillermo等通过对保存在磁盘上的所有信息全部进行编码(暗文),提出了一种能够承受多个成员磁盘故障的RAID结构。由于编码的实现过程计算复杂,无论读/写数据操作,均需要多个磁盘读写操作和解码操作,对存储系统I/O性能的影响较大。

韩国电子与通信研究所Chong-Won Park等提出了一种新的冗余编码方式来提高RAID结构容灾能力,但是存在冗余信息分布不对称的问题,虽然能承受某些特殊组合的三个成员磁盘失败,但是也可能因为某种组合的两个磁盘失败而引起数据丢失。

二、 网络存储

网络存储关键技术包括如下几种。

(一) 系统管理的研究

主要是虚拟存储研究,虚拟化存储是提高网络存储系统可管理性的核心技术之一,也是目前研究的热点。其目标为任何地方的任何用户可以访问和共享任何文件。目前有以下三种虚拟化存储技术。

1.基于主机的虚拟化技术:代表性产品为Redhat LVM (for Linux)和Veritas VVM (for Solaris,AIX),通过建立逻辑卷层实现虚拟化,可用于在服务器端将镜像映射到外围存储设备上建立虚拟存储设备,是最为普遍的虚拟化技术。

2.基于存储设备的虚拟化技术:多为硬件实现,在性能上具有优势,多家厂商的产品无法共同使用。

3.基于网络的虚拟化技术:支持多种网络和网络传输协议,可以将不同IT厂商、不同设备品牌、不同连接方式的磁盘阵列组成一个虚拟的存储池,映射给网络上的应用服务器使用

(二) 数据共享的研究

主要是文件系统研究。共享SAN文件系统是目前在多平台环境、多用户共享、并行存取的SAN存储系统中,解决设备数据的共享机制的主要技术。共享SAN文件系统可采用以下两种不同的实现方法。

1.对称共享的方法:所有的用户共享数据和元数据,同步工作由多个用户通过全局锁制实现,如Redhat的GFS、IBM的GPFS和SGI的CXFS等。

2.非对称共享的方法:元数据由一个或几个集中的服务器进行管理,用户仅仅共享数据,数据的存取通过SAN网络,而元数据的存取通过专用的数据网络,如IBM的Storage Tank、Panasas公司的PanFS和Cluster File Systems公司的Lustre。

三、 海量存储发展趋势

分布式存储与P2P存储:分布式存储概念提出较早,目前再次成为热点。P2P存储可以看作分布式存储的一种,是一个用于对等网络的数据存储系统,它的目标是提供高效率的、鲁棒的和负载平衡的文件存取功能。

数据网格:为了满足人们对高性能、大容量分布存储能力的要求所提出的概念,类似于计算网格,是有机的智能单元的组合。

智能海量存储系统:包括主动的信息采集,主动信息分析、主动调整等。

海量存储服务质量QoS:应用环境越来越复杂,存储需求区别也越来越明显,这就需要为应用提供区分服务。目前的研究以基于网络存储的QoS为主。

海量存储容灾:通过特定的容灾机制,能够在各种灾难损害发生后,最大限度地保障计算机信息系统不间断提供正常应用服务。