非结构化数据的归档术

时间:2021-08-01 07:44:02

非结构化数据的归档术

2007-6-4 19:21:07【作者】朱立谷 

 

固定内容都是非结构化或半结构化的数据。与交易数据(数据库)相比,固定内容的数量增长速度更快,管理难度也更大。调查显示,全球数据量的75%都是固定内容数据,针对非结构化数据的归档成了当务之急。

文件存储与搜索技术的现状

非结构化数据的归档术

非结构化数据的分类

非结构化数据的归档术

文件存储的现状

一些国家的法规对固定内容的归档存储提出了严格要求。例如,2002年7月25日,美国颁布了《萨班斯-奥克斯莱法案》。该法案敦促企业必须建立正确的IT基础架构,选择适当的电子文档存储技术以便实现法规遵从。

在传统的网络存储和文件系统中存储的是二进制流文件,不允许对固定内容对象建立更丰富的数据模型,因此,在传统的文件系统中要找到需要的内容非常困难。可见,用户面临的挑战从数据存储变成了数据管理,帮助用户迅速找到需要的信息成为存储系统的一个新的功能需求。

为了实现对数量庞大的数字内容进行高效的存储与搜索,学术界和企业界从网络存储架构和文件搜索技术两个方面进行了大量研究。

网络存储架构的研究

由于基于块(SAN)和文件(NAS)的网络存储不能同时满足高性能和数据共享的需求,对象存储的概念应运而生。对象存储能有效结合SAN和NAS系统的优点,通过数据和元数据的分离简化管理,还可直接访问磁盘,以提高性能,同时满足高性能和数据共享的需求。在面向对象的存储系统研究和开发中,有两个分支引起了学术界和企业界的广泛关注。其中一个分支是智能存储,如NASD、LUSTRE等,另一个分支则是基于内容的存储,如内容寻址存储 (Content Addressable Storage,CAS)。

在CAS中,传统的文件名被一个根据文件内容通过某种特定算法计算出来的字符串所取代。它是一个表征该数据对象的全局惟一的数字标识符,或称为数字指纹。一种常用的方法是根据数据内容计算出固定长度的Hash来代替文件名。CAS维持一个描述组成原数据对象的各个数据块的数字标识符清单,为具体应用提供可用的CAS数据块,以重组原数据对象。对于网络存储系统的客户端而言,只需使用这一数字标识符来实现对内容的存取。

由于CAS采用的是基于对象的接口,因此在数据对象的存储过程中,它既可以达到块接口的速度和效率,又在数据对象共享和管理中具有文件接口的便利。因此,对于固定内容数据的存储,CAS具有很高的性能。

CAS将应用和内容的物理位置完全隔离,可以自动检测数据对象的变化,实时保护数据对象不被恶意修改,维持数据对象的完整性。同时,数据对象的数字指纹是从内容得到的全球惟一的ID,可以用于WORM和内容认证。

除此之外,CAS技术提供了单一实例存储,可消除数据冗余,提高存储空间利用率。由于相同内容的数据对象的数字指纹是一致的,因此在同一CAS系统中,相同内容的文件只允许存在非策略性的一个存储实例。

CAS技术的上述特点使之在文件归档和法规遵从等领域拥有独特的优势,特别适合长久保存非结构和半结构化数据。

业界知名的基于内容的存储原型系统包括贝尔实验室开发的Venti网络存储系统、加利福尼亚大学研究开发的 Deep Store归档存储系统,以及Intel等开发的CASPER分布式文件系统。

基于内容的存储系统也有很多,比如EMC推出的业界第一款CAS产品——Centera、Permabit公司推出的软件CAS产品——Permeon Reference Vault等。HDS、HP、IBM、Nexsan、Sun等厂商和许多初创公司也相继推出了CAS产品。

目前,主要的CAS产品使用API来实现存储,因此必须在API基础上开发应用程序,或者依靠内容管理系统与其他产品进行集成才能使用,但这样的集成系统往往是昂贵而低效的。2006年,ESG的一份研究报告称,让存储系统具有搜索功能是CAS技术发展的必由之路。

文件搜索技术的研究

在过去10多年中,文件系统技术并没有大的变革,而新数据类型(如电子邮件、多媒体)不断出现,包括了丰富的元数据。传统的文件系统是基于目录和文件的层次型结构,没有给予元数据信息足够重要的位置,对于存储在文件系统中的数据都缺乏语义支持,因此不能提供高层的、基于语义的关联式数据存取。认识到现有的文件系统的不足,学术界和企业界做了大量工作,研究如何提高文件的搜索和获取效率,主要方向包括通过扩展文件系统的元数据属性构建新型文件系统,以及利用文件的元数据信息进行文件浏览与搜索。

名词解释:固定内容

固定内容(Fixed Content)就是自创建以后不再更改,并具有长时间保存价值的数据对象,如办公文档、电子邮件、电视新闻、医疗图片等。固定内容包含了与企业业务相关的内容和可为企业提供价值的信息,因此也称为参考数据(Reference Data)。

链 接:语义文件系统

语义文件系统通过增加文件属性的数量,使文件系统包含更多的元数据,进而利用这些元数据信息提供更丰富的功能。语义文件系统利用元数据抽取工具获取更多的元数据,记录用户活动,并采用手工或其他方法对文件进行标注,最后将这些信息结合起来形成统一元数据,并通过元数据信息在非结构化文件和数据库数据之间建立起链接。

语义文件系统是实现虚拟文件系统的一个有效途径,如Microsoft的WinFS和Apple公司的Spotlight虚拟文件夹。虚拟文件夹可采用XML格式的文本文件表示,内容是对数据库进行查询后返回的结果组成的列表,包含了指向符合某种规则的文件或文件夹的链接。

语义文件系统可对文件进行高效的分类,如Linux平台下基于用户空间文件系统(Filesystem in Userspace)的TagFS采用智能标签(Smart Tagging)机制,动态地让数据文件具备特定的标签,加了标签的数据文件的呈现能依据用户的偏好与意图分类,并依据权重排序后呈现。

语义文件系统便于用户对数据文件进行高效的搜索。目前,将语义文件系统和各种桌面应用相结合成为业界的研究热点,也就是桌面搜索。

内容存储思想的提出

非结构化数据的归档术

面向内容存储的技术与应用

CAS存储系统的功能单一,不能提供可直接使用的文件对象浏览和搜索功能,虽然可以满足文件归档和留存的需求,但不能满足电子发现的需求。文件搜索有很好的文件搜索功能,能够满足电子发现的需求,但不提供数据组织和管理功能,不能满足长期留存的需求。这个局限是由于目前的研究将数据存储与数据管理技术完全隔离开造成的,实际上违背了用户的需求。将数据存储和数据管理技术进行综合研究具有巨大的应用价值,CAS和文件搜索的融合可以为企业文件归档和电子发现提供可行的技术方法。

通过对面向内容存储的技术的研究发现,存储技术与数据管理技术存在一个融合规则,即CAS与元数据(数据管理)的融合就是对象存储,对象存储与内容管理的融合属于信息存储范畴,而信息存储与知识管理的技术融合就是内容存储。

内容存储涉及广泛的技术领域,包括对象存储、内容管理、元数据、语义Web,同时内容存储具有广阔的应用空间,如数据分类、信息发表、内容检索等。可以这样认为,将语义Web技术和文件搜索引擎技术应用于内容存储,特别是将语义Web和信息存储中的核心技术进行融合必定会取得良好的效果。

内容存储

传统的存储系统是追求高性能而不是数据保留的长久性,是在块中分布数据而不是使空间效率最大化,是为了读写数据而不是永久地保存数据,并且只提供了一些安全措施,没有坚实的抗毁性。

固定内容的存储需要具有区别于文件系统的特性,即可以极大地降低存储成本,具有不可改变的特性(一次写入,多次读取),可以动态扩展,提高可靠性。固定内容的存储比磁带系统具有更小的延时,还有通用接口、搜索能力(尤其是在PB级存储系统中)。使用固定内容的存储,几十年或几百年后对资料进行读取都可以像现在对本地或分布系统的读取一样方便。固定内容数据必须被长期保存,以便今后检索,保存的时间可能会超过存储硬件的预计寿命,甚至可能超过存储软件系统和其接口的使用寿命。

文件系统依赖于基于位置-数据映射的方法来寻址数据(居留于文件系统中的文件),数据随时可以修改。文件系统的数据定位方法(如文件名)可能是非常复杂和脆弱的。固定内容存储使用存取标记机制来进行对象寻址,只要客户应用程序用一个记号和数据(数据库记录)关联起来,拥有适当的存取权限的应用服务器或客户端就可以从任何地理位置获取数据。当一个客户端发出请求,CAS产生一个全球惟一的标识(存取标记),稍后可以用来获取对象。客户在定位对象时不必担心挂载点、路径或操作系统文件名的限制。应用(客户端或服务器)只需要提交一个标记,CAS服务器就将对象返回。

通过从网络类型、接口类型、寻址方法和关键特性等几个方面与NAS和SAN对比可以发现,CAS特别适合于固定内容的存储需要。

CAS是一种对象存储系统。CAS中数据存储的基本单元是对象。与常规存储系统中所使用的文件或块不同,对象包括文件数据加上定义数据的不同方面的属性。这些属性可以是在一个文件的基础上定义的元数据和服务质量。与通常的块存储不同,对象存储系统必须跟踪系统中每个块的所有属性。这简化了存储系统的任务,并通过将数据的管理与数据自身一起存储,从而增加了存储系统的灵活性。

CAS解决了传统的基于文件名存取数据的一些缺点。例如,它可以识别两个文件名不同但是内容完全相同的文件,可以避免相同数据的多次存储,从而节省大量的空间。另外,CAS还具有高可管理性、高可用性和安全性好等优势。

内容管理

相对于存储在关系数据库中的结构化数据而言,内容管理的对象是以各类非结构化数据为主的数字内容,包括企业的各种文档、报表、账单、网页、图片、传真、扫描影像,以及大量多媒体的音频、视频信息等。与业务信息系统中大量用于交易记录、流程控制和统计分析的数据相比,固定内容具有某种特定和持续的价值,这种价值在共享、检索、分析等使用过程中得以产生和放大,并最终对企业的业务和战略产生影响。

内容管理的目标是,实现对各种环境下以各类非结构化和半结构化数据为主的内容的综合管理,提供内容采集、创建、加工、存储、传递、组织、服务和反馈等内容全生命周期过程中所需的各项功能,以及元数据管理、智能检索和分析、数字版权和内容安全等专项技术,使内容得到高效利用和增值,给内容所有者和消费者带来效益。

内容存储与内容管理的结合

非结构化数据的归档术

存储与内容管理结合的方式

固定内容存储和企业内容管理拥有完全相同的对象,即非结构化数据,两者必定能够建立起某种联系。

在EMC Centera中,应用程序不再使用传统的文件访问或块访问接口,要求应用程序必须进行修改,以使用新的API来实现存储。EMC开放了Centera的API接口,以吸引独立软件开发商在其API基础上开发应用程序,或对原有的应用进行移植。目前,许多厂家的内容管理系统通过与Centera系统结合实现了具体的应用,如电子邮件归档系统、医疗图像归档与管理系统、文档归档与内容管理系统等。

Permabit公司的CAS产品——Compliance Vault提供了更多能够满足法规遵从的功能和特性。Compliance Vault软件能够被安装在任何符合Intel标准架构的服务器上,并兼容来自不同厂商(Dell、HP和IBM)的存储设备。每一台安装了 Compliance Vault软件的服务器都将成为Permabit Permeon存储解决方案中的存储节点。Compliance Vault为外部应用提供了标准的CIFS/NFS API,可与大多数内容管理产品协同合作。但是,Compliance Vault本身并没有提供搜索和容量报告功能,这些功能必须由Permabit的合作伙伴来实现。

目前,CAS产品不能提供一个完整的固定内容存储解决方案,必须依靠与其他产品进行集成才能应用。不但如此,CAS产品本身还十分昂贵。美国PRIAA工业协会的报告指出,1台EMC的Centera的价格为10万~20万美元;Archivias声称其ArC(2004年4月推出)的价格为Centera的一半;而Sun的IntelliStore(2005年6月推出)最低配置(4TB)的价格为7.5万美元。据此计算,这些CAS产品加上其他配套软硬件组成的固定内容存储解决方案最少要花费数百万元,这显然是中小型企业难以负担的。

用户希望存储厂商根据用户的实际应用量身定制存储与管理统一的服务系统,而不是提供许多单一功能的产品,然后组合成一个昂贵而低效的集成系统。

如果充分利用固定数据对象中的元数据作为桥梁,便可以将内容管理技术和CAS技术结合起来,将目前CAS和内容管理集成的固定内容存储管理方案变成对外提供存储和管理统一服务的一体化解决方案。因此,中国传媒大学计算机学院推出了一种新的基于内容管理的存储系统平台,称为CAStor内容存储-管理系统,将CAS存储与内容管理结合在一起。

传统的存储系统包括DAS、NAS和SAN,它们基于文件系统寻址存储系统中的数据,并进行数据管理,因此不具有固定内容存储需要的特性。CAS内容寻址存储系统将数据分级、元数据技术、高速索引和搜索技术集成到存储系统中,便于和内容管理软件进行集成,构成固定内容存储方案。CAStor内容存储-管理系统是一种纯软件的存储系统架构,适合于各种开放的PC服务器和磁盘阵列,采用内容寻址技术,可为企业提供集存储服务、内容管理、内容服务于一体的系统平台。