云存储离我们还有多远?

时间:2022-09-14 09:10:44

  云计算无疑是现在最热门的IT话题,不管是商业噱头还是IT技术趋势,它都已经融入了我们每个人工作与生活当中。按照现在比较潮的说法,我们每个人都"被云计算"了。分布式计算、普适计算、网格计算、效用计算,现在的计算概念与技术趋势更新换代太过迅速,旧的概念还没有普及和被理解与接受,新的概念又悠如一夜春风扑面而来。2007年底IBM宣布云计算计划,云计算概念正式推出。于是乎,什么都成了云计算,Google, IBM, MS, Amazon, EMC等IT巨人相继推出云计算,Amazon(S3), Google(GFS), MicroSoft(SkyDrive), EMC(Atmos, mozy)等推出云存储服务,还有诸如Dropbox, SugarSync, SyncPlicity, CrashPlan等云存储产品。这些云计算和云存储,或是新推出的,或是原先早已存在的加以重新包装或命名。在开源界,云存储项目也异常活跃,如HDFS,KFS,Ceph, MFS, Sector, FastDFS。

  云计算是2009、2010的最受关注的10大IT技术,2010年被认为云计算元年,从现在起云计算/云存储服务将进行井喷发展时期。据IDC预测,全球云计算的市场规模将在2012年达到420亿美元,在IT投入比例中占25%以上。SpringBoard认为中国云存储将由2009年的605万美元快速增长至2014年的2.0584亿美元,增长率达103%。中国移动139信箱,上海电信e云、世纪互联有备、联想商务网盘、金山网盘,国内云存储市场发展迅猛。移动互联网发展非常迅猛,根据MorganStanley分析预测,2012年智能手机持有量将超过PC持有量,移动互联网将推助云存储需求大幅扩张。

云存储离我们还有多远?


  什么是云计算?"云计算是以虚拟化技术为基础,以网络为载体提供基础架构、平台、软件等服务为形式,整合大规模可扩展的计算、存储、数据、应用等分布式计算资源进行协同工作的超级计算模式"。云计算主要特征是虚拟化技术、动态可扩展、按需部署、高灵活性、高可靠性、高性价比,其相关计算形式包括分布式计算、网格计算、并行计算、效用计算,商业模式主要有IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)、DaaS(数据即服务)。

  根据SNIA的定义:Cloud storage delivers virtualized storage on demand, over a network based on a request for a given quality of services(QoS)。云存储即DaaS(存储即服务),专注于向用户提供以互联网为基础的在线存储服务。它的特点表现为弹性容量(理论上无限大)、按需付费、易于使用和管理。云存储主要涉及分布式存储(如分布式文件系统、IPSAN、数据同步、复制)、数据存储(如重复数据删除、数据压缩、数据编码)和数据保护(如RAID、CDP、快照、备份与容灾)等技术领域。目前典型的云存储服务主要有Amazon S3, Google GFS, Microsoft SkyDrive, EMC Atmos/mozy, Dropbox, SugurSync,SyncPlicity, 中国电信e云, 中国移动139信箱, 世纪互联有备, 联想商务网盘, 金山网盘。

  根据我自己的理解,云存储主要有三种应用模式。一是大规模数据处理,包括互联网搜索、日志分析、数据挖掘、科学计算(如HEP、大气、生物、地质等应用);二是数据共享与分发,主要面向个人和SMB用户,包括在线数据存储、同步、访问、共享、WEB2.0、SNS、图片/音频/视频、博客/微博;三是数据备份与归档,目前这类应用比较多,可利用现有云存储提供此类服务,个人和SMB对数据备份的认识和需求在不断提高。

  任何一项模式或技术试图解决所有的问题都是不现实的,这对云计算和云存储亦适用,因为现实世界的需求太过复杂。云计算的乌托邦是:像使用电力一样来使用云计算,这是极度理想的状态。网格计算当初也是这个理想,可惜未能实现而淡出人们视野。与网格计算不同,云计算得到了商业界的普遍支持,它有可能更加接近于这种理想状态。经历了计算为中心、网络为中心,计算进入了以数据为中心的时代。现实世界数据呈现指数级爆炸趋势,预测2020年数据宇宙将达到35.2 ZB(1 ZB = 1百万PB),存储需求非常巨大,这将是云存储发展的机遇。从目前的一些统计与预测分析数据来看,云存储市场与应用发展非常迅速,有一部分企业或个人已经认可这种模式,但更多人的用户仍持怀疑和观望态度。经过一些调研分析,我认为如下几个主要原因将影响云存储普及应用。云存储终将离我们越来越近,但是终究到底还有多远?这由这些问题的解决程度决定。

一、性能瓶颈
  云存储以互联网为基础提供存储服务,私有云存储可以基于LAN,但公有云则需要通过广域网WAN来承载。由于带宽的限制以及网络复杂性,造成较大的数据访问延迟,尤其是对WAN来说,数据访问性能和实时性是个巨大的瓶颈。LAN目前的网络带宽可以达到1Gbps和10Gpbs,WAN要差很多,诸如ADSL的宽带网络带宽通常为512K/1M/2Mbps。移动互联网带宽则更差一些,3G网络还没有大规模普及,GPRS用户仍然众多。中国目前大概有3.8亿网民,主要集中在城市,网络情况稍好。近年来,中国农村计算机和网络市场发展较快,然而与农村巨大的潜在市场相对,有线和无线通信网络带宽都非常有限。网络带宽问题如果不能解决,则性能将是云存储的关键瓶颈。虽然Cache缓存、预取prefetch以及数据复制replication可以在一定程度上提高性能,但无法从根本上解决问题。这样的话,对性能和实时性要求高的应用则无法使用云存储,TB/PB级以上的海量数据访问更是可望而不可及。用户需要使用数据时,却无法及时获取数据,云存储还有什么意义呢?

二、安全性
  数据安全性是用户最为关心的,尤其是用户的关键数据。数据安全包含三个目标,即完整性integrity)、机密性(confidentiality)和可用性(availability)。简而言之,完整性要求信息必须是正确和完全的,而且能够免受非授权、意料之外或无意的更改;机密性要求信息免受非授权的披露;可用性要求信息在需要时能够及时获得以满足业务需求。现代企业对计算机的依赖性严重增强,信息数据逐渐成为企业赖以生存的基础,数据损坏或丢失将给企业带来巨大的损失。数据安全威胁主要来自黑客、病毒、硬件设备的失效以及火灾、地震等自然灾害,数据的丢失、破坏、篡改、失窃等都会都是用户所极为担心的。2010年中国云计算调研报告显示,数安全性与隐私仍然是广受各类企业和用户关注。埃森哲发布2010年中国云计算调研告也显示,6成受访者“十分担心”数据安全与隐私。另外,用户普遍认为,数据存放在别人那里终究不如自己存放安全。因此,如果安全问题得不到有效解决,它也将成为云存储的绊脚石。

三、标准与互操作性
  云存储目前属于处于混沌局面,SNIA等机构联合众多厂商提出了一些标准(如CDMI),然而事实是标准往往需要较长的时间才能达到成熟阶段并实际应用。因此,在一个相对较长的时期内,各云存储服务还将各自为战,无法统一标准。这样,云存储服务之间在数据存储格式、访问协议、授权与认证方式、用户界面等方面可能存在差异,无法做到数据互操作性。考虑这样的情形,用户同时使用了几家云存储服务,或者用户需要更换云存储服务,即从一家云存储服务迁移到另一家云存储服务。没有标准和互操作性,可以想像这将是一个非常痛苦的过程。网格计算的标准和互操作性做得不好,云计算和云存储应该汲取这个教训。标准和互操作性会给用户带来更多云存储服务选择,方便数据迁移、交换,有助于提高服务质量。

四、访问与管理
  云存储特征之一是易用性和管理方便。用户希望云存储服务易于使用,用户交互接口简洁,无需改变原有的使用行为,能够对现有的应用系统透明(即应用不需要修改),比如提供WEB接口、网络磁盘接口、标准访问接口(如FTP、P2P、POSIX)。电力的用户接口非常简洁,只要一个插座即可,也容易统一标准。如果大家体验过Aamzon S3, google storage, SkyDrive, SuguarSync, mozy等云存储服务,就会发现这些服务不是提供自定义的访问接口(如REST、SOAP),就是提供各自专用的用户界面,甚至要求用户进行开发。另外对于数据管理,各家云存储这个环节也很薄弱,要么非常简单,要么基本没有。云存储要达到电力的普及程度,路漫漫其修远兮。

五、存储容量
  云存储理论上存储容量无限大,用户根据需要使用并付费即可。资源总是有限的,用电高峰的夏天很多地方都要拉闸限电。Amazon S3从官方信息看能够达到PB级,但其存储容量肯定存在上限。google storage目前仍在测试阶段,没有公布最大存储容量数据。其他的以数据备份为主的云存储服务,用户数据存储容量基本定位在GB量级,如世纪互联有备50GB,中国电信E云300GB,SkyDrive 25GB,SugarSync 250GB, 金山快盘5.6GB,联想网盘10GB。除了Amazon,其他的云存储服务基本是面向中小企业SMB和个人用户,大中型企业用户无法应用。现在企业数据量都非常巨大,TB应用级随处可见,PB级应用也越来越多,欧洲的LCG高能物理实验数据存储量在100PB以上。可见,存储容量会限制很多用户对云存储的需求,目前云存储应用主要还是以SMB和个人用户为主,另外就是临时性存储空间租用需求。对于大量长期的海量存储容量租用,云存储可能还需要较长的时间才能够支持,无法想像EB、ZB级的云存储数据中心是什么样子,更无法想像其供电、空间、冷却问题该如何解决。

六、价格因素
  云存储的好处是无需要自行构建存储系统或数据中心,也不需要进行数据管理和维护。另外就是可以大大节省成本,根据需要租用存储空间,按照实际使用付费。下面我们以10G和10TB为例计算一下几个云存储服务的成本(价格信息从云存储服务网站获取):

云存储提供商

功能

10GB费用/

10TB费用/

S3

数据存储

~ 200美元

~ 144,000美元

Google Storage

数据存储

~ 264美元

~ 264,000美元

Mozy home

数据备份

54.45美元

N/A

SuguarSync

数据备份

49.99美元

N/A

世纪互联有备

数据备份

400

N/A

中国电信E

数据备份

165

N/A

联想网盘

数据备份

399

N/A

  从上表可以得到,10G的云存储容量年使用费用大致都400元以内,这个价位可以被大多数用户所接受。不过,10GB空间是非常有限的,临时性存储和共享一些数据还是可以的,对于视频和图片等文件可能就相形见拙了。10TB存储空间目前只有S3和google storage可以提供,不过年使用费用也是非常昂贵的,S3大约为100万元,而后者接近200万元。个人用户显然无法承受,大多数中小企业SMB可能也无法接受,或许只有Facebook, Twitter这样有雄厚资金实力的公司才能用得起。可见,价格因素仍然制约着云存储的大规模应用,费用降低到大众可以普遍接受的水平,是云存储像电力一样普适应用的前提之一。