爆炸式增长的数据如何处理?
60秒的时间内可以做那些事呢?打字员可以打80个字,YouTube的用户可上传长达72小时的视频……言归正传,60秒,也就是一分钟内在互联网上到底发生了什么事呢?
在一分钟内,邮箱用户总共发送了2.04亿封邮件,亚马逊官网上的销售额约达到了8.3万美元,再说说社交网络上,Facebook的用户约推送了246万条的内容,Twitter用户发推数量约为27.7万条……
在这组数字表象的背后,不知道你有没有发现需要哪些支撑?让我们简单算一下,按照目前3.2ZB的数据量,需要至少4.5亿台12盘位采用6T硬盘的服务器来支撑。但是按照现有资料来看,全球运行的服务器总量应该是5000万台左右,这其中有近一个量级的差距!而这是按照较高的存储密度来算,何况有大量的服务器是用于计算而非存储!
据分析称,全球产生的数据量中仅有1%左右的数据能够被保存下来!如何保存更多的数据?最简单方法当然是,采购更多的存储介质--磁带、光盘、硬盘、SSD等,但是如何选择存储介质则成为了另一大难点。
冷热分治,浪潮如何处理海量数据
Google所处理搜索查询是极热的数据处理,需要快速处理海量的并发,而Facebook所面临的挑战则是如何保存每天20万张照片。Youtube似乎面临的问题更为复杂,因为视频的热度不一。举个中国的例子,最近热播的电视剧与1983年的春晚录像相比,热播剧需要更低的延时,而早期春晚的录像则由于热度较低而成为冷数据。
浪潮将数据分为四个温度带
数据量的爆炸式增长以及数据类型的日益细化,让数据分级和冷热数据分治成为降低单位容量数据成本、提升数据存储效率和密度的有效方式。在企业的数据中心中,只有10%~15%的数据是被经常访问的,IOPS要求100K 级别,剩余的则访问频率急剧下降,在10k甚至以下。既然需求不同,那么是不是能够将不同类型的数据存储在不同的介质上,以最大化运用存储的效率?
为了更进一步细分数据等级,能够更好分配资源和提高收益,浪潮按照数据读取的热度,将数据分为寒带、温带、亚热带和热带数据,并通过不同速率的存储介质和不同处理速度的CPU的配比,实现数据存储的成本最优,使数据存储更适合上层业务应用。
高IOPS满足热数据高速、频繁读取
随着数据量的持续增加,单位时间内需要处理的请求越来越多,SATA SSD也显得力不从心,SATA接口6Gb/s的限制已经成为发挥SSD性能的瓶颈,因此各厂商将目光转向拥有更高带宽的PCI-E。
目前主流的PCI-E 3.0 x16的传输速度已经可达16Gb/s,而最新的PCI-E 4.0 x16将能够达到32GB/s!实测数据显示,采用了新的NVM SSD技术优化PCI-E SSD的连续读取和写入速度已经达到惊人的2.8GB/s和2GB/s!IOPS已经突破450000,是SATA SSD的6倍,单位IOPS成本降低71%!
经过测试,在热数据处理应用中,采用PCI-E加速,性能将提升10倍,而投资将减少一半以上!
NVMe将最大化发挥SSD性能
PCI-E接口打破了SSD存储速率上限,但其仍受到接口标准的限制。举个例子,假如你有一辆豪车,时速能到300迈,在乡间小道上,犹豫路窄且泥泞,你只能开到60迈,这就相当于SATA SSD;过了好久,终于开到了高速,由2车道变成6车道,但是路上车多,最高速限制120公里,这就相当于采用AHCI标准的PCI-E SSD;又开了一段时间,已经远离城市,来到荒无人烟的大草原,这里的标准就是*,限制车速的就是豪车本身。
当然,这个例子并没有把NVMe的特性解释全面,其实相对于AHCI,原生PCI-E主控与CPU直连,并且精简了调用方式,因此延迟大大降低。由于将队列深度从32提升至64000,NVMe提升了SSD的IOPS。另外,采用NVMe标准后,解决了不同PCI-E SSD之间的驱动适用性问题。
目前浪潮互联网定制化服务器SA5112M4、SA5212M4均可支持 NVMe 。其中密度较高的1U机架服务器SA5112M4可支持 4片 NVMe SSD,提供 100k 级别 IOPS,满足极热数据的高并发访问需求,完美解决被数据频繁访问的问题。
平衡的计算与存储配比
对于亚热带数据,SATA SSD 的性能可以满足,且在目前来看价格与PCIe SSD相比仍有一定的差距,因此对于每天访问约几十遍的数据可以使用SATA SSD存储。所以浪潮服务器满足单节点最多配置 8 块 SATA SSD,单盘提供 10k 级别的 IOPS 响应能力。而温带数据相比热数据体量陡然增高,所以相比较需要成本更低的存储方案,使用Intel E5双路服务器+大容量SATA硬盘是主流的配置。但是,温带数据存储目前有了一种新的选择。
去年3月,Intel官方宣布了基于14nm的Xeon首款单芯片产品,家族命名"Xeon D"。Xeon D基于Broadwell-DE架构,是真正的SoC系统,不仅有处理器,还整合了内存、I/O等子系统,定位介于Atom与Xeon E3之间。
Intel Xeon-D处理器
今年9月,浪潮在其第三届互联网应用技术峰会上,在业界率先发布了基于Xeon-D SoC处理器的一系列产品,专为温数据存储设计,低功耗和高集成度为构建高密度的云数据中心提供支持。此前,浪潮已经拥有1U8盘、2U12盘、4U36盘等较为完整的数据分级存储产品,这次发布的Xeon-D新品,将为温冷数据存储提供了更多的选择。
浪潮整机柜服务器SR系列
Xeon-D产品同样会在浪潮整机柜服务器SR中应用,在1U的空间内支持18块3.5英寸硬盘,单节点可扩展支持一个JBOD,存储密度提升的同时,可进一步降低了存储成本,且支持硬盘休眠,从而实现超低闲置功耗。
寒带数据,更注重容量和能效比
目前,PCI-E SSD也可以做到超大的容量,但是对于温数据和冷数据来说,性能是过剩的。对于冷数据采用SATA硬盘,就足够满足性能需求。以目前国内较大的云存储--金山云为例。借助小米用户的基础,金山云已成为全国最大的云存储服务提供商。预计未来可能每天新增1PB的内容,全年将有1000个PB内容需要存储!如此海量的数据,不仅需要足够的硬盘来存储,也需要大量的机柜以及交换机、负载均衡等网络层来支撑,大规模的服务器集群无疑会增加运维与管理方面的复杂度,使数据中心的TCO不断攀升。
为此,金山选择于浪潮合作,由浪潮为其定制一款专门的冷存储服务器--SA5224L4,在4U的空间里支持36个3.5寸热插拔硬盘,由单路CPU带动多块硬盘的设计,使单位空间存储密度增加50%,平均每TB成本最多降低13%,每TB功耗最多降低10%。
浪潮SA5224L4服务器
在笔者看来,未来互联网数据中心的存储介质选择上,PCI-E SSD将逐步替代SATA SSD成为热数据和温数据存储的首选。而冷数据存储上,大容量低成本的SATA HDD还将是最具性价比的选择。浪潮根据互联网客户需求,推出业界首款基于SAS协议的资源池化产品--SAS Switch,将从机柜层面推动冷热数据分离,并简化存储设备运维难度!
原文发布时间为:2016年11月11日
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。