大数据存储

时间:2024-03-23 10:39:08

一、云存储
1.概念:云存储是在云计算概念上的延伸和发展出来的一个新概念,是一种新兴的网络存储技术。
2.特点:
可靠性
可用性(多路径、控制器、不同的光纤网、RAID技术、端到端的架构控制/监控和成熟的变更管理过程等方案均可提高云存储可用性)
安全性
规范化
低成本
3.架构
云存储架构由上而下可以分为访问层、应用接口层、基础管理层和存储层
大数据存储
4.云存储技术
4.1存储虚拟化
在虚拟化存储环境中,服务器及其应用系统面对的都是物理设备的逻辑映像,且不会随着物理设备的变化而变化,实现了资源对系统管理员的透明性,在降低构建存储系统成本的同时使管理和维护资源变得容易。
2)云存储的虚拟化将存储资源虚拟化为全局命名空间,并通过多租户技术给使用者提供存储资源,在此过程中,数据可以在存储资源池中跨节点、跨数据中心流动。
全局命名空间有以下三种主要技术方案
(1)算法定位
对于这种实现,数据访问定位快,但算法是固定的。
(2)命名空间管理
实现简单,但用户需要感知一级目录,不能完全做到无感知地访问数据。
(3)动态子树
理论上可以解决海量数据访问问题,但因算法过于灵活,工程化实现难度高,到现在Cephfs也没有得到商用。
多租户技术
在云存储技术中,多租户技术是为了实现不同使用者之间的资源分配、隔离和共享。
在大多数多租户云存储体系中,采用租户、子租户和用户3个层次实现资源分配。租户之间采用物理隔离,同一个租户下的子租户为逻辑隔离,共用物理设备。用户为子租户下的服务终端,同样采用逻辑隔离方法。
虚拟化实施层次
根据不同的虚拟化实现位置,虚拟化还可以分为基于主机虚拟化、基于存储设备虚拟化和基于存储网络虚拟化。
4.2分布式存储
(1)分布式块存储
块存储就是服务器直接通过读写储存空间中的一个或一段地址来存取数据。
优点:读取效率高
(2)分布式对象存储
对象存储是为海量数据提供Key-Value这种通过键值查找数据文件的存储模式。
优点:具有高可扩展性,支持数据的并发读写。接口简单,适合处理海量、小数据的非结构化数据。
缺点:一般不支持数据的随机写操作。
(3)分布式文件系统
文件存储系统可提供通用的文件访问接口,实现文件与目录操作、文件访问、文件访问控制等功能。
目前的分布式文件系统存储的实现有软硬件一体和软硬件分离两种方式。
4.3数据缩减
(1)自动精简配置
利用虚拟化方法减少物理存储空间的分配,最大限度提升存储空间利用率。
(2)自动存储分层
主要用来帮助数据中心最大限度地降低成本和复杂性
(3)重复数据删除
通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。
4.4负载均衡
在云存储中,除了在网络边缘实现DNS动态均匀解析的负载均衡设备,还有在系统内部的负载均衡机制,即在节点资源之间的负载均衡。
二、大数据存储
1.大数据存储的特点和挑战
容量问题、延迟问题、安全问题、成本问题、数据的积累、灵活性
2.储存系统架构
直连式存储(DAS)存储设备直接与主机系统相连
适用环境:(1)服务器地理分布很分散,通过SAN或NAS 互联困难
(2)存储系统必须直接与应用服务器连接
(3)小型网络
缺点:扩展性差、资源利用率低、可管理性差、异构化严重
网络附加存储(NAS)采用直接与网络介质相连的特殊设备实现数据存储的模式。
NAS的物理存储器件需要专用的服务器和专门的操作系统。
优点:(1)即插即用
(2)专用操作系统支持不同的文件系统,从而可以支持应用服务器不同操作系统之间的文件共享
(3)专用服务器上经过优化的文件系统提高了文件的访问效率
(4)独立于应用服务器,即使应用服务器故障或者停止工作,仍然可以读出数据
缺点:(1)共用网络的模式使网络带宽成为存储性能的瓶颈
(2)NAS访问要经过文件系统格式转换,故只能以文件一级访问,不适合块级的应用。
存储区域网络(SAN)
存储区域网络是指存储设备相互连接并与服务器群相连而成的网络,创造了存储的网络化。
基本组成:
接口、连接设备和通信控制协议
SAN支持的功能:档案数据归档和检索、备份与恢复、存储设备间的数据迁移、磁盘镜像技术和网络服务器间数据共享等
在iSCSI协议出现后,为了区分,SAN被分为FC SAN和IP SAN
FC SAN的缺陷:兼容性差、成本高昂、扩展能力差。
IP SAN 具有以下优点:
高扩展性、已经验证的传输设备保证运行的可靠性、数据集中、总体拥有成本低、可以实现远程数据复制和灾难恢复。
3.新兴数据库技术
(1)NoSQL
泛指非关系型数据库。
NoSQL系统普遍采用的一些技术:简单数据模型、元数据和应用数据的分离、弱一致性
NoSQL的优势:避免了不必要的复杂性、高吞吐量、高水平扩展能力和低端硬件集群、避免了昂贵的对象—关系映射。
NoSQL的缺点:数据模型和查询语言未经数学验证、不支持ACID特性、功能简单、没有统一的查询模型。
(2)NewSQL
NewSQL是指这样一类新式的关系型数据库管理系统,针对OLTP(读—写)工作负载,追求提供和NoSQL系统相同的扩展性能,且仍然保持ACID和SQL等特性
NewSQL主要包括两类系统:拥有关系型数据库产品和服务,并将关系模型的好处带到分布式架构上;或者提高关系数据库的性能使之达到不用考虑水平扩展问题的程度。
大数据存储