声明:该文章主要来自《MongoDB实战》一书内容,主要想通过该书学习MongoDB的相应知识,加深理解,故写在自己的博文当中,作为记录在最后的章节中,会有一个自己集合MongoDB数据库应用的JavaEE的web应用。
第一章 走进MongoDB
MongoDB是一个高性能、开源、无模式的文档型数据库,是当前NoSQL数据库产品中最热门的一种,它在许多场景下可用于替代关系型数据库或者键/值存储方式,MongoDB使用C++开发,MongoDB的官网是地址是:http://www.mongodb.org/,可以在此获得更多的详细信息。
1.1、为什么要用NoSQL
1.1.1、NoSQL简介
NoSQL,全程Not Only SQL,指的是非关系型的数据库,这类数据库主要有这些特点:非关系型的、分布式的、开源的、水平可扩展的,原始的目的是为了大规模web应用,这场全新的数据库革命运动早期就有人提出,发展至2009年趋势越发高涨,NoSQL的拥护者们提倡运用非关系型的数据存储,通常的应用如:模式*、支持建议复制、简单的API、最终的一致性(非ACID)、大容量数据等,NoSQL被我们用得最多得当数key-value存储,当然还有其他的文档、列存储、图型数据库、xml数据库等,相对于目前铺天盖地的关系型数据库运用,这一概念无疑是一种全新思维的注入。
1.1.2、发展现状
现今的计算机体系结构在数据存储方法要求应用架构具备庞大的水平扩展性,而NoSQL正在致力于改变这一现状,目前新浪微博的Redis和Google的Bitable以及Amazon的SimpleDB使用的就是NoSQL型的数据库,NoSQL项目的名字上看不出什么相同之处,但是它们通常在某些方面相同:它们可以处理超大量的数据。
这场革命目前仍需等待,NoSQL对于大型企业来说还不是主流,但是一两年之后就会变个样子,在NoSQL运动的最新一次聚会中,来自世界各地的150人,挤满了CBS Interactive的一间会议室,分享他们如何推翻缓慢昂贵的关系数据库的暴政,怎样使用有效和更便宜的方法来管理数据。
关系型数据库给你强加了太多的东西,它们要你强行修改对象数据,以满足数据库新系统的需要,在NoSQL拥护者们来看,基于NoSQL的数据库替代方案,只是给你所需要的。
1.1.3、为什么是NoSQL
随着互联网web2.0网站的兴起,非关系型数据库现在成为了一个及其热门的新领域,非关系型数据库产品的发展非常迅速,而传统的关系型数据库在应付web2.0网站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心,暴露了难以克服的问题,比如:
1、High performance 对数据库高并发写的需求。
web2.0网站要根据用户个性化信息来实时生成动态页面和提供动态信息,所以基本上无法使用动态网页静态化技术,因此数据库并发负载非常高,往往要达到每秒上万次读写请求,关系型数据库应付上万次的SQL查询还勉强顶得住,但是应付上万次的SQL写数据请求,硬盘IO就已经无法承受了,其实对于普通的BBS网站,往往也存在对高并发写请求的需求。
2、Huge Storage 对海量数据的高效存储和访问的需求。
对于大型的SNS网站,每天用户产生海量的用户动态信息,以国外的Friend feed为例子,一个月就达到了2.5亿条用户动态,对于关系型数据库来说,在一张2.5亿条记录的表里进行SQL查询,效率是极其低下乃至不可忍受的,再如大型web网站用户登录系统,比如腾讯、盛大、动辄数亿计的账号、关系数据库也很难以应付。
3、High Scalability && High Availability 对数据库的高扩展性和高可用性的需求。
在基于web的架构当中,数据库是最难进行横向扩展的,当一个应用系统的用户量和访问量与日俱增时,你的数据库却没有办法像web server和app server那样简单的通过添加更多的硬件和服务节点来扩展性能和负载能力,对于很多需要提供24小时不间断服务的网站来说,对数据库系统进行升级和扩展是非常痛苦的事情,往往需要停机维护和数据迁移,可是停机维护随之带来的就是公司收入的减少。
在上面提高的三高需求面前,关系数据库遇到难以克服的障碍,而对于web2.0网站来说,关系数据库的很多主要特性却往往无用武之地。比如:
1、数据库事务一致性需求
很多web实时系统并不要求严格的数据库事务,对读一致性的要求很低,有些场合对写一致性要求也不高,因此数据库事务管理成了数据库高负载下一个沉重的负担。
2、数据库的写实时性和读实时性需求。
对关系数据库来说,插入一条数据之后立刻查询,是肯定可以读出来这条数据的,但是对于很多web应用来说,并不 高俅这么高的实时性。
3、对于复杂的SQL查询,特别是夺标关联查询的需求。
任何大量数据的web系统,都非常忌讳多个大表的关联查询,以及复杂的数据分析类型的复杂SQL报表查询,特别是SNS类型的网站,从需求以及产品设计角度,就避免了这种情况的产生,往往更多的只是单表的主键查询,以及单表条件分页查询,SQL功能的被极大的弱化了。
因此关系数据库在这些越来越多的应用场景下显得不那么合适了,为了解决这一问题的NoSQL数据库应运而生。
NoSQL是非关系型数据存储的广义定义,它打破了长久以来关系型数据库与ACID理论大一统的局面,NoSQL数据存储不需要固定的表结构,通常也不存在连接操作,在大数据存取上具备关系型数据库无法比拟的性能优势,该概念在2009年初得到广泛的认可。‘
当今的应用体系结构需要数据存储在横向伸缩性上能满足需求,而NoSQL存储就是为了实现这个需求。Google的BigTable与Amazon的Dynamo是非常成功的商业NoSQL实现,一些开源的NoSQL体系,如Fackbook的Cassandra,Aapche的HBase,也得到广泛的认可,从这NoSQL项目的名字看不出什么相同之处:hadoop、Voldemort、Dynomite还有其他很多,但是它们有一个共同点:就是改变大家对数据库在传统意义上的理解。
1.1.4、NoSQL特点:
1、它可以处理超大量的数据。
2、它运行在便宜的PC服务器集群上。
PC集群扩充起来非常方便并且成本很低,避免了传统商业数据库的sharding操作的复杂性和成本。
3、它击碎了性能瓶颈。
NoSQL的支持者称,通过NoSQL架构可以省去将web或者java应用和数据转成SQL格式时间,执行速度变的更快。
SQL并非适用于所有的程序代码,对于那些繁重的重复操作的数据,SQL值得花钱,但是当数据结构非常简单时,SQL可能没有太大的用处。
4、它没有过多的操作
虽然NoSQL的支持者也承认关系型数据库提供无可比拟的功能集合,而且在数据完整性上也发挥绝对稳定,他们同时也表示,企业的具体需求可能没有那么复杂。
5、它的支持者源于社区。
因为NoSQL项目都是开源的,因此它们缺乏供应商提供的正式支持,这一点它们与大多数开源项目一样,不得不从社区中需求支持。
NoSQL发展至今,出现了好几种非关系型数据库,本书以NoSQL中目前表现最好的MongoDB来进行说明。
1.2、初始MongoDB
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系型数据库的,它支持的数据结构非常松散,是类似于json的bjson格式,因此而已存储比较复杂的数据类型,MongoDB最大的特点是它支持查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似于关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引,它是一个面向集合的、模式*的文档性数据库。
1、面向集合(collection-Orented)
意思是数据被分组存储在数据集中,被称为一个集合(Collection)。每个集合在数据库中都有一个唯一的标示名,并且可以包含无线数目的文档,集合的概念类似于关系型数据库里的表,不同的是它不需要定义任何模式(Schema)
2、模式*(schema-free)
意味着对于存储在MongoDB数据库中的文件,我们不需要知道它的任何结构定义,提额这么多次无模式或者模式*,它们到底是一个什么概念呢?比如,下面两个记录可以存储到同一个集合里面:
{"welcome":"beijing"}
{"age":25}
3、文档型
意思是我们存储的数据是键值对的集合,键是字符串,值可以是数据类型集合里的任何类型,包括数组和文档、我们把这个数据格式称作BSON,即Binary Serialized Document Notation。
1.2.1、特点
面向集合存储,易于存储对象类型的数据
模式*
支持动态查询
支持完全索引,包含内部对象
支持查询
支持复制和故障恢复
使用高效的二进制数据存储,包括大型对象(如视频等)
自动处理碎片,以支持云计算层次的扩展性。
支持Python、PHP、Ruby、Java、C、C#、javaScript、Perl以及C++语言的驱动程序,社区中也提供了对Erlang以及.net平台的驱动程序。
文件存储格式为BSON
可以通过网络访问。
1.2.2、功能
面向集合的存储:适合存储对象以及JSON形式的数据。
动态查询:mongoDB支持丰富的查询表达式,查询指令使用JSON形式的标记,可轻易查询文档中内嵌的对象以及数组。
完整的索引支持:包括文档内嵌对象以及数据,MongoDB的查询优化器会分析查询表达式,并生成一个高效的查询计划。
查询监视:MongoDB包含一系列监视工具用于分析数据库操作的性能。
复制和自动故障转移:MongoDB数据库支持服务器之间的数据复制,支持主从模式及服务器之间的相互复制,复制的主要目标是提供冗余以及自动故障转移。
高效的传统存储方式:支持二进制数据以及大型对象(如照片或者图片)
自动分片以支持云级别的伸缩性:自动分片功能支持水平的数据库集群,可动态添加额外的机器。
1.2.3、使用场合
网站数据:MongoDB非常适合实时的插入,更新与查询,并具备网站实时数据存储所需要的复制和高度伸缩性。
缓存:由于性能很高,MongoDB也适合作为信息基础实施的缓存层,在系统重启之后,由于MongoDB搭建的持久化缓存可以避免下层的数据源过载。
大尺寸,低价值的数据:使用传统的关系型数据库存储一些数据时可能会比较昂贵在此之前,很多时候程序员往往会选择传统的文件进行存储。
高伸缩性的场景:MongoDB非常适合由数十或者数百台服务器组成的数据库,MongoDB的路线图中已经包含对MapReduce引擎的内置支持。
用于对象以及JSON数据的存储:MongoDB的BSON数据格式非常适合文档化格式的存储以及查询。