留白因子：可以使用db.collection.stats()查看当前的paddingFactor，留白的大小可以通过一个公式计算：padding size = (paddingfactor-1)*<document size>。留白并不能对每个文档做准确的设置，只能根据文档大小的平均数。留白的大小只能通过执行compact或者repairDatabase选项回收。

删除留白：可以通过compact，repairDatabase和初始化复制同步选项来移除，导出导入也可以。

行分配策略：为了更加有效的使用因为删除而空闲的空间，或者文档重新分配的空间，可以指定mongodb分配的行大小，大小为2的n次。

2.3 Mongodb CRUD教程

2.3.1 插入文档

在mongodb中，可以使用insert，update，save来插入数据

2.3.1.1使用insert插入文档

向inventory插入数据：db.inventory.insert( { _id: 10, type: "misc", item: "card", qty: 15 } )

2.3.1.2使用update插入文档

使用update插入文档的时候要指明upsert：true，表示如果有数据则修改，没数据则插入

db.inventory.update(

{ type: "book", item : "journal" },

{ $set : { qty: 10 } },

{ upsert : true }

)

{ "_id" : ObjectId("51e8636953dbe31d5f34a38a"), "item" : "journal", "qty" : 10, "type" : "book" }

插入的文档如果没有指定_id mongodb会自动分配一个_id。

2.3.1.3使用save插入文档

往inventory插入数据db.inventory.save( { type: "book", item: "notebook", qty: 40 } )

{ "_id" : ObjectId("51e866e48737f72b32ae4fbc"), "type" : "book", "item" : "notebook", "qty" : 40 }

2.3.2查询文档

在mongodb中，find()返回一个游标，通过游标来获取返回的文档。

2.3.2.1 查询全部的文档

可以使用如下来查询所有的文档：

db.inventory.find( {} )，db.inventory.find()

2.3.2.2指定条件查询文档

如果要在inventory中查询type为food或者snacks的：

db.inventory.find( { type: { $in: [ 'food', 'snacks' ] } } )

2.3.2.3使用and条件查询

在mongodb中，只要都好分开就表示and条件

db.inventory.find( { type: 'food', price: { $lt: 9.95 } } )

2.3.2.4 使用or条件查询

db.inventory.find(

{ $or: [

{ qty: { $gt: 100 } },

{ price: { $lt: 9.95 } }

]

}

)

2.3.2.5使用and和or 查询

db.inventory.find( { type: 'food', $or: [ { qty: { $gt: 100 } },

{ price: { $lt: 9.95 } } ]

} )

2.3.2.6子文档

当要查询子文档的时候，可以指定子文档的所有值，也可以使用.(点号) 获取子文档的字段值。

精确的匹配文档

也就是匹配整个子文档

db.inventory.find(

{

producer: {

company: 'ABC123',

address: '123 Street'

}

)

使用子文档的字段匹配

用点号获取子文档的值

db.inventory.find( { 'producer.company': 'ABC123' } )

2.3.2.7数组

匹配方式和子文档类似

匹配整个数组

db.inventory.find( { tags: [ 'fruit', 'food', 'citrus' ] } )

匹配某个元素

只要某个元素在数组中都会被匹配

db.inventory.find( { tags: 'fruit' } )

匹配指定元素

db.inventory.find( { 'tags.0' : 'fruit' } )

子文档数组

使用数组所有匹配子文档中的字段：db.inventory.find( { 'memos.0.by': 'shipping' } )

多字段匹配

db.inventory.find(

{

'memos.memo': 'on time',

'memos.by': 'shipping'

}

)

2.3.3限制查询返回的字段

Projection可以限制字段的输出

2.3.3.1 返回所有字段

Find，函数第二个参数就是projection如果不填就是全部返回

2.3.3.2返货指定字段和_id

db.inventory.find( { type: 'food' }, { item: 1, qty: 1 } )

其中_id字段是默认返回的所有不用指定

2.3.3.3只返回指定字段

db.inventory.find( { type: 'food' }, { item: 1, qty: 1, _id:0 } )

因为_id是默认返回的，所以要设置_id不返回。

2.3.3.4 返回除某字段外的所有字段

db.inventory.find( { type: 'food' }, { type:0 } )

2.3.3.5数组字段的Projection

对于数组来说唯一可用的projection操作就是$elemMath和$slice

2.3.4在mongo shell中迭代一个游标

如find函数没有赋值给变量，在shell中会直接迭代20次。

2.3.4.1手动迭代游标

通过以下方式可以直接迭代20次

var myCursor = db.inventory.find( { type: 'food' } );

myCursor

也可以手动迭代

var myCursor = db.inventory.find( { type: 'food' } );

var myDocument = myCursor.hasNext() ? myCursor.next() : null;

if (myDocument) {

var myItem = myDocument.item;

print(tojson(myItem));

}

还可以用forEach方法

var myCursor = db.inventory.find( { type: 'food' } );

myCursor.forEach(printjson);

2.3.4.2迭代索引

在mongo shell中可以可以直接把游标toArray()，然后直接访问数组即可。

var myCursor = db.inventory.find( { type: 'food' } );

var documentArray = myCursor.toArray();

var myDocument = documentArray[3];

2.3.5分析查询性能

Explain()游标方法，这个方法用来分析查询的效率，确定如何使用索引。

2.3.5.1 评估查询性能

db.inventory.find( { type: 'food' } ).explain()

结果

{

"cursor" : "BtreeCursor type_1",

"isMultiKey" : false,

"n" : 5,

"nscannedObjects" : 5,

"nscanned" : 5,

"nscannedObjectsAllPlans" : 5,

"nscannedAllPlans" : 5,

"scanAndOrder" : false,

"indexOnly" : false,

"nYields" : 0,

"nChunkSkips" : 0,

"millis" : 0,

"indexBounds" : { "type" : [

[ "food",

"food" ]

] },

"server" : "mongodbo0.example.net:27017"

}

Cursor的值为btreecursor表示是用了索引

n表示返回的文档数

2.3.5.2比较索引性能

如果要比较索引之间的性能可以使用hint来强制

db.inventory.find( { type: 'food' } ).hint( { type: 1 } ).explain()

db.inventory.find( { type: 'food' } ).hint( { type: 1, name: 1 } ).explain()

2.3.6修改文档

修改文档的操作有，update 和save，update是修改文档，save如果文档存在则替换文档。

2.3.6.1使用update修改多个文档

要修改多个文档时，要把multi-true设置上。

db.inventory.update(

{ type : "book" },

{ $inc : { qty : -1 } },

{ multi: true }

)

2.3.6.2使用save修改文档

Save可以替换已经存在的文档

db.inventory.save(

{

_id: 10,

type: "misc",

item: "placard"

}

)

2.3.7删除文档

删除文档一般使用remove方法

2.3.7.1删除所有文档

直接写不带参数的remove就会把collection中的文档全部删除。

db.inventory.remove()

2.3.7.2 带条件删除文档

db.inventory.remove( { type : "food" } )

2.3.7.3 带条件删除一个文档

db.inventory.remove( { type : "food" }, 1 )

2.3.8 执行二阶段提交

当处理多文档的更新和事务，可以使用二阶段提交的方式来写多个文档

2.3.8.1背景

单文档操作是原子的，多文档没有，所以多文档的操作不能有原子性保障，当执行事务时就可能发生以下问题：

1.原子性：如果一个操作失败，事务必须回滚到之前的状态

2.隔离性：同步发生的事务，在事务过程中必须看到一致性的数据

3.一致性：如果发生数据库错误，中断了事务，数据库必须能够恢复到一致的状态

多文档的写可以使用二阶段提交

2.3.8.2模式

概述

假设要做转账操作，我们有一个accounts collection和一个transactions collection用来保存用户数据和事务数据。

db.accounts.save({name: "A", balance: 1000, pendingTransactions: []})

db.accounts.save({name: "B", balance: 1000, pendingTransactions: []})

事务描述

设置事务初始化状态：在创建的 transactions中插入一条数据并且状态为initial。

db.transactions.save({source: "A", destination: "B", value: 100, state: "initial"})

然后把事务状态设置为pending：在要处理事务之前把事务状态设置为pending表示处理这个事务。db.transactions.update({_id: t._id}, {$set: {state: "pending"}})

应用事务到2个账号上：

db.accounts.update({name: t.source, pendingTransactions: {$ne: t._id}}, {$inc: {balance: -t.value}, $push: {pendingTransactions: t._id}})

db.accounts.update({name: t.destination, pendingTransactions: {$ne: t._id}}, {$inc: {balance: t.value}, $push: {pendingTransactions: t._id}})

更新account的pendingTransaction中没有t._id的事务，就是t._id不是已经在处理事务，然后设置值，并把设置上pendingTransaction。

设置事务提交状态：db.transactions.update({_id: t._id}, {$set: {state: "committed"}})

删除pending事务：

db.accounts.update({name: t.source}, {$pull: {pendingTransactions: t._id}})

db.accounts.update({name: t.destination}, {$pull: {pendingTransactions: t._id}})

设置事务完成：

db.transactions.update({_id: t._id}, {$set: {state: "done"}})

从错误场景中恢复

可能会出现错误的场景：

1.在初始化事务，应用事务到2个账号上之间出错，为了恢复应用程序应该获取pending状态的事务，然后继续处理。

2.发生在应用事务，事务完成之间的错误，为了恢复应用程序应该获取done状态的事务，然后继续处理。

回滚：某些场景就需要回滚操作

1.当应用事务之后，已经提交了事务，就不应该去回滚事务，而是重新创建一个新的事务，来交换数据

2.在创建事务后，但是没有应用事务，可以使用一下步骤：

设置事务状态为取消：db.transactions.update({_id: t._id}, {$set: {state: "canceling"}})

Undo事务：

db.accounts.update({name: t.source, pendingTransactions: t._id}, {$inc: {balance: t.value}, $pull: {pendingTransactions: t._id}})

db.accounts.update({name: t.destination, pendingTransactions: t._id}, {$inc: {balance: -t.value}, $pull: {pendingTransactions: t._id}})

把事务状态修改为已取消：db.transactions.update({_id: t._id}, {$set: {state: "canceled"}})

多应用程序：多应用程序的时候很容易造成一致性问题和冲突。在这种情况下，在transaction中加入application字段，来区别应用程序。并且使用findAndModify()

t = db.transactions.findAndModify({query: {state: "initial", application: {$exists: 0}},

update: {$set: {state: "pending", application: "A1"}},

new: true})

2.3.8.3在生产环境使用二阶段提交

在例子中，我们假设了一些东西比如：

1.总是可以回滚一个用户

2.账号的剩余可以为负数

但是在生产环境下需要考虑：

1.在把事务设置为pending的时候，需要查看账号是否有足够的资金。

2.当事务设置提交时，需要修改借贷方

当然这些操作时在一个文档里面的，是原子的

也需要考虑：

1.数据库接口的写注意(wirte concern)

2.mongod的journaling是否开启确保数据库非干净关闭后数据库状态的恢复。

2.3.9 创建tailable cursor

2.3.9.1概述

默认游标使用完之后就会被关闭，但是Tailable Cursor不会，当文档有插入，Tailable Cursor也可以取到。对于高写入的capped collection上使用tailable cursor太昂贵。

Tailable cursor有一下特点：

1.游标不会使用索引，以自然顺序返回

2.tailable cursor在初始化阶段比较昂贵，新增的文档代价并不是很大。

3.某些情况下tailable curos会不可用，没有返回的文档，返回了collection的末尾，然后被应用程序删掉了。

2.3.9.2 C++例子

看手册p75

2.3.10隔离操作顺序

看手册p76

2.3.11创建自增字段

本节介绍2个创建自增的方法，计数collection，乐观循环（optimistic loop）

2.3.11.1计数Collection

使用一个独立的计数Collection来跟踪最新的顺序，_id表示顺序的名，seq表示最新的顺序。

1.插入一个userid的初始化值到计数collection中

db.counters.insert(

{

_id: "userid",

seq: 0

}

)

2.创建一个getNextSequence函数来获取一个名字的下一个顺序值。

function getNextSequence(name) {

var ret = db.counters.findAndModify(

{

query: { _id: name },

update: { $inc: { seq: 1 } },

new: true

}

);

return ret.seq;

}

3.在插入时使用getNextSequence函数

db.users.insert(

{

_id: getNextSequence("userid"),

name: "Sarah C."

}

)

2.3.11.2 乐观循环

读者觉得很奇葩的方法，手册 p80。

2.3.12 更新数组中限制更新行数

2.3.12.1 方式

有students collection有一个文档

{

_id: 1,

scores: [

{ attempt: 1, score: 10 },

{ attempt: 2 , score:8 }

]

}

然后再$push里面使用$each和$sort来实现

db.students.update(

{ _id: 1 },

{ $push: { scores: { $each : [

{ attempt: 3, score: 7 },

{ attempt: 4, score: 4 }

$sort: { score: 1 },

$slice: -3

}

)

输出结果

{

"_id" : 1,

"scores" : [

{ "attempt" : 3, "score" : 7 },

{ "attempt" : 2, "score" : 8 },

{ "attempt" : 1, "score" : 10 }

]

}

2.4 MongoDB CRUD 指南

2.4.1 查询游标方法

Cursor.count：返回文档的个数

Cursor.explain：显示查询的执行计划

Cursor.hint：强制mongo使用指定的索引

Cursor.limit：显示游标返回文档个数

Cursor.next：获取游标中下一个文档

Cursor.skip：跳过给定数量的文档

Cursor.sort：对指定字段排序

Cursor.toArray：游标返回成数组

2.4.2 查询和数据操作

Db.collection.count：返回collection文档个数

Db.collection.distinct：以数组方式返回指定字段的不同值

Db.collection.find：在collection执行find返回游标

Db.collection.findOne：返回一个文档

Db.collection.insert：在collection上创建文档

Db.collection.remove：删除collection上的文档

Db.collection.save：可以insert，也可以替换已经存在的文档

Db.collection.update：修改已经存在的文档

2.4.3 MongoDB CRUD指南文档

主要介绍，写注意（write concern），sql 到 mongodb的对照表，mongodb的驱动和客户端lib。

2.4.3.1 写注意(write concern)

概述

Write concern，mongodb为写入提供的保障，但是是通过消耗性能来保证write的安全性。可以对数据的重要性不同分级。

可以用的write concern

提供write concern，写入操作之后，驱动使用getLastError来获取最后才做的信息。返回一个err字段，：

1.null表示写入成功

2.非null就表示具体的错误

GetLastErroe的参数：

J或者journal选项：指定这个选项后，mongodb会写入日志到磁盘的journal上确保mongodb突然关闭之后数据不会丢失。

如下：db.runCommand( { getLastError: 1, j: "true" } )

如果在mongod中并没有启用journal，然后getLastError指定了 j:true会返回一个jnote字段包含了这个文档。

W选项：这个选项可以停用write concern，也可以指定复制集的write concern。可选值：

-1：关闭write operation通知

0：关闭基本的写入操作通知，但是返回socket异常和网络异常

1：提供通知，说明已经写入到了单个实例，或者复制集的primary

>1：说明要写入到>1个实例中。一般用户复制集，如果这个值大于复制集成员，mongodb会一致等下去。

Majority：确认写入操作已经传播到大多数的已配置复制集

Tag设置：使用tag设置可以很好的控制复制集成员很好的控制的不同write concern。

getLastError还提供了一个超时，如果给0会一直等待。

2.4.3.2 sql 到 mongodb的对照表

手册p85

2.4.3.3 mongodb驱动和客户端lib

手册p95