上篇博文讲述了排序规则collations的操作和设置方式。顺带介绍了一部分聚合aggregation的设置方式。本文继续介绍聚合操作。
聚合框架的操作处理完数据记录后在返回计算结果。集合操作将来源于多个文档的值归类到一起,这样就可疑在被归类的数据上进行多种操作,然后返回一个单独的结果
1 聚合管道
聚合管道是用于数据聚合的一个框架,是以数据处理管道概念为原型。将文档输入一个多级管道后,可疑将文档转换为聚合的结果。下面以restaurants作为数据集,通过将餐馆类归类,我们就可以使用聚合管道在集合上找到5星级餐厅的总数量。
client=Mongo::Client.new(['127.0.0.1:27017'],:database=>'test')coll=client[:restaurants]
aggregation=coll.aggregate([
{'$match'=>{'stars'=>5}},
{'$unwind'=>'$categories'},
{'$group'=>{'_id'=>'$categories','fiveStars'=>{'$num'=>1}}}
])
aggregation.each do |doc|
p doc
end
上面的程序中,在aggregate方法内部,第一个参数从所有的文档中过滤出stars字段为5的文档。第二个参数unwind表明展开categories字段域,该字段是一个数组,该参数会将数组中的条目作为分开的文档。第三个参数将文档按照categories进行归类,然后统计出五星级饭店的数目。
聚合框架会有最大使用内存限制。所以为了处理大数据集合,需要将allowDiskUse参数设置为true,从而确保可以将数据写到永久性的文件中。
aggregation=coll.aggregate([<aggregation pipeline expressions])aggregation_with_disk_use=aggregation.allow_disk_use(true)
或者你可以给aggregate方法传递参数
aggregation=coll.aggregate([<aggregation pipeline expressions>],:allow_disk_use=>true)
2. 简单目的聚合操作
MongoDB为一些聚合函数提供了支持,包含count和distinct
2.1 count
下面的实例为我们展示了如何在集合中紧缺找出categories域包含数据['Chinese','Seafood']集合的文档总数量。
client=Mongo::CLient.new(['127.0.0.1:27017'],:database=>'test')coll=client[:restaurants]aggregation =coll.count({'categories':['Chinese','Seafood']})count=coll.count({'categories'=>['Chinese','Seafood']})
2.2 distinct
distinct方法用于去除结果数据集中的重复数据,为每个记录返回一个单独的值。下面的实例是在集合restaurants上找出categories字段域的所有不重复数据。
client=Mongo::Client.new(['127.0.0.1:27017'],:database=>'test')coll=client[:restaurants]aggregation=coll.distinct('categories')aggregation.each do |doc| p doc end
关于MongoDB中聚合操作的讲解到此结束
本文出自 “techFuture” 博客,谢绝转载!