MongoDB中聚合工具Aggregate等的介绍与使用

Aggregate是MongoDB提供的众多工具中的比较重要的一个，类似于SQL语句中的GROUP BY。聚合工具可以让开发人员直接使用MongoDB原生的命令操作数据库中的数据，并且按照要求进行聚合。

MongoDB提供了三种执行聚合的方法：Aggregation Pipleline，map-reduce功能和 Single Purpose Aggregation Operations

其中用来做聚合操作的几个函数是

aggregate(pipeline,options) 指定 group 的 keys, 通过操作符 $push/$addToSet/$sum 等实现简单的 reduce, 不支持函数/自定义变量
group({ key, reduce, initial [, keyf] [, cond] [, finalize] }) 支持函数(keyf) mapReduce 的阉割版本
mapReduce
count(query)
distinct(field,query)

1、Aggregation Pipleline

MongoDB’s aggregation framework is modeled on the concept of data processing pipelines. Documents enter a multi-stage pipeline that transforms the documents into an aggregated result.

管道在*nix中将上一个命令输出的数据作为下一个命令的参数。MongoDB中的管道聚合非常实用，提供高效的数据聚合，并且是MongoDB中数据聚合的首选方法

官方给的图：

MongoDB中聚合工具Aggregate等的介绍与使用

[

    {$match: {status: "A"}},

    {$group: {_id: "$cust_id", total: {$sum: "$amount"}}}

]

aggreagte是一个数组，其中包含多个对象（命令），通过遍历Pipleline数组对collection中的数据进行操作。

$match：查询条件

$group：聚合的配置

_id代表你想聚合的数据的主键，上述数据中，你想聚合所有cust_id相同的条目的amount的总和，那_id即被设置为cust_id。_id为必须，你可以填写一个空值。
total代表你最后想输出的数据之一，这里total是每条结果中amount的总和。
$sum是一个聚合的操作符，另外的操作符你可以在官方文档中找到。上图中的命令表示对相同主键（_id）下的amount进行求和。如果你想要计算主键出现的次数，可以把命令写成如下的形式 {$sum: 1}

聚合的过程

看一下图例，所有的数据先经过$match命令，只留下了status为A的数据，接着，对筛选出的数据进行聚合操作，对相同cust_id的数据进行计算amount总和的操作，最后输出结果。

二、aggregate具体介绍

接受两个参数 pipeline/options, pipeline 是 array, 相同的 operator 可以多次使用

pipeline 支持的方法

$geoNear geoNear命令可以在查询结果中返回每个点距离查询点的距离
$group 指定 group 的 _id(key/keys) 和基于操作符($push/$sum/$addToSet/...) 的累加运算
$limit 限制条件
$match 输入过滤条件
$out 将输出结果保存到 collection
$project 修改数据流中的文档结构
$redact 是 $project/$match 功能的合并
$skip 跳过
$sort 对结果排序
$unwind 拆解数据

$group 允许用的累加操作符 $addToSet/$avg/$first/$last/$max/$min/$push/$sum，不被允许的累加操作符$each... ,默认最多可以用 100MB RAM, 增加allowDiskUse可以让$group操作更多的数据

下面是aggregate的用法

db.newtest.aggregate([

    {$match: {}},

    {$skip: 10}, // 跳过 collection 的前 10 行

    {$project: {group: 1, datetime: 1, category: 1, count: 1}},

    // 如果不选择 {count: 1} 最后的结果中 count_all/count_avg = 0

    {$redact: { // redact 简单用法 过滤 group != 'A' 的行

        $cond: [{$eq: ["$group", "A"]}, "$$DESCEND", "$$PRUNE"]

    }},

    {$group: {

        _id: {year: {$year: "$datetime"}, month: {$month: "$datetime"}, day: {$dayOfMonth: "$datetime"}},

        group_unique: {$addToSet: "$group"},

        category_first: {$first: "$category"},

        category_last: {$last: "$category"},

        count_all: {$sum: "$count"},

        count_avg: {$avg: "$count"},

        rows: {$sum: 1}

    }},

    // 拆分 group_unique 如果开启这个选项, 会导致 _id 重复而无法写入 out 指定的 collection, 除非再 $group 一次

    // {$unwind: "$group_unique"},

    // 只保留这两个字段

    {$project: {group_unique: 1, rows: 1}},

    // 结果按照 _id 排序

    {$sort: {"_id": 1}},

    // 只保留 50 条结果

    // {$limit: 50},

    // 结果另存

    {$out: "data_agg_out"},

], {

    explain: true,

    allowDiskUse: true,

    cursor: {batchSize: 0}

})

db.data_agg_out.find()

db.data_agg_out.aggregate([

    {$group: {

        _id: null,

        rows: {$sum: '$rows'}

    }}

])

db.data_agg_out.drop()

$match 聚合前数据筛选
$skip 跳过聚合前数据集的 n 行, 如果 {$skip: 10}, 最后 rows = 5000000 - 10
$project 之选择需要的字段, 除了 _id 之外其他的字段的值只能为 1
$redact 看了文档不明其实际使用场景, 这里只是简单筛选聚合前的数据
$group 指定各字段的累加方法
$unwind 拆分 array 字段的值, 这样会导致 _id 重复
$project 可重复使用多次最后用来过滤想要存储的字段
$out 如果 $group/$project/$redact 的 _id 没有重复就不会报错
以上方法中 $project/$redact/$group/$unwind 可以使用多次

二、group

group 比 aggregate 好的一个地方是 map/reduce 都支持用 function 定义, 下面是支持的选项

ns 如果用 db.runCommand({group: {}}) 方式调用, 需要 ns 指定 collection
cond 聚合前筛选
key 聚合的 key
initial 初始化累加结果
$reduce 接受 (curr, result) 参数, 将 curr 累加到 result
keyf 代替 key 用函数生成聚合用的主键
finalize 结果处理

需要保证输出结果小于 16MB 因为 group 没有提供转存选项

db.data.group({

    cond: {'group': 'A'},

    // key: {'group': 1, 'category': 1},

    keyf: function(doc) {

        var dt = new Date(doc.created);

        // or

        // var dt = doc.datetime;

        return {

            year: doc.datetime.getFullYear(),

            month: doc.datetime.getMonth() + 1,

            day: doc.datetime.getDate()

        }

    },

    initial: {count: 0, category: []},

    $reduce: function(curr, result) {

        result.count += curr.count;

        if (result.category.indexOf(curr.category) == -1) {

            result.category.push(curr.category);

        }

    },

    finalize: function(result) {

        result.category = result.category.join();

    }

})

如果要求聚合大量数据, 就需要用到 mapReduce

三、mapReduce

query 聚合前筛选
sort 对聚合前的数据排序用来优化 reduce
limit 限制进入 map 的数据
map(function) emit(key, value) 在函数中指定聚合的 K/V
reduce(function) 参数 (key, values) key 在 map 中定义了, values 是在这个 K 下的所有 V 数组
finalize 处理最后结果
out 结果转存可以选择另外一个 db
scope 设置全局变量
jdMode(false) 是否(默认是)把 map/reduce 中间结果转为 BSON 格式, BSON 格式可以利用磁盘空间, 这样就可以处理大规模的数据集
verbose(true) 详细信息

如果设 jsMode 为 true 不进行 BSON 转换, 可以优化 reduce 的执行速度, 但是由于内存限制最大在 emit 数量小于 500,000 时使用

写 mapReduce 时需要注意

emit 返回的 value 必须和 reduce 返回的 value 结构一致
reduce 函数必须幂等
详见 Troubleshoot the Reduce Function

db.data.mapReduce(function() {

    var d = this.datetime;

    var key = {

        year: d.getFullYear(),

        month: d.getMonth() + 1,

        day: d.getDate(),

    };

    var value = {

        count: this.count,

        rows: 1,

        groups: [this.group],

    }

    emit(key, value);

}, function(key, vals) {

    var reducedVal = {

        count: 0,

        groups: [],

        rows: 0,

    };

    for(var i = 0; i < vals.length; i++) {

        var v = vals[i];

        reducedVal.count += v.count;

        reducedVal.rows += v.rows;

        for(var j = 0; j < v.groups.length; j ++) {

            if (reducedVal.groups.indexOf(v.groups[j]) == -1) {

                reducedVal.groups.push(v.groups[j]);

            }

        }

    }

    return reducedVal;

}, {

    query: {},

    sort: {datetime: 1},    // 需要索引 否则结果返回空

    limit: 50000,

    finalize: function(key, reducedVal) {

        reducedVal.avg = reducedVal.count / reducedVal.rows;

        return reducedVal;

    },

    out: {

        inline: 1,

        // replace: "",

        // merge: "",

        // reduce: "",

    },

    scope: {},

    jsMode: true

})

测试数据：

> db.newtest.find()

{ "_id" : ObjectId("5a2544352ba57ccba824d7bf"), "group" : "E", "created" : 1402764223, "count" : 63, "datetime" : 1512391126, "title" : "aa", "category" : "C8" }

{ "_id" : ObjectId("5a2544512ba57ccba824d7c0"), "group" : "I", "created" : 1413086660, "count" : 93, "datetime" : 1512391261, "title" : "bb", "category" : "C10" }

{ "_id" : ObjectId("5a2544562ba57ccba824d7c1"), "group" : "H", "created" : 1440750343, "count" : 41, "datetime" : 1512391111, "title" : "cc", "category" : "C1" }

{ "_id" : ObjectId("5a2544562ba57ccba824d7c2"), "group" : "S", "created" : 1437710373, "count" : 14, "datetime" : 1512392136, "title" : "dd", "category" : "C10" }

{ "_id" : ObjectId("5a2544562ba57ccba824d7c3"), "group" : "Z", "created" : 1428307315, "count" : 78, "datetime" : 1512391166, "title" : "ee", "category" : "C5" }

{ "_id" : ObjectId("5a2544562ba57ccba824d7c4"), "group" : "R", "created" : 1402809274, "count" : 74, "datetime" : 1512391162, "title" : "ff", "category" : "C9" }

{ "_id" : ObjectId("5a2544562ba57ccba824d7c5"), "group" : "Y", "created" : 1400571321, "count" : 66, "datetime" : 1512139164, "title" : "gg", "category" : "C2" }

{ "_id" : ObjectId("5a2544562ba57ccba824d7c6"), "group" : "L", "created" : 1416562128, "count" : 5, "datetime" : 1512393165, "title" : "hh", "category" : "C1" }

{ "_id" : ObjectId("5a2544562ba57ccba824d7c7"), "group" : "E", "created" : 1414057884, "count" : 12, "datetime" : 1512391165, "title" : "ii", "category" : "C3" }

{ "_id" : ObjectId("5a2544572ba57ccba824d7c8"), "group" : "L", "created" : 1418879346, "count" : 67, "datetime" : 1512391167, "title" : "gg", "category" : "C3" }

四、总结

method	allowDiskUse	out	function
aggregate	true	pipeline/collection	false
group	false	pipeline	true
mapReduce	jsMode	pipeline/collection	true

aggregate 基于累加操作的的聚合可以重复利用 $project/$group 一层一层聚合数据, 可以用于大量数据(单输出结果小于 16MB) 不可用于分片数据
mapReduce 可以处理超大数据集需要严格遵守 mapReduce 中的结构一致/幂等写法, 可增量输出/合并, 见 out options
group RDB 中的 group by 简单需求可用(只有 inline 输出) 会产生 read lock

MongoDB中聚合工具Aggregate等的介绍与使用的更多相关文章

MongoDB中的数据聚合工具Aggregate和Group
周煦辰 2016-01-16 来说说MongoDB中的数据聚合工具. Aggregate是MongoDB提供的众多工具中的比较重要的一个,类似于SQL语句中的GROUP BY.聚合工具可以让开发人员直 ...
MongoDB的聚合函数 Aggregate
Aggregate的使用,有利于我们对MongoDB中的集合进行进一步的拆分. 示例: db.collection.aggregate( {$match:{x:1}, {limit:10}, {$gr ...
MongoDB中4种日志的详细介绍
前言任何一种数据库都有各种各样的日志,MongoDB也不例外.MongoDB中有4种日志,分别是系统日志.Journal日志.oplog主从日志.慢查询日志等.这些日志记录着MongoDB数据库不同 ...
MongoDB 中聚合统计计算--&dollar;SUM表达式
我们一般通过表达式$sum来计算总和.因为MongoDB的文档有数组字段,所以可以简单的将计算总和分成两种:1,统计符合条件的所有文档的某个字段的总和:2,统计每个文档的数组字段里面的各个数据值的和. ...
【翻译】MongoDB指南/聚合——聚合管道
[原文地址]https://docs.mongodb.com/manual/ 聚合聚合操作处理数据记录并返回计算后的结果.聚合操作将多个文档分组,并能对已分组的数据执行一系列操作而返回单一结果.Mo ...
在MongoDB中执行查询、创建索引
1. MongoDB中数据查询的方法 (1)find函数的使用: (2)条件操作符: (3)distinct找出给定键所有不同的值: (4)group分组: (5)游标: (6)存储过程. 文档查找 ...
MongoDB的聚合操作以及与Python的交互
上一篇主要介绍了MongoDB的基本操作,包括创建.插入.保存.更新和查询等,链接为MongoDB基本操作. 在本文中主要介绍MongoDB的聚合以及与Python的交互. MongoDB聚合什么是 ...
MongoDB入门---聚合操作&amp&semi;管道操作符&amp&semi;索引的使用
经过前段时间的学习呢,我们对MongoDB有了一个大概的了解,接下来就要开始使用稍稍深入一点的东西了,首先呢,就是MongoDB中的聚合函数,跟mysql中的count等函数差不多.话不多说哈,我们先 ...
Mongodb的聚合和管道
MongoDB 聚合 MongoDB中聚合(aggregate)主要用于处理数据(诸如统计平均值,求和等),并返回计算后的数据结果. aggregate() 方法 MongoDB中聚合的方法使用agg ...

随机推荐

CI Weekly &num;10 | 2017 DevOps 趋势预测
2016 年的最后几个工作日,我们对 flow.ci Android & iOS 项目做了一些优化与修复: iOS 镜像 cocoapods 版本更新: fir iOS上传插件时间问题修复: ...
myeclipse中如何修改项目的名称
第一种:myeclipse通用版 1.打比方,比如复制一个现有的项目,重命名项目名称,这里举例名称重新命名为"劳黑炭" 2.要清楚的是,这里的项目名称重新命名了,但是Web项目本 ...
eclipse连hadoop2&period;x运行wordcount 转载
转载地址:http://my.oschina.net/cjun/blog/475576 一.新建java工程,并且导入hadoop相关jar包此处可以直接创建mapreduce项目就可以,不用下面折 ...
实例存储支持的AMI创建步骤
实例存储支持的AMI创建步骤一.Windows AMI 1. 选择实例存储支持的AMI创建实例. 2. 远程登录实例进行定制化配置. 3. 通过Web控制台或命令行Bundle实例(并自动上传到S3 ...
js的日期控件
jeDate使用的时候,如果不是直接放在html中而是通过Js加载进去的,那么最好来个延迟. http://www.sucaijiayuan.com/Js/DateTime/ http://www.c ...
jQ1&period;5中的事件系统（低版本的事件系统）
jQ的一个个版本事系统都在修正着bug和不断优化, 而且看了事件系统对事件的兼容更加熟悉, 更加了解jQ内部的事件机制. 因为jQ对事件系统引入了事件命名空间,事件的代理, 事件的手动触发,事件描述等 ...
Halcon 映射校正例程注释(MapImage)
*关闭窗口 dev_close_window () dev_close_window () *打开指定大小.颜色背景的窗口 dev_open_window (, , /, /, 'black', Wi ...
vivo7&period;0以上系统如何无需Root激活Xposed框架的方法
在较多公司的引流或者业务操作中,基本都需要使用安卓的黑高科技术Xposed框架,几天前我们公司购买了一批新的vivo7.0以上系统,基本都都是基于7.0以上版本,基本都不能够获取Root的su超级权限 ...
js-MediumGrade-base&period;js
// 1.JavaScript 中的类型包括 Number(数字) String(字符串) Boolean(布尔) Symbol(符号)(第六版新增) Object(对象) Function(函数) ...
03-spark kafka
1.概念 Kafka是一个开源的消息系统.由Scala编写,它具备以下特点: ①消息持久化: 为了从大数据中获取有价值的信息,任何信息的丢失都是负担不起的.使用Kafka时,message会被存储并且 ...