/ /

演算子

集計パイプラインステージ

Docs Home

データベースマニュアル

参照

演算子

集計パイプラインステージ

$group（式演算子）

このバージョンのドキュメントはアーカイブされており、サポートされなくなりました。6.0 配置をアップグレードするには、 MongoDB 7.0 のアップグレード手順を参照してください。

定義

$group

$group ステージは、グループキーに従って、同じフィールドまたは式を持つ複数のドキュメントを単一のドキュメントに結合します。その結果、一意のグループキーごとに 1 つのドキュメントが生成されます。

グループキーは、多くの場合、フィールドまたはフィールドのグループです。グループキーは、式の結果にすることもできます。グループキーを設定するには、 $groupパイプラインステージの_idフィールドを使用します。の使用例については以下を参照してください。

$group ステージの出力では、 _id フィールドにそのドキュメントのグループキーが設定されます。

出力ドキュメントには、アキュムレータ式を使用して設定された追加のフィールドを含めることもできます。

注意

$groupは出力ドキュメントを順序付けしません。

互換性

次の環境でホストされる配置には $group を使用できます。

MongoDB Atlas はクラウドでの MongoDB 配置のためのフルマネージドサービスです

MongoDB Enterprise: サブスクリプションベースの自己管理型 MongoDB バージョン
MongoDB Community: ソースが利用可能で、無料で使用できる自己管理型の MongoDB のバージョン

構文

$groupステージのプロトタイプ形式は次のとおりです。

{
 $group:
   {
     _id: <expression>, // Group key
     <field1>: { <accumulator1> : <expression1> },
     ...
   }
 }

フィールド	説明
`_id`	必須。`_id`式はグループキーを指定します。 null の `_id` 値またはその他の定数値を指定すると、`$group` ステージはすべての入力ドキュメントにわたる値を集計する単一のドキュメントを返します。「 Null によるグループの例」を参照してください。
`field`	任意。アキュムレータ演算子を使用して計算されます。

_id演算子とアキュムレータ演算子は、有効な任意のexpressionを受け入れることができます。式の詳細については、「式」を参照してください。

Considerations

パフォーマンス

$group はブロッキングステージであり、パイプラインはデータを処理する前にすべての入力データが検索されるまで待機します。ブロッキングステージは、複数のステージを持つパイプラインの並列処理を減らすため、パフォーマンスを低下させる可能性があります。ブロッキングステージでは、大規模なデータセットに対して大量のメモリが使用される場合もあります。

アキュムレータ演算子

<accumulator> 演算子は、次のアキュムレータ演算子のいずれかである必要があります。

バージョン 5.0 での変更。

名前	説明
`$accumulator`	ユーザー定義のアキュムレータ関数の結果を返します。
`$addToSet`	グループごとのユニークな式値の配列を返します。配列要素の順序は未定義です。バージョン 5.0 で変更、`$setWindowFields`ステージで使用可能です。
`$avg`	数値の平均を返します。数値以外の値は無視されます。バージョン 5.0 で変更、`$setWindowFields`ステージで使用可能です。
`$bottom`	指定ソート順に従って、グループ内の最下位の要素を返します。バージョン 5.2 で追加。 `$group`および`$setWindowFields`ステージで利用可能です。
`$bottomN`	グループ内の下位 `n` フィールドの集計を、指定のソート順序に従って返します。バージョン 5.2 で追加。 `$group`および`$setWindowFields`ステージで利用可能です。
`$count`	グループにあるドキュメントの数を返します。 `$count` パイプラインステージとは異なります。バージョン 5.0 で追加され、`$group`および`$setWindowFields`ステージで利用できます。
`$first`	グループごとの最初のドキュメントの値を返します。順序は、ドキュメントがソートされた場合にのみ定義されます。 `$first`配列演算子とは異なります。バージョン 5.0 で変更、`$setWindowFields`ステージで使用可能です。
`$firstN`	グループ内の最初の `n` 個の要素の集計を返します。ドキュメントが定義どおりの順序になっている場合にのみ意味があります。`$firstN` 配列演算子とは異なります。バージョン 5.2 で追加され、`$group` 、式、 `$setWindowFields`ステージで使用できます。
`$last`	グループごとの最後のドキュメントの値を返します。順序は、ドキュメントがソートされた場合にのみ定義されます。 `$last`配列演算子とは異なります。バージョン 5.0 で変更、`$setWindowFields`ステージで使用可能です。
`$lastN`	グループ内の最後の `n` 要素の集計を返します。ドキュメントが定義どおりの順序になっている場合にのみ意味があります。`$lastN` 配列演算子とは異なります。バージョン 5.2 で追加され、`$group` 、式、 `$setWindowFields`ステージで使用できます。
`$max`	グループごとの最大の式の値を返します。バージョン 5.0 で変更、`$setWindowFields`ステージで使用可能です。
`$maxN`	グループ内の最大値を持つ `n` 要素の集計を返します。`$maxN` 配列演算子とは異なります。バージョン 5.2 で追加。 `$group` 、 `$setWindowFields` 、および式として使用できます。
`$mergeObjects`	各グループの入力ドキュメントを組み合わせて作成したドキュメントを返します。
`$min`	グループごとの最小の式値を返します。バージョン 5.0 で変更、`$setWindowFields`ステージで使用可能です。
`$minN`	グループ内の `n` 個の最小値要素の集合を返します。`$minN`配列演算子とは異なります。バージョン 5.2 で追加。 `$group` 、 `$setWindowFields` 、および式として使用できます。
`$push`	グループごとのドキュメントの式値の配列を返します。バージョン 5.0 で変更、`$setWindowFields`ステージで使用可能です。
`$stdDevPop`	入力値の母集団標準偏差を返します。バージョン 5.0 で変更、`$setWindowFields`ステージで使用可能です。
`$stdDevSamp`	入力値のサンプル標準偏差を返します。バージョン 5.0 で変更、`$setWindowFields`ステージで使用可能です。
`$sum`	数値の合計を返します。数値以外の値は無視されます。バージョン 5.0 で変更、`$setWindowFields`ステージで使用可能です。
`$top`	指定ソート順に従って、グループ内の最上位の要素を返します。バージョン 5.2 で追加。 `$group`および`$setWindowFields`ステージで利用可能です。
`$topN`	グループ内の上位 `n` フィールドの集計を、指定のソート順序に従って返します。バージョン 5.2 で追加。 `$group`および`$setWindowFields`ステージで利用可能です。

`$group` およびメモリ制限

$groupステージが100メガバイトの RAM を超える場合、MongoDB は一時ファイルにデータを書込みます。ただし、 allowDiskUseオプションがfalseに設定されている場合、 $groupはエラーを返します。詳細については、「集計パイプラインの制限」を参照してください。

`$group` パフォーマンスの最適化

このセクションでは、 $groupのパフォーマンスを向上させるための最適化について説明します。手動で行うことができる最適化と、MongoDB が内部で行う最適化があります。

各グループの最初のドキュメントを返すための最適化

パイプラインsortsとgroupsが同じフィールドで実行され、かつ$groupステージで$firstアキュムレータ演算子のみが使用される場合は、並べ替え順序に一致するグループ化されたフィールドにインデックスを追加することを検討してください。場合によっては、 $groupステージでインデックスを使用して各グループの最初のドキュメントをすばやく見つけることができます。

例

foo という名前のコレクションにインデックス { x: 1, y: 1 } が含まれている場合、次のパイプラインはそのインデックスを使用して各グループの最初のドキュメントを検索できます。

db.foo.aggregate([
  {
    $sort:{ x : 1, y : 1 }
  },
  {
    $group: {
      _id: { x : "$x" },
      y: { $first : "$y" }
    }
  }
])

スロットベースのクエリ実行エンジン

注意

バージョン 6.0.18 以降、スロットベースの実行クエリエンジンは、6.0 のパッチバージョンではデフォルトで有効ではなくなりました。スロットベースの実行クエリエンジンを使用するクエリを使用する場合は、バージョン 8.0 にアップグレードしてください。デフォルトで有効になっている。

バージョン5.2以降、 MongoDB は、次のいずれかの場合にスロットベースの実行クエリエンジンを使用して$groupステージを実行します。

$group はパイプラインの第一ステージです。
パイプラインの先行ステージもすべて、スロットベースのエンジンで実行できます。

詳細については、「$group 最適化」を参照してください。

例

コレクション内のドキュメント数のカウント

mongoshでは、次のドキュメントを含むsalesという名前のサンプルコレクションが作成されます。

db.sales.insertMany([
  { "_id" : 1, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("2"), "date" : ISODate("2014-03-01T08:00:00Z") },
  { "_id" : 2, "item" : "jkl", "price" : Decimal128("20"), "quantity" : Int32("1"), "date" : ISODate("2014-03-01T09:00:00Z") },
  { "_id" : 3, "item" : "xyz", "price" : Decimal128("5"), "quantity" : Int32( "10"), "date" : ISODate("2014-03-15T09:00:00Z") },
  { "_id" : 4, "item" : "xyz", "price" : Decimal128("5"), "quantity" :  Int32("20") , "date" : ISODate("2014-04-04T11:21:39.736Z") },
  { "_id" : 5, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("10") , "date" : ISODate("2014-04-04T21:23:13.331Z") },
  { "_id" : 6, "item" : "def", "price" : Decimal128("7.5"), "quantity": Int32("5" ) , "date" : ISODate("2015-06-04T05:08:13Z") },
  { "_id" : 7, "item" : "def", "price" : Decimal128("7.5"), "quantity": Int32("10") , "date" : ISODate("2015-09-10T08:43:00Z") },
  { "_id" : 8, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("5" ) , "date" : ISODate("2016-02-06T20:20:13Z") },
])

次の集計操作では、 $groupステージを使用してsalesコレクション内のドキュメントの数をカウントします。

db.sales.aggregate( [
  {
    $group: {
       _id: null,
       count: { $count: { } }
    }
  }
] )

この操作では、次の結果を返します。

{ "_id" : null, "count" : 8 }

この集計操作は、次の SQL ステートメントと同等です。

SELECT COUNT(*) AS count FROM sales

Tip

Retrieve Distinct Values

次の集計操作では、 $groupステージを使用して、 salesコレクションから個別のアイテム値を取得します。

db.sales.aggregate( [ { $group : { _id : "$item" } } ] )

この操作では、次の結果を返します。

{ "_id" : "abc" }
{ "_id" : "jkl" }
{ "_id" : "def" }
{ "_id" : "xyz" }

注意

$groupを使用してシャーディングされたコレクション内の個別の値を検索する場合、操作の結果がになると、結果にはDISTINCT_SCAN 孤立したドキュメントが含まれる可能性があります。

影響を受けるのはセカンダリが正しいパイプラインのみで、実質的にコマンドの論理的な同等性があります。パイプラインのdistinct $groupまたは先頭あたりにステージがあり、の前には$group $sortステージはありません。。

例、次の形式の $group 操作の場合、DISTINCT_SCAN が返されます。

{ $group : { _id : "$<field>" } }

個別の値を取得するための動作の詳細については、個別のコマンドの動作を参照してください。

操作の結果がDISTINCT_SCAN になるかどうかを確認するには、操作の explain 結果を確認します。

Having を使用したアイテムのグループ化

次の集計操作では、item フィールドでドキュメントをグループ化し、アイテムごとの合計売上額を計算し、合計売上額が 100 以上のアイテムのみを返します。

db.sales.aggregate(
  [
    // First Stage
    {
      $group :
        {
          _id : "$item",
          totalSaleAmount: { $sum: { $multiply: [ "$price", "$quantity" ] } }
        }
     },
     // Second Stage
     {
       $match: { "totalSaleAmount": { $gte: 100 } }
     }
   ]
 )

第 1 ステージ：: $groupステージでは、ドキュメントをitemでグループ化し、個別のアイテム値を取得します。このステージでは、各アイテムのtotalSaleAmountが返されます。
第 2 ステージ：: $match ステージでは、結果のドキュメントをフィルタリングして、totalSaleAmount が 100 以上のアイテムのみを返します。

この操作では、次の結果を返します。

{ "_id" : "abc", "totalSaleAmount" : Decimal128("170") }
{ "_id" : "xyz", "totalSaleAmount" : Decimal128("150") }
{ "_id" : "def", "totalSaleAmount" : Decimal128("112.5") }

この集計操作は、次の SQL ステートメントと同等です。

SELECT item,
   Sum(( price * quantity )) AS totalSaleAmount
FROM   sales
GROUP  BY item
HAVING totalSaleAmount >= 100

Tip

$match

件数、合計、および平均の計算

mongoshでは、次のドキュメントを含むsalesという名前のサンプルコレクションが作成されます。

db.sales.insertMany([
  { "_id" : 1, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("2"), "date" : ISODate("2014-03-01T08:00:00Z") },
  { "_id" : 2, "item" : "jkl", "price" : Decimal128("20"), "quantity" : Int32("1"), "date" : ISODate("2014-03-01T09:00:00Z") },
  { "_id" : 3, "item" : "xyz", "price" : Decimal128("5"), "quantity" : Int32( "10"), "date" : ISODate("2014-03-15T09:00:00Z") },
  { "_id" : 4, "item" : "xyz", "price" : Decimal128("5"), "quantity" :  Int32("20") , "date" : ISODate("2014-04-04T11:21:39.736Z") },
  { "_id" : 5, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("10") , "date" : ISODate("2014-04-04T21:23:13.331Z") },
  { "_id" : 6, "item" : "def", "price" : Decimal128("7.5"), "quantity": Int32("5" ) , "date" : ISODate("2015-06-04T05:08:13Z") },
  { "_id" : 7, "item" : "def", "price" : Decimal128("7.5"), "quantity": Int32("10") , "date" : ISODate("2015-09-10T08:43:00Z") },
  { "_id" : 8, "item" : "abc", "price" : Decimal128("10"), "quantity" : Int32("5" ) , "date" : ISODate("2016-02-06T20:20:13Z") },
])

日付別にグループ化

以下のパイプラインは、2014 年の各日の合計売上額、平均売上数量、売上件数を計算します。

db.sales.aggregate([
  // First Stage
  {
    $match : { "date": { $gte: new ISODate("2014-01-01"), $lt: new ISODate("2015-01-01") } }
  },
  // Second Stage
  {
    $group : {
       _id : { $dateToString: { format: "%Y-%m-%d", date: "$date" } },
       totalSaleAmount: { $sum: { $multiply: [ "$price", "$quantity" ] } },
       averageQuantity: { $avg: "$quantity" },
       count: { $sum: 1 }
    }
  },
  // Third Stage
  {
    $sort : { totalSaleAmount: -1 }
  }
 ])

第 1 ステージ：: $match ステージでは、ドキュメントをフィルタリングして、2014 年のドキュメントのみを次のステージに渡します。
第 2 ステージ：: $group ステージでは、ドキュメントを日付別にグループ化し、各グループの合計販売額、平均数量、およびドキュメントの合計数を計算します。
第 3 ステージ：: $sort ステージでは、各グループの合計売上額の降順で結果をソートします。

この操作は次の結果を返します。

{
   "_id" : "2014-04-04",
   "totalSaleAmount" : Decimal128("200"),
   "averageQuantity" : 15, "count" : 2
}
{
   "_id" : "2014-03-15",
   "totalSaleAmount" : Decimal128("50"),
   "averageQuantity" : 10, "count" : 1
}
{
   "_id" : "2014-03-01",
   "totalSaleAmount" : Decimal128("40"),
   "averageQuantity" : 1.5, "count" : 2
}

この集計操作は、次の SQL ステートメントと同等です。

SELECT date,
       Sum(( price * quantity )) AS totalSaleAmount,
       Avg(quantity)             AS averageQuantity,
       Count(*)                  AS Count
FROM   sales
WHERE  date >= '01/01/2014' AND date < '01/01/2015'
GROUP  BY date
ORDER  BY totalSaleAmount DESC

Tip

$match
$sort
db.collection.countDocuments()$group{$sum 集計ステージを式でラップする

グループ化 `null`

次の集計操作では、null のグループ _id を指定して、コレクション内のすべてのドキュメントの合計売上額、平均数量、および件数を計算します。

db.sales.aggregate([
  {
    $group : {
       _id : null,
       totalSaleAmount: { $sum: { $multiply: [ "$price", "$quantity" ] } },
       averageQuantity: { $avg: "$quantity" },
       count: { $sum: 1 }
    }
  }
 ])

この操作では、次の結果を返します。

{
  "_id" : null,
  "totalSaleAmount" : Decimal128("452.5"),
  "averageQuantity" : 7.875,
  "count" : 8
}

この集計操作は、次の SQL ステートメントと同等です。

SELECT Sum(price * quantity) AS totalSaleAmount,
       Avg(quantity)         AS averageQuantity,
       Count(*)              AS Count
FROM   sales

Tip

$count
db.collection.countDocuments()$group{$sum 集計ステージを式でラップする

Pivot Data

mongoshでは、次のドキュメントを含むbooksという名前のサンプルコレクションが作成されます。

db.books.insertMany([
  { "_id" : 8751, "title" : "The Banquet", "author" : "Dante", "copies" : 2 },
  { "_id" : 8752, "title" : "Divine Comedy", "author" : "Dante", "copies" : 1 },
  { "_id" : 8645, "title" : "Eclogues", "author" : "Dante", "copies" : 2 },
  { "_id" : 7000, "title" : "The Odyssey", "author" : "Homer", "copies" : 10 },
  { "_id" : 7020, "title" : "Iliad", "author" : "Homer", "copies" : 10 }
])

`title` を `author` でグループ化

次の集計操作では、books コレクションのデータをピボットして、タイトルを著者ごとにグループ化します。

db.books.aggregate([
   { $group : { _id : "$author", books: { $push: "$title" } } }
 ])

この操作により、次のドキュメントが返されます。

{ "_id" : "Homer", "books" : [ "The Odyssey", "Iliad" ] }
{ "_id" : "Dante", "books" : [ "The Banquet", "Divine Comedy", "Eclogues" ] }

ドキュメントのグループ化 `author`

次の集計操作はドキュメントを author ごとにグループ化します。

db.books.aggregate([
   // First Stage
   {
     $group : { _id : "$author", books: { $push: "$$ROOT" } }
   },
   // Second Stage
   {
     $addFields:
       {
         totalCopies : { $sum: "$books.copies" }
       }
   }
 ])

第 1 ステージ：

$groupは$$ROOTシステム変数を使用して、ドキュメント全体を著者ごとにグループ化します。このステージでは、次のドキュメントを次のステージに渡します。

{ "_id" : "Homer",
  "books" :
    [
       { "_id" : 7000, "title" : "The Odyssey", "author" : "Homer", "copies" : 10 },
       { "_id" : 7020, "title" : "Iliad", "author" : "Homer", "copies" : 10 }
    ]
 },
 { "_id" : "Dante",
   "books" :
     [
       { "_id" : 8751, "title" : "The Banquet", "author" : "Dante", "copies" : 2 },
       { "_id" : 8752, "title" : "Divine Comedy", "author" : "Dante", "copies" : 1 },
       { "_id" : 8645, "title" : "Eclogues", "author" : "Dante", "copies" : 2 }
     ]
 }

第 2 ステージ：

$addFields 出力に各著者の書籍の合計部数を含むフィールドを追加します。

注意

結果のドキュメントは、BSON ドキュメントサイズの上限である 16 メビバイトを超えてはなりません。

この操作により、次のドキュメントが返されます。

{
  "_id" : "Homer",
  "books" :
     [
       { "_id" : 7000, "title" : "The Odyssey", "author" : "Homer", "copies" : 10 },
       { "_id" : 7020, "title" : "Iliad", "author" : "Homer", "copies" : 10 }
     ],
   "totalCopies" : 20
}
{
  "_id" : "Dante",
  "books" :
     [
       { "_id" : 8751, "title" : "The Banquet", "author" : "Dante", "copies" : 2 },
       { "_id" : 8752, "title" : "Divine Comedy", "author" : "Dante", "copies" : 1 },
       { "_id" : 8645, "title" : "Eclogues", "author" : "Dante", "copies" : 2 }
     ],
   "totalCopies" : 5
}

このページのC#の例では、Atlasサンプルデータセットの sample_mflixデータベースを使用します。MongoDB Atlasクラスターを無料で作成して、サンプルデータセットをロードする方法については、 MongoDB .NET/ C#ドライバーのドキュメントの「開始」を参照してください。

次の Movie クラスは、sample_mflix.movies コレクション内のドキュメントをモデル化します。

public class Movie
{
    public ObjectId Id { get; set; }
    public int Runtime { get; set; }
    
    public string Title { get; set; }
    public string Rated { get; set; }
    public List<string> Genres { get; set; }
    public string Plot { get; set; }
    
    public ImdbData Imdb { get; set; }
    public int Year { get; set; }
    public int Index { get; set; }
    
    public string[] Comments { get; set; }
   
    [BsonElement("lastupdated")]
    public DateTime LastUpdated { get; set; }
}

注意

パスカルケースの ConventionPack

このページのC# クラスはプロパティ名にパスカルケースを使用していますが、MongoDB コレクションのフィールド名はキャメルケースを使用しています。この違いを考慮するために、アプリケーションが起動する際に次のコードを使用してConventionPackを登録してください。

var camelCaseConvention = new ConventionPack { new CamelCaseElementNameConvention() };
ConventionRegistry.Register("CamelCase", camelCaseConvention, type => true);

MongoDB .NET/ C#ドライバーを使用して$group ステージを集計パイプラインに追加するには、 PipelineDefinitionオブジェクトで Group() メソッドを呼び出します。

次の例では、ドキュメントを Ratedフィールドの値でグループ化するパイプラインステージを作成しています。各グループの評価は、各出力ドキュメントの Rating という名前のフィールドに表示されます。各出力ドキュメントには、TotalRuntime という名前のフィールドも含まれています。この値はグループ内のすべての映画の合計ランタイムです。

var pipeline = new EmptyPipelineDefinition<Movie>()
    .Group(
        id: m => m.Rated,
        group: g => new
        {
            Rating = g.Key,
            TotalRuntime = g.Sum(m => m.Runtime)
        }
    );

このページのNode.js の例では、Atlasサンプルデータセットの sample_mflixデータベースを使用します。無料のMongoDB Atlas cluster を作成し、サンプルデータセットをロードする方法については、 MongoDB Node.jsドライバーのドキュメントの開始を参照してください。

MongoDB Node.jsドライバーを使用して $group ステージを集計パイプラインに追加するには、パイプラインオブジェクトで $group 演算子を使用します。

次の例では、ドキュメントを ratedフィールドの値でグループ化するパイプラインステージを作成しています。各出力ドキュメントには、各グループの評価を保存する ratingフィールドが含まれています。各出力ドキュメントには、グループ内のすべての映画の合計ランタイムが保存される totalRuntime という名前のフィールドも含まれています。次に、この例では集計パイプラインを実行します。

const pipeline = [
  {
    $group: {
      _id: "$rated",
      rating: { $first: "$rated" },
      totalRuntime: { $sum: "$runtime" }
    }
  }
];
const cursor = collection.aggregate(pipeline);
return cursor;

詳細

「グループと合計データ」のチュートリアルでは、一般的なユースケースにおける $group 演算子の幅広い例を紹介します。

関連するパイプラインステージの詳細については、$addFieldsガイドを参照してください。

戻る

$graphLookup

$indexStats

定義

注意

互換性

構文

Considerations

パフォーマンス

アキュムレータ演算子

$group およびメモリ制限

$group パフォーマンスの最適化

各グループの最初のドキュメントを返すための最適化

例

スロットベースのクエリ実行エンジン

注意

例

コレクション内のドキュメント数のカウント

Tip

Retrieve Distinct Values

注意

Having を使用したアイテムのグループ化

Tip

件数、合計、および平均の計算

日付別にグループ化

Tip

グループ化 null

Tip

Pivot Data

title を author でグループ化

ドキュメントのグループ化 author

注意

注意

パスカルケースの ConventionPack

詳細

ルール バッジを取得する

`$group` およびメモリ制限

`$group` パフォーマンスの最適化

グループ化 `null`

`title` を `author` でグループ化

ドキュメントのグループ化 `author`

ルールバッジを取得する