/ /

/ /

$bucket (집계 단계)

정의

$bucket

지정된 표현식과 버킷 경계를 기반으로 수신 문서를 버킷이라는 그룹으로 분류하고 각 버킷당 문서를 출력합니다. 각 출력 문서에는 _id 필드가 포함되며 이 필드의 값은 버킷의 포함 하한을 지정합니다. 출력 옵션은 각 출력 문서에 포함된 필드를 지정합니다.

$bucket 은 입력 문서가 하나 이상 포함된 버킷에 대한 출력 문서만 생성합니다.

고려 사항

`$bucket` 및 메모리 제한

$bucket 단계의 RAM 제한은 100 메가바이트입니다. 기본값 단계가 이 제한을 초과하면 $bucket 에서 오류를 반환합니다. 단계 처리 를 위한 더 많은 공간을 확보하려면 allowDiskUse 옵션을 활성화 집계 파이프라인 단계 에서 임시 파일에 데이터를 쓰기 (write) 수 있도록 설정합니다.

팁

집계 파이프라인 제한

구문

{
  $bucket: {
      groupBy: <expression>,
      boundaries: [ <lowerbound1>, <lowerbound2>, ... ],
      default: <literal>,
      output: {
         <output1>: { <$accumulator expression> },
         ...
         <outputN>: { <$accumulator expression> }
      }
   }
}

$bucket 문서에는 다음 필드가 포함되어 있습니다.

필드

유형

설명

그룹화 기준

표현식

기준별로 문서를 그룹화하는 표현식입니다. 필드 경로를 지정하려면 필드 이름 앞에 $ 달러 기호를 붙이고 따옴표로 묶습니다.

에 기본값 사양이 $bucket 포함되어 있지 않은 경우, 각 입력 문서 필드 groupBy 경로 또는 표현식 경계에 지정된 범위 중 하나에 속하는 값으로 해석해야 합니다.

경계

배열

각 버킷의 경계를 지정하는 groupBy 표현식 기반으로 하는 값의 배열 . 인접한 각 값 쌍은 버킷의 하한 경계(하한값 포함)와 상한 경계(상한값 제외) 역할을 합니다. 경계를 두 개 이상 지정해야 합니다.

지정된 값은 오름차순이어야 하며 모두 동일한 유형이어야 합니다. 단, 값이 다음과 같은 숫자 혼합 형식인 경우는 예외입니다.

[ 10, Long(20), Int32(30) ]

예를 예시 [ 0, 5, 10 ] 배열 은 두 개의 버킷을 만듭니다.

[0, 5)에서 0이 하한값(포함)이며 5가 상한값(제외)입니다.
[5, 10)에서 5가 하한값(포함)이며 10이 상한값(제외)입니다.

기본

literal

선택 사항. groupBy 표현식 _id 결과가 경계에 따라 지정된 버킷에 속하지 않는 모든 문서가 포함된 추가 버킷의 를 지정하는 리터럴입니다.

지정되지 않은 경우 각 입력 문서는 groupBy 표현식을 boundaries에 따라 지정된 버킷 범위 중 하나의 값으로 해석해야 하며, 그렇지 않으면 작업에 오류가 발생합니다.

default 값은 가장 낮은 boundaries 값보다 작거나 가장 높은 boundaries 값보다 크거나 같아야 합니다.

default 값은 boundaries의 항목과 다른 유형일 수 있습니다.

출력

문서

선택 사항. _id 필드 외에 출력 문서에 포함할 필드를 지정하는 문서입니다. 포함할 필드를 지정하려면 축적자 표현식을 사용해야 합니다.

<outputfield1>: { <accumulator>: <expression1> },
...
<outputfieldN>: { <accumulator>: <expressionN> }

output 문서를 지정하지 않으면 이 작업은 각 버킷의 문서 수를 포함하는 count 필드를 반환합니다.

output 문서를 지정하면 문서에 지정된 필드만 반환됩니다. 즉, count 필드는 output 문서에 명시적으로 포함되지 않는 한 반환되지 않습니다.

행동

$bucket 은 다음 조건 중 하나 이상을 충족해야 합니다. 그렇지 않으면 작업에 오류가 발생합니다.

각 입력 문서가 그룹화 기준 표현식을 경계에 따라 지정된 버킷 범위 중 하나의 값으로 해석합니다.
기본값은 groupBy 값이 boundaries 외부에 있거나 boundaries의 값과 다른 BSON 유형인 버킷 문서에 지정됩니다.

groupBy 표현식이 배열이나 문서로 해석되면 $bucket은 $sort의 비교 논리를 사용하여 입력 문서를 버킷으로 정렬합니다.

예시

연도별 버킷 및 버킷 결과별 필터링

mongosh에서 다음 문서를 사용하여 artists라는 이름의 샘플 컬렉션을 만듭니다.

db.artists.insertMany([
  { "_id" : 1, "last_name" : "Bernard", "first_name" : "Emil", "year_born" : 1868, "year_died" : 1941, "nationality" : "France" },
  { "_id" : 2, "last_name" : "Rippl-Ronai", "first_name" : "Joszef", "year_born" : 1861, "year_died" : 1927, "nationality" : "Hungary" },
  { "_id" : 3, "last_name" : "Ostroumova", "first_name" : "Anna", "year_born" : 1871, "year_died" : 1955, "nationality" : "Russia" },
  { "_id" : 4, "last_name" : "Van Gogh", "first_name" : "Vincent", "year_born" : 1853, "year_died" : 1890, "nationality" : "Holland" },
  { "_id" : 5, "last_name" : "Maurer", "first_name" : "Alfred", "year_born" : 1868, "year_died" : 1932, "nationality" : "USA" },
  { "_id" : 6, "last_name" : "Munch", "first_name" : "Edvard", "year_born" : 1863, "year_died" : 1944, "nationality" : "Norway" },
  { "_id" : 7, "last_name" : "Redon", "first_name" : "Odilon", "year_born" : 1840, "year_died" : 1916, "nationality" : "France" },
  { "_id" : 8, "last_name" : "Diriks", "first_name" : "Edvard", "year_born" : 1855, "year_died" : 1930, "nationality" : "Norway" }
])

다음 작업은 year_born 필드에 따라 문서를 버킷으로 그룹화하고 버킷에 있는 문서 수를 기준으로 필터링합니다.

 db.artists.aggregate( [
 // First Stage
 {
   $bucket: {
     groupBy: "$year_born",                        // Field to group by
     boundaries: [ 1840, 1850, 1860, 1870, 1880 ], // Boundaries for the buckets
     default: "Other",                             // Bucket ID for documents which do not fall into a bucket
     output: {                                     // Output for each bucket
       "count": { $sum: 1 },
       "artists" :
         {
           $push: {
             "name": { $concat: [ "$first_name", " ", "$last_name"] },
             "year_born": "$year_born"
           }
         }
     }
   }
 },
 // Second Stage
 {
   $match: { count: {$gt: 3} }
 }
] )

첫 번째 단계

$bucket 단계에서는 year_born 필드에 따라 문서를 버킷으로 그룹화합니다. 버킷의 경계는 다음과 같습니다.

[1840, 1850)에서 1840이 하한값(포함)이며 1850이 상한값(제외)입니다.
[1850, 1860)에서 1850이 하한값(포함)이며 1860이 상한값(제외)입니다.
[1860, 1870)에서 1860이 하한값(포함)이며 1870이 상한값(제외)입니다.
[1870, 1880)에서 1870이 하한값(포함)이며 1880이 상한값(제외)입니다.
문서에 year_born 필드가 없거나 year_born 필드가 위의 범위를 벗어난 경우, _id값 "Other"를 사용하여 기본 버킷에 배치됩니다.

이 단계에는 반환할 필드를 결정하는 출력 문서가 포함되어 있습니다.

필드	설명
`_id`	버킷의 하한값(포함)입니다.
`count`	버킷에 있는 문서 개수입니다.
`artists`	버킷에 있는 각 아티스트에 대한 정보가 포함된 문서의 배열입니다. 각 문서에 포함된 아티스트 정보: `name`의 연결 문자(즉, 아티스트 `first_name` 및 `last_name`의 `$concat`) `year_born`

이 단계에서는 아래의 문서를 다음 단계로 넘깁니다.

{ "_id" : 1840, "count" : 1, "artists" : [ { "name" : "Odilon Redon", "year_born" : 1840 } ] }
{ "_id" : 1850, "count" : 2, "artists" : [ { "name" : "Vincent Van Gogh", "year_born" : 1853 },
                                            { "name" : "Edvard Diriks", "year_born" : 1855 } ] }
{ "_id" : 1860, "count" : 4, "artists" : [ { "name" : "Emil Bernard", "year_born" : 1868 },
                                            { "name" : "Joszef Rippl-Ronai", "year_born" : 1861 },
                                            { "name" : "Alfred Maurer", "year_born" : 1868 },
                                            { "name" : "Edvard Munch", "year_born" : 1863 } ] }
{ "_id" : 1870, "count" : 1, "artists" : [ { "name" : "Anna Ostroumova", "year_born" : 1871 } ] }

두 번째 단계

$match 단계는 이전 단계의 출력을 필터링하여 3개 이상의 문서가 포함된 버킷만 반환합니다.

연산은 다음 문서를 반환합니다.

{ "_id" : 1860, "count" : 4, "artists" :
  [
    { "name" : "Emil Bernard", "year_born" : 1868 },
    { "name" : "Joszef Rippl-Ronai", "year_born" : 1861 },
    { "name" : "Alfred Maurer", "year_born" : 1868 },
    { "name" : "Edvard Munch", "year_born" : 1863 }
  ]
}

$bucket을 $facet과 함께 사용하여 여러 필드로 버킷 수행

$facet 단계를 사용하여 단일 단계에서 여러 개의 $bucket 집계를 수행할 수 있습니다.

mongosh에서 다음 문서를 사용하여 artwork라는 이름의 샘플 컬렉션을 만듭니다.

db.artwork.insertMany([
  { "_id" : 1, "title" : "The Pillars of Society", "artist" : "Grosz", "year" : 1926,
      "price" : Decimal128("199.99") },
  { "_id" : 2, "title" : "Melancholy III", "artist" : "Munch", "year" : 1902,
      "price" : Decimal128("280.00") },
  { "_id" : 3, "title" : "Dancer", "artist" : "Miro", "year" : 1925,
      "price" : Decimal128("76.04") },
  { "_id" : 4, "title" : "The Great Wave off Kanagawa", "artist" : "Hokusai",
      "price" : Decimal128("167.30") },
  { "_id" : 5, "title" : "The Persistence of Memory", "artist" : "Dali", "year" : 1931,
      "price" : Decimal128("483.00") },
  { "_id" : 6, "title" : "Composition VII", "artist" : "Kandinsky", "year" : 1913,
      "price" : Decimal128("385.00") },
  { "_id" : 7, "title" : "The Scream", "artist" : "Munch", "year" : 1893
      /* No price*/ },
  { "_id" : 8, "title" : "Blue Flower", "artist" : "O'Keefe", "year" : 1918,
      "price" : Decimal128("118.42") }
])

다음 작업에서는 $facet 단계 내에서 두 개의 $bucket 단계를 사용하여 2개의 그룹을 만듭니다. 하나는 price 기준 그룹이며 다른 하나는 year 기준 그룹입니다.

db.artwork.aggregate( [
  {
    $facet: {                               // Top-level $facet stage
      "price": [                            // Output field 1
        {
          $bucket: {
              groupBy: "$price",            // Field to group by
              boundaries: [ 0, 200, 400 ],  // Boundaries for the buckets
              default: "Other",             // Bucket ID for documents which do not fall into a bucket
              output: {                     // Output for each bucket
                "count": { $sum: 1 },
                "artwork" : { $push: { "title": "$title", "price": "$price" } },
                "averagePrice": { $avg: "$price" }
              }
          }
        }
      ],
      "year": [                                      // Output field 2
        {
          $bucket: {
            groupBy: "$year",                        // Field to group by
            boundaries: [ 1890, 1910, 1920, 1940 ],  // Boundaries for the buckets
            default: "Unknown",                      // Bucket ID for documents which do not fall into a bucket
            output: {                                // Output for each bucket
              "count": { $sum: 1 },
              "artwork": { $push: { "title": "$title", "year": "$year" } }
            }
          }
        }
      ]
    }
  }
] )

첫 번째 패싯

첫 번째 패싯은 입력 문서를 price 기준으로 그룹화합니다. 버킷의 경계는 다음과 같습니다.

[0, 200)에서 0이 하한값(포함)이며 200이 상한값(제외)입니다.
[200, 400)에서 200이 하한값(포함)이며 400이 상한값(제외)입니다.
'Other'는 가격이 없거나 위 범위를 벗어나는 문서가 포함된 default 버킷입니다.

$bucket 단계에는 반환할 필드를 결정하는 출력 문서가 포함되어 있습니다.

필드	설명
`_id`	버킷의 하한값(포함)입니다.
`count`	버킷에 있는 문서 개수입니다.
`artwork`	버킷에 있는 각 작품에 대한 정보가 포함된 문서의 배열입니다.
`averagePrice`	`$avg` 연산자를 사용하여 버킷에 있는 모든 작품의 평균 가격을 표시합니다.

두 번째 패싯

두 번째 패싯은 입력 문서를 year 기준으로 그룹화합니다. 버킷의 경계는 다음과 같습니다.

[1890, 1910)에서 1890이 하한값(포함)이며 1910이 상한값(제외)입니다.
[1910, 1920)에서 1910이 하한값(포함)이며 1920이 상한값(제외)입니다.
[1920, 1940)에서 1910이 하한값(포함)이며 1940이 상한값(제외)입니다.
'Unknown'은 연도가 없거나 위 범위를 벗어나는 문서가 포함된 default 버킷입니다.

$bucket 단계에는 반환할 필드를 결정하는 출력 문서가 포함되어 있습니다.

필드	설명
`count`	버킷에 있는 문서 개수입니다.
`artwork`	버킷에 있는 각 작품에 대한 정보가 포함된 문서의 배열입니다.

출력

연산은 다음 문서를 반환합니다.

 {
  "price" : [ // Output of first facet
    {
      "_id" : 0,
      "count" : 4,
      "artwork" : [
        { "title" : "The Pillars of Society", "price" : Decimal128("199.99") },
        { "title" : "Dancer", "price" : Decimal128("76.04") },
        { "title" : "The Great Wave off Kanagawa", "price" : Decimal128("167.30") },
        { "title" : "Blue Flower", "price" : Decimal128("118.42") }
      ],
      "averagePrice" : Decimal128("140.4375")
    },
    {
      "_id" : 200,
      "count" : 2,
      "artwork" : [
        { "title" : "Melancholy III", "price" : Decimal128("280.00") },
        { "title" : "Composition VII", "price" : Decimal128("385.00") }
      ],
      "averagePrice" : Decimal128("332.50")
    },
    {
      // Includes documents without prices and prices greater than 400
      "_id" : "Other",
      "count" : 2,
      "artwork" : [
        { "title" : "The Persistence of Memory", "price" : Decimal128("483.00") },
        { "title" : "The Scream" }
      ],
      "averagePrice" : Decimal128("483.00")
    }
  ],
  "year" : [ // Output of second facet
    {
      "_id" : 1890,
      "count" : 2,
      "artwork" : [
        { "title" : "Melancholy III", "year" : 1902 },
        { "title" : "The Scream", "year" : 1893 }
      ]
    },
    {
      "_id" : 1910,
      "count" : 2,
      "artwork" : [
        { "title" : "Composition VII", "year" : 1913 },
        { "title" : "Blue Flower", "year" : 1918 }
      ]
    },
    {
      "_id" : 1920,
      "count" : 3,
      "artwork" : [
        { "title" : "The Pillars of Society", "year" : 1926 },
        { "title" : "Dancer", "year" : 1925 },
        { "title" : "The Persistence of Memory", "year" : 1931 }
      ]
    },
    {
      // Includes documents without a year
      "_id" : "Unknown",
      "count" : 1,
      "artwork" : [
        { "title" : "The Great Wave off Kanagawa" }
      ]
    }
  ]
}

이 페이지의 C# 예제에서는 Atlas 샘플 데이터 세트의 sample_mflix 데이터베이스 사용합니다. 무료 MongoDB Atlas cluster 생성하고 샘플 데이터 세트를 로드하는 방법을 학습하려면 MongoDB .NET/ C# 드라이버 문서에서 시작하기 를 참조하세요.

다음 Movie 클래스는 sample_mflix.movies 컬렉션의 문서를 모델링합니다.

public class Movie
{
    public ObjectId Id { get; set; }
    public int Runtime { get; set; }
    
    public string Title { get; set; }
    public string Rated { get; set; }
    public List<string> Genres { get; set; }
    public string Plot { get; set; }
    
    public ImdbData Imdb { get; set; }
    public int Year { get; set; }
    public int Index { get; set; }
    
    public string[] Comments { get; set; }
   
    [BsonElement("lastupdated")]
    public DateTime LastUpdated { get; set; }
}

참고

Pascal Case를 위한 ConventionPack

이 페이지의 C# 클래스는 속성 이름에 파스칼 표기법을 사용하지만, MongoDB 컬렉션의 필드 이름은 카멜 표기법을 사용합니다. 이 차이를 해결하기 위해 애플리케이션이 시작될 때 다음 코드를 사용하여 ConventionPack을 등록할 수 있습니다.

var camelCaseConvention = new ConventionPack { new CamelCaseElementNameConvention() };
ConventionRegistry.Register("CamelCase", camelCaseConvention, type => true);

MongoDB .NET/ C# 운전자 사용하여 $bucket 집계 파이프라인 에 단계를 추가하려면 PipelineDefinition 객체 에서 Bucket() 메서드를 호출합니다.

다음 예시 수신 문서를 Runtime 필드 값(하한선은 포함하고 상한선은 제외)을 기준으로 그룹화하는 파이프라인 단계를 만듭니다.

var pipeline = new EmptyPipelineDefinition<Movie>()
    .Bucket(
        groupBy: m => m.Runtime,
        boundaries: new List<int>() { 0, 71, 91, 121, 151, 201, 999 });

$bucket 작업을 사용자 지정하려면 AggregateBucketOptions 객체 Bucket() 메서드에 전달합니다. 다음 예시 이전 예시 와 동일한 $bucket 작업을 수행하지만 Runtime 값이 999 보다 큰 모든 문서를 "Other"라는 기본값 버킷으로 그룹화합니다.

var bucketOptions = new AggregateBucketOptions<BsonValue>()
{
    DefaultBucket = (BsonValue)"Other"
};
var pipeline = new EmptyPipelineDefinition<Movie>()
    .Bucket(
        groupBy: m => m.Runtime,
        boundaries: new List<BsonValue>() { 0, 71, 91, 121, 151, 201, 999 },
        options: bucketOptions);

이 페이지의 Node.js 예제에서는 Atlas 샘플 데이터 세트의 sample_mflix 데이터베이스 사용합니다. 무료 MongoDB Atlas cluster 생성하고 샘플 데이터 세트를 로드하는 방법을 학습하려면 MongoDB Node.js 운전자 설명서에서 시작하기 를 참조하세요.

MongoDB Node.js 운전자 사용하여 집계 파이프라인 에 $bucket 단계를 추가하려면 파이프라인 객체 에서 $bucket 연산자 사용합니다.

다음 예시에서는 runtime 필드의 값을 기준으로 수신 문서를 그룹화하는 파이프라인 단계를 만듭니다. 여기에서 하한 경계 값과 상한 경계 값은 제외됩니다. 집계 단계는 runtime 값이 999 보다 큰 모든 문서를 "other"이라는 기본 버킷으로 그룹화합니다. 그리고 집계 파이프라인을 실행합니다.

const pipeline = [
  {
    $bucket: {
      groupBy: "$runtime",
      boundaries: [0, 17, 91, 121, 151, 201, 999],
      default: "other"
    }
  }
];
const cursor = collection.aggregate(pipeline);
return cursor;

자세히 알아보기

관련 파이프라인 단계에 대해 자세히 학습 $bucketAuto 가이드 참조하세요.

돌아가기

$addFields

$bucketAuto

정의

고려 사항

$bucket 및 메모리 제한

팁

구문

행동

예시

연도별 버킷 및 버킷 결과별 필터링

$bucket을 $facet과 함께 사용하여 여러 필드로 버킷 수행

참고

Pascal Case를 위한 ConventionPack

자세히 알아보기

`$bucket` 및 메모리 제한