애그리게이션을 통한 데이터 변환

개요

이 가이드 에서는 스칼라 운전자 사용하여 집계 게이션 작업을 수행하는 방법을 학습 수 있습니다.

애그리게이션 작업은 MongoDB 컬렉션의 데이터를 처리하고 계산된 결과를 반환합니다. Query API의 일부인 MongoDB 애그리게이션 프레임워크는 데이터 처리 파이프라인 개념을 모델로 합니다. 문서는 하나 이상의 단계를 포함하는 파이프라인에 들어가고, 이 파이프라인은 문서를 애그리게이션된 결과로 변환합니다.

팁

애그리게이션 튜토리얼 완료

서버 매뉴얼의전체 집계 파이프라인 튜토리얼 섹션에서 일반적인 집계 작업에 대한 자세한 설명을 제공하는 튜토리얼을 찾을 수 있습니다. 튜토리얼을 선택한 다음 페이지 오른쪽 상단의 Select your language 드롭다운 메뉴에서 Scala 를 선택합니다.

비유

집계 작업은 자동차 공장과 유사합니다. 자동차 공장에는 조립 라인이 있으며, 여기에는 드릴과 용접기 등 특정 작업을 수행할 수 있는 특수 공구를 갖춘 조립 스테이션이 있습니다. 원부품이 공장에 들어오면 조립 라인에서 이를 변형하고 조립하여 완제품으로 만듭니다.

집계 파이프라인은 조립 라인이고, 집계 단계는 조립 스테이션이며, 작업 연산자는 특수 도구입니다.

집계 및 찾기 연산 비교

다음 표에는 찾기 작업으로 수행할 수 있는 다양한 작업과 집계 작업으로 수행할 수 있는 작업이 나와 있습니다. 집계 프레임워크 데이터를 변환하고 조작할 수 있는 확장된 기능을 제공합니다.

작업 찾기	집계 작업
Select certain documents to return Select which fields to return Sort the results Limit the results Count the results	Select certain documents to return Select which fields to return Sort the results Limit the results Count the results Rename fields Compute new fields Summarize data Connect and merge data sets

제한 사항

집계 작업을 수행할 때 다음 제한 사항을 고려합니다.

반환된 문서는 BSON 문서 크기 제한 인 16 메가바이트를 위반할 수 없습니다.
파이프라인 단계의 메모리 제한은 기본값 으로 100 메가바이트입니다. true 값을 allowDiskUse() 메서드에 전달하고 메서드를 aggregate()에 연결하여 이 제한을 초과할 수 있습니다.
$graphLookup 연산자 메가바이트의 엄격한 메모리 제한이 있으며 메서드에 100 전달된 값을 allowDiskUse() 무시합니다.

애그리게이션 작업 실행

참고

샘플 데이터

이 가이드 의 예제에서는 Atlas 샘플 데이터 세트 의 sample_restaurants 데이터베이스 에 있는 restaurants 컬렉션 을 사용합니다. 무료 MongoDB Atlas cluster 를 생성하고 샘플 데이터 세트를 로드하는 방법을 학습 보려면 Atlas 시작하기 가이드 를 참조하세요.

집계 수행하려면 파이프라인 단계가 포함된 목록을 aggregate() 메서드에 전달합니다. 스칼라 운전자 파이프라인 단계를 빌드하기 위한 헬퍼 메서드를 포함하는 Aggregates 클래스를 제공합니다.

파이프라인 단계와 해당 Aggregates 도우미 메서드에 대해 자세히 학습 다음 리소스를 참조하세요.

MongoDB Server 매뉴얼의애그리게이션 단계
API 문서의 애그리게이션

문서 필터링, 그룹화 및 개수

이 코드 예시 뉴욕의 각 자치구에 있는 베이커리 수의 개수를 생성합니다. 이를 위해 aggregate() 메서드를 호출하고 집계 파이프라인 단계 목록으로 전달합니다. 이 코드는 다음 Aggregates 헬퍼 메서드를 사용하여 이러한 단계를 빌드합니다.

filter(): $match 단계를 빌드하여 값이 인 문서를 필터하다 .cuisine "Bakery"
group():$ 그룹 단계를 빌드하여 일치하는 문서를 필드 borough 별로 그룹 각 고유 값에 대한 문서 수를 누적합니다.

val pipeline = Seq(Aggregates.filter(Filters.equal("cuisine", "Bakery")),
                   Aggregates.group("$borough", Accumulators.sum("count", 1))
)
collection.aggregate(pipeline)
          .subscribe((doc: Document) => println(doc.toJson()),
                    (e: Throwable) => println(s"There was an error: $e"))

{"_id": "Brooklyn", "count": 173}
{"_id": "Queens", "count": 204}
{"_id": "Bronx", "count": 71}
{"_id": "Staten Island", "count": 20}
{"_id": "Missing", "count": 2}
{"_id": "Manhattan", "count": 221}

애그리게이션 설명

MongoDB 작업을 실행하는 방법에 대한 정보를 보려면 MongoDB 쿼리 플래너에게 설명을 지시하면 됩니다. MongoDB 작업을 설명할 때 실행 계획과 성능 통계를 반환합니다. 실행 계획은 MongoDB 작업을 완료할 수 있는 잠재적인 방법입니다. MongoDB 작업을 설명하도록 지시하면 기본값 으로 MongoDB 실행한 계획과 거부된 실행 계획을 모두 반환합니다.

집계 작업을 설명하려면 explain() 메서드를 aggregate() 메서드에 연결합니다. 메서드가 반환하는 정보의 유형과 양을 수정하는 explain()에 상세도 수준을 전달할 수 있습니다. 상세도에 대한 자세한 내용은 MongoDB Server 매뉴얼의 상세도 모드를 참조하세요.

다음 예시 앞의 필터, 그룹 및 문서 계산 예시 의 집계 작업을 설명하도록 MongoDB 에 지시합니다. 이 코드는 ExplainVerbosity.EXECUTION_STATS 의 상세도 값을 explain() 메서드에 전달하며, 이 메서드는 성공적인 계획의 실행을 설명하는 통계를 반환하도록 메서드를 구성합니다.

val pipelineToExplain = Seq(Aggregates.filter(Filters.equal("cuisine", "Bakery")),
                   Aggregates.group("$borough", Accumulators.sum("count", 1))
)
collection.aggregate(pipelineToExplain)
          .explain(ExplainVerbosity.EXECUTION_STATS)
          .subscribe((doc: Document) => println(doc.toJson()),
                    (e: Throwable) => println(s"There was an error: $e"))

{"explainVersion": "2", "queryPlanner": {"namespace": "sample_restaurants.restaurants",
"indexFilterSet": false, "parsedQuery": {"cuisine": {"$eq": "Bakery"}}, "queryHash": "865F14C3",
"planCacheKey": "0FC225DA", "optimizedPipeline": true, "maxIndexedOrSolutionsReached": false,
"maxIndexedAndSolutionsReached": false, "maxScansToExplodeReached": false, "winningPlan":
{"queryPlan": {"stage": "GROUP", "planNodeId": 3, "inputStage": {"stage": "COLLSCAN",
"planNodeId": 1, "filter": {"cuisine": {"$eq": "Bakery"}}, "direction": "forward"}},
...}

MongoDB Search로 전체 텍스트 검색하다 실행

팁

MongoDB 검색 인덱스가 있는 컬렉션에만 사용 가능

이 집계 파이프라인 연산자는 MongoDB 검색 인덱스가 있는 컬렉션에만 사용할 수 있습니다.

하나 이상의 필드에 대한 전체 텍스트 검색 지정하려면 $search 파이프라인 단계를 만들면 됩니다. 스칼라 운전자 이 단계를 생성하기 위해 Aggregates.search() 헬퍼 메서드를 제공합니다. search() 메서드에는 다음 인수가 필요합니다.

SearchOperator 인스턴스 : 검색 할 필드 와 텍스트를 지정합니다.
SearchOptions 인스턴스: 전체 텍스트 검색 사용자 지정하는 옵션을 지정합니다. 사용할 MongoDB 검색 인덱스 의 이름으로 index 옵션을 설정해야 합니다.

이 예시 다음 조치를 수행하는 파이프라인 단계를 생성합니다.

name 필드 "Salt"단어가 포함된 텍스트 검색
일치하는 문서의 _id 및 name 값만 프로젝션

val operator = SearchOperator.text(SearchPath.fieldPath("name"), "Salt")
val options = searchOptions().index("<search index name>")
val pipeline = Seq(Aggregates.search(operator, options),
                   Aggregates.project(Projections.include("name")))
collection.aggregate(pipeline)
          .subscribe((doc: Document) => println(doc.toJson()),
                    (e: Throwable) => println(s"There was an error: $e"))

{"_id": {"$oid": "..."}, "name": "Fresh Salt"}
{"_id": {"$oid": "..."}, "name": "Salt & Pepper"}
{"_id": {"$oid": "..."}, "name": "Salt + Charcoal"}
{"_id": {"$oid": "..."}, "name": "A Salt & Battery"}
{"_id": {"$oid": "..."}, "name": "Salt And Fat"}
{"_id": {"$oid": "..."}, "name": "Salt And Pepper Diner"}

중요

앞의 예시 실행 하려면 name 필드 포함하는 restaurants 컬렉션 에 MongoDB Search 인덱스 만들어야 합니다. 그런 다음 "<search index name>" 자리 표시자를 인덱스 이름으로 바꿉니다. MongoDB 검색 인덱스에 대해 자세히 학습하려면 MongoDB 검색 인덱스 가이드 를 참조하세요.

연산자 도우미 메서드 검색

스칼라 운전자 다음 연산자에 대한 헬퍼 메서드를 제공합니다.

연산자	설명
자동 완성 기능	불완전한 입력 문자열에서 일련의 문자가 포함된 단어나 구를 검색 합니다.
복합	두 개 이상의 연산자를 단일 쿼리로 결합합니다.
같음	필드 지정한 값과 일치하는지 확인합니다. `equals()` 및 `equalsNull()` 메서드에 매핑합니다.
이 존재합니다	문서에 인덱싱된 지정 필드 이름에 대한 경로가 있는지 테스트합니다.
인	지정된 경로에서 BSON 번호, 날짜, 부울, ObjectId, uuid 또는 문자열 값의 배열 검색 하고 필드 값이 지정된 배열 의 임의 값과 같은 문서를 반환합니다.
유사한 콘텐츠 더 보기	입력 문서와 유사한 문서를 반환합니다.
가깝다	숫자, 날짜 및 GeoJSON 포인트 값을 쿼리하고 점수를 매기는 기능을 지원합니다.
구	인덱스 구성에 지정된 분석기 사용하여 정렬된 용어 시퀀스가 포함된 문서를 검색 합니다.
쿼리 문자열	인덱싱된 필드와 값의 조합을 쿼리할 수 있습니다.
범위	숫자, 날짜 및 문자열 값을 쿼리하고 점수를 매길 수 있도록 지원합니다. `numberRange()` 및 `dateRange()` 메서드에 매핑합니다.
정규식	쿼리 필드 정규 표현식 으로 해석합니다.
text	인덱스 구성에서 지정한 분석기 사용하여 전체 텍스트 검색 수행합니다.
와일드카드	검색 문자열에 모든 문자와 일치할 수 있는 특수 문자를 사용하는 쿼리를 활성화합니다.

파이프라인 검색 단계 예시

참고

Atlas 샘플 데이터 세트

이 예시 Atlas 샘플 데이터 세트의 sample_mflix.movies 컬렉션 사용합니다. 무료 계층 Atlas cluster 설정하다 하고 샘플 데이터 세트를 로드하는 방법을 학습 Atlas 설명서에서 Atlas 시작하기 튜토리얼을 참조하세요.

이 예시 실행 하려면 먼저 movies 컬렉션 에 다음 정의가 있는 MongoDB 검색 인덱스 만들어야 합니다.

{
  "mappings": {
    "dynamic": true,
    "fields": {
      "title": {
        "analyzer": "lucene.keyword",
        "type": "string"
      },
      "genres": {
        "normalizer": "lowercase",
        "type": "token"
      }
    }
  }
}

MongoDB 검색 인덱스 생성에 대해 자세히 학습하려면 MongoDB 검색 인덱스 가이드를 참조하세요.

다음 코드는 다음 사양의 $search 단계를 생성합니다.

genres 배열 "Comedy"가 포함되어 있는지 확인합니다.
fullplot 필드 에서 "new york"구문을 검색합니다.
1950 ~ 2000 사이의 year 값과 일치합니다.
텀 "Love"로 시작하는 title 값을 검색합니다.

val searchStage = Aggregates.search(
  SearchOperator.compound()
    .must(
      Iterable(
        SearchOperator.in(fieldPath("genres"), List("Comedy")),
        SearchOperator.phrase(fieldPath("fullplot"), "new york"),
        SearchOperator.numberRange(fieldPath("year")).gtLt(1950, 2000),
        SearchOperator.wildcard("Love *", fieldPath("title")),
      ).asJava
    )
)
val projectStage = Aggregates.project(
  Projections.include("title", "year", "genres"))
val aggregatePipelineStages = Seq(searchStage, projectStage)
collection.aggregate(aggregatePipelineStages)
  .subscribe((doc: Document) => println(doc.toJson()),
    (e: Throwable) => println(s"There was an error: $e"))

{"_id": ..., "genres": ["Comedy", "Romance"], "title": "Love at First Bite", "year": 1979}
{"_id": ..., "genres": ["Comedy", "Drama"], "title": "Love Affair", "year": 1994}

MongoDB Search 헬퍼 메서드에 대해 자세히 학습하려면, 드라이버 Core API 문서에 있는 SearchOperator 인터페이스 참조를 참조하세요.

추가 정보

MongoDB Server 매뉴얼

이 가이드 에서 설명하는 주제에 대해 학습 보려면 MongoDB Server 매뉴얼의 다음 페이지를 참조하세요.

집계 단계의 전체 목록은 MongoDB Server 매뉴얼의 집계 단계 를 참조하세요.
집계 파이프라인 을 어셈블하는 방법과 예제를 학습 집계 파이프라인을 참조하세요.
파이프라인 단계 생성에 대해 자세히 알아보려면 애그리게이션 단계를 참조하세요.
MongoDB 작업에 대해 자세히 알아보려면 출력 설명 및 쿼리 계획을 참조하세요.

API 문서

이 가이드에서 사용되는 메서드 또는 유형에 대해 자세히 알아보려면 다음 API 문서를 참조하세요.

돌아가기

클러스터 모니터링

Observables