Docs Menu

애그리게이션을 통한 데이터 변환

이 가이드 에서는 MongoDB PHP 라이브러리를 사용하여 집계 작업 을 수행하는 방법을 학습 수 있습니다.

애그리게이션 작업은 MongoDB 컬렉션의 데이터를 처리하고 계산된 결과를 반환합니다. Query API의 일부인 MongoDB 애그리게이션 프레임워크는 데이터 처리 파이프라인 개념을 모델로 합니다. 문서는 하나 이상의 단계를 포함하는 파이프라인에 들어가고, 이 파이프라인은 문서를 애그리게이션된 결과로 변환합니다.

집계 작업은 자동차 공장과 유사합니다. 자동차 공장에는 조립 라인이 있으며, 여기에는 드릴과 용접기 등 특정 작업을 수행할 수 있는 특수 공구를 갖춘 조립 스테이션이 있습니다. 원부품이 공장에 들어오면 조립 라인에서 이를 변형하고 조립하여 완제품으로 만듭니다.

집계 파이프라인은 조립 라인이고, 집계 단계는 조립 스테이션이며, 작업 연산자는 특수 도구입니다.

찾기 조치를 사용하여 다음 조치을 수행할 수 있습니다:

  • 반환할 문서 선택

  • 반환할 필드 선택

  • 결과 정렬

집계 조치를 사용하여 다음 조치를 수행할 수 있습니다:

  • 찾기 작업 실행

  • 필드 이름 바꾸기

  • 필드 계산

  • 데이터 요약

  • 그룹 값

집계 작업을 수행할 때 다음 제한 사항을 고려합니다.

  • 반환된 문서는 BSON 문서 크기 제한 인 16 메가바이트를 위반할 수 없습니다.

  • 파이프라인 단계의 메모리 제한은 기본값 100 메가바이트입니다. allowDiskUse 옵션을 true 으로 설정하는 옵션 배열 을 만들고 배열 을 MongoDB\Collection::aggregate() 메서드에 전달하여 이 제한을 초과할 수 있습니다.

    중요

    $graphLookup 예외

    $graphLookup 단계에는 100 메가바이트의 엄격한 메모리 제한이 있으며 allowDiskUse 옵션을 무시합니다.

PHP 라이브러리는 집계 파이프라인을 생성하기 위해 다음과 같은 API를 제공합니다.

  • 배열 API: 집계 단계를 지정하는 배열을 전달하여 집계 파이프라인을 생성합니다.

  • 애그리게이션 빌더: 팩토리 메서드를 사용하여 애플리케이션 더 유형 안전하고 디버깅할 수 있도록 하는 집계 파이프라인을 만듭니다.

다음 섹션에서는 각 API 설명하고 집계 파이프라인 생성에 대한 예제를 제공합니다.

집계 수행하려면 다음 코드와 같이 파이프라인 단계가 BSON 문서로 포함된 배열 MongoDB\Collection::aggregate() 메서드에 전달합니다.

$pipeline = [
['<stage>' => <parameters>],
['<stage>' => <parameters>],
...
];
$cursor = $collection->aggregate($pipeline);

이 섹션의 예제에서는 Atlas 샘플 데이터 세트sample_restaurants 데이터베이스 에 있는 restaurants 컬렉션 을 사용합니다. 무료 MongoDB Atlas cluster 를 생성하고 샘플 데이터 세트를 로드하는 방법을 학습 보려면 Atlas 시작하기 가이드 를 참조하세요.

다음 코드 예시 에서는 뉴욕의 각 자치구에 있는 베이커리 수의 개수를 생성합니다. 이를 위해 다음 단계가 포함된 집계 파이프라인 을 사용합니다.

  1. cuisine 필드 에 'Bakery'값이 포함된 문서를 필터하다 하는 $match 단계

  2. $ 그룹 그룹 를 사용하여 일치하는 문서를 borough 필드 별로 그룹화하여 각 고유 값에 대한 문서 수를 누적합니다.

$pipeline = [
['$match' => ['cuisine' => 'Bakery']],
['$group' => ['_id' => '$borough', 'count' => ['$sum' => 1]]],
];
$cursor = $collection->aggregate($pipeline);
foreach ($cursor as $doc) {
echo json_encode($doc), PHP_EOL;
}
{"_id":"Brooklyn","count":173}
{"_id":"Queens","count":204}
{"_id":"Bronx","count":71}
{"_id":"Staten Island","count":20}
{"_id":"Missing","count":2}
{"_id":"Manhattan","count":221}

MongoDB 가 작업을 실행하는 방법에 대한 정보를 보려면 MongoDB 쿼리 플래너에게 설명 을 지시하면 됩니다. MongoDB 는 작업을 설명할 때 실행 계획 과 성능 통계를 반환합니다. 실행 계획은 MongoDB 가 작업을 완료할 수 있는 잠재적인 방법입니다. MongoDB 에 작업 설명을 지시하면 MongoDB 가 실행한 계획과 거부된 실행 계획이 모두 반환됩니다.

집계 작업을 설명하려면 MongoDB\Operation\Aggregate 객체 를 구성하고 데이터베이스, 컬렉션 및 파이프라인 단계를 매개변수로 전달합니다. 그런 다음 MongoDB\Operation\Aggregate 객체 를 MongoDB\Collection::explain() 메서드에 전달합니다.

다음 예시 이전 섹션의 집계 작업을 설명하도록 MongoDB 에 지시합니다.

$pipeline = [
['$match' => ['cuisine' => 'Bakery']],
['$group' => ['_id' => '$borough', 'count' => ['$sum' => 1]]],
];
$aggregate = new MongoDB\Operation\Aggregate(
$collection->getDatabaseName(),
$collection->getCollectionName(),
$pipeline
);
$result = $collection->explain($aggregate);
echo json_encode($result), PHP_EOL;
{"explainVersion":"2","queryPlanner":{"namespace":"sample_restaurants.restaurants",
"indexFilterSet":false,"parsedQuery":{"cuisine":{"$eq":"Bakery"}},"queryHash":"865F14C3",
"planCacheKey":"D56D6F10","optimizedPipeline":true,"maxIndexedOrSolutionsReached":false,
"maxIndexedAndSolutionsReached":false,"maxScansToExplodeReached":false,"winningPlan":{
... }

집계 빌더를 사용하여 집계 파이프라인 만들려면 다음 작업을 수행합니다.

  1. 파이프라인 단계를 저장 배열 만듭니다.

  2. 각 단계에 대해 원하는 집계 단계와 동일한 이름을 공유하는 Stage 에서 팩토리 메서드를 호출합니다. 예시 들어 $unwind 단계를 만들려면 Stage::unwind() 메서드를 호출합니다.

  3. Stage 메서드 본문 내에서 Query, Expression 또는 Accumulator 와 같은 다른 빌더 클래스의 메서드를 사용하여 집계 사양을 표현합니다.

다음 코드는 집계 파이프라인 구성을 위한 템플릿을 보여줍니다.

$pipeline = [
Stage::<factory method>(
<stage specification>
),
Stage::<factory method>(
<stage specification>
),
...
];
$cursor = $collection->aggregate($pipeline);

이 섹션의 예제는 MongoDB Server 매뉴얼에서 발췌한 것입니다. 각 예시 집계 작업을 테스트하기 위해 데이터베이스 에 삽입할 수 있는 샘플 데이터에 대한 링크를 제공합니다.

빌더와의 운영

빌더 사용하여 찾기 및 업데이트 작업과 같은 비애그리게이션 작업을 지원 수 있습니다. 자세한 학습 은 빌더를 사용한 작업 가이드 참조하세요.

이 예시 에서는 서버 매뉴얼의 단계 참조 참조의 개수, 합계 및 평균 계산 섹션에 제공된 샘플 데이터를 사용합니다.$group

다음 코드 예시 2014 연도의 각 날짜의 총 판매 금액, 평균 판매 수량, 판매 횟수를 계산합니다. 이를 위해 다음 단계가 포함된 집계 파이프라인 사용합니다.

  1. 연도가 인 필드 포함된 문서를 필터하다 하는 $match 단계 date 2014

  2. $ 그룹 단계를 통해 문서를 날짜별로 그룹 하고 각 그룹 의 총 판매량, 평균 판매량, 판매량을 계산합니다.

  3. $sort 단계를 사용하여 각 그룹 의 총 판매 금액을 기준으로 결과를 내림차순으로 정렬합니다.

$pipeline = [
MongoDB\Builder\Stage::match(
date: [
MongoDB\Builder\Query::gte(new MongoDB\BSON\UTCDateTime(new DateTimeImmutable('2014-01-01'))),
MongoDB\Builder\Query::lt(new MongoDB\BSON\UTCDateTime(new DateTimeImmutable('2015-01-01'))),
],
),
MongoDB\Builder\Stage::group(
_id: MongoDB\Builder\Expression::dateToString(MongoDB\Builder\Expression::dateFieldPath('date'), '%Y-%m-%d'),
totalSaleAmount: MongoDB\Builder\Accumulator::sum(
MongoDB\Builder\Expression::multiply(
MongoDB\Builder\Expression::numberFieldPath('price'),
MongoDB\Builder\Expression::numberFieldPath('quantity'),
),
),
averageQuantity: MongoDB\Builder\Accumulator::avg(
MongoDB\Builder\Expression::numberFieldPath('quantity'),
),
count: MongoDB\Builder\Accumulator::sum(1),
),
MongoDB\Builder\Stage::sort(
totalSaleAmount: MongoDB\Builder\Type\Sort::Desc,
),
];
$cursor = $collection->aggregate($pipeline);
foreach ($cursor as $doc) {
echo json_encode($doc), PHP_EOL;
}
{"_id":"2014-04-04","totalSaleAmount":{"$numberDecimal":"200"},"averageQuantity":15,"count":2}
{"_id":"2014-03-15","totalSaleAmount":{"$numberDecimal":"50"},"averageQuantity":10,"count":1}
{"_id":"2014-03-01","totalSaleAmount":{"$numberDecimal":"40"},"averageQuantity":1.5,"count":2}

이 예시 서버 매뉴얼의 단계 참조에 있는 $unwind 내장된 배열 풀기 섹션에 제공된 샘플 데이터를 사용합니다.

다음 코드 예시 에서는 판매된 품목을 태그별로 그룹화하고 각 태그를 지정하다 의 총 판매 금액을 계산합니다. 이를 위해 다음 단계가 포함된 집계 파이프라인 사용합니다.

  1. 배열 의 각 요소에 대해 별도의 문서 출력하는$unwind 단계 items

  2. $unwind 단계를 통해 items.tags 배열의 각 요소에 대해 별도의 문서 출력합니다.

  3. $ 그룹 단계를 통해 태그를 지정하다 값을 기준으로 문서를 그룹 하고 각 태그를 지정하다 있는 품목의 총 판매 금액을 계산합니다.

$pipeline = [
MongoDB\Builder\Stage::unwind(MongoDB\Builder\Expression::arrayFieldPath('items')),
MongoDB\Builder\Stage::unwind(MongoDB\Builder\Expression::arrayFieldPath('items.tags')),
MongoDB\Builder\Stage::group(
_id: MongoDB\Builder\Expression::fieldPath('items.tags'),
totalSalesAmount: MongoDB\Builder\Accumulator::sum(
MongoDB\Builder\Expression::multiply(
MongoDB\Builder\Expression::numberFieldPath('items.price'),
MongoDB\Builder\Expression::numberFieldPath('items.quantity'),
),
),
),
];
$cursor = $collection->aggregate($pipeline);
foreach ($cursor as $doc) {
echo json_encode($doc), PHP_EOL;
}
{"_id":"office","totalSalesAmount":{"$numberDecimal":"1019.60"}}
{"_id":"school","totalSalesAmount":{"$numberDecimal":"104.85"}}
{"_id":"stationary","totalSalesAmount":{"$numberDecimal":"264.45"}}
{"_id":"electronics","totalSalesAmount":{"$numberDecimal":"800.00"}}
{"_id":"writing","totalSalesAmount":{"$numberDecimal":"60.00"}}

이 예시 서버 매뉴얼의 단계 참조에 있는 $lookup을 사용하여 단일 동등성 조인 수행 섹션에 제공된 샘플 데이터를 사용합니다.$lookup

다음 코드 예시 orders 컬렉션 의 item 필드 와 inventory 컬렉션 의 sku 필드 사용하여 orders 컬렉션 의 문서를 inventory 컬렉션 의 문서와 조인합니다.

이를 위해 이 예시 데이터를 조회 할 컬렉션 과 로컬 및 외부 필드 이름을 지정하는 $lookup 단계가 포함된 집계 파이프라인 사용합니다.

$pipeline = [
MongoDB\Builder\Stage::lookup(
from: 'inventory',
localField: 'item',
foreignField: 'sku',
as: 'inventory_docs',
),
];
/* Performs the aggregation on the orders collection */
$cursor = $collection->aggregate($pipeline);
foreach ($cursor as $doc) {
echo json_encode($doc), PHP_EOL;
}
{"_id":1,"item":"almonds","price":12,"quantity":2,"inventory_docs":[{"_id":1,"sku":"almonds","description":"product 1","instock":120}]}
{"_id":2,"item":"pecans","price":20,"quantity":1,"inventory_docs":[{"_id":4,"sku":"pecans","description":"product 4","instock":70}]}
{"_id":3,"inventory_docs":[{"_id":5,"sku":null,"description":"Incomplete"},{"_id":6}]}

MongoDB PHP 라이브러리를 사용하여 복잡한 집계 파이프라인을 생성하는 튜토리얼을 보려면 MongoDB 개발자 센터에서 바닐라 PHP 및 MongoDB 를 사용한 복잡한 집계 파이프 라인을 참조하세요.

집계 빌더를 사용하여 구축된 집계 파이프라인의 더 많은 예제를 보려면 GitHub의 PHP 라이브러리 소스 코드 에서 단계 클래스 테스트 제품군 을 참조하세요.

이 가이드 에서 설명하는 주제에 대해 학습 보려면 MongoDB Server 매뉴얼의 다음 페이지를 참조하세요.

Atlas Search 기능 사용하여 전체 텍스트 검색을 수행할 수 있습니다. 자세히 학습 Atlas Search 가이드 참조하세요.

Atlas Vector Search 기능 사용하여 벡터 임베딩에 대한 유사성 검색을 수행할 수 있습니다. 자세히 학습 Atlas Vector Search 가이드 참조하세요.

이 가이드 에서 설명하는 메서드에 대해 학습 보려면 다음 API 설명서를 참조하세요.