Docs Menu
Docs Home
/ /
MongoDB Atlas Data Lake
/

Atlas Data Lake 파이프라인 만들기 - 미리 보기

이 페이지의 내용

  • 전제 조건
  • 절차
  • 다음 단계

Atlas Data Lake 파이프라인은 Atlas UI, Data Lake Pipelines API 및 Atlas CLI를 사용하여 만들 수 있습니다. 이 페이지에서는 Atlas Data Lake 파이프라인을 생성하는 단계를 안내합니다.

시작하기 전에 다음이 필요합니다.

  • 백업 지원 M10 이상 Atlas cluster.

  • Project Owner 데이터 레이크를 배포하려는 프로젝트의 역할입니다.

  • 클러스터 에 로드된 샘플 데이터 (다음 절차 의 예시 를 시도하려는 경우).

Atlas CLI를 사용하여 새 데이터 레이크 파이프라인을 생성하려면 다음 명령을 실행합니다.

atlas dataLakePipelines create <pipelineName> [options]

명령 구문 및 매개변수에 관한 학습 사항은 Atlas DataLakePipelines 생성에 대한 Atlas CLI 문서를 참조하십시오.

참조: 관련 링크

Atlas CLI를 사용하여 지정된 Data Lake 파이프라인이 완료되는지 확인하려면 다음 명령을 실행합니다.

atlas dataLakePipelines watch <pipelineName> [options]

명령 구문 및 매개변수에 관한 Atlas CLI 학습 사항은 dataLakePipelines watch Atlas 에 대한 문서를 참조하십시오.

참조: 관련 링크

API 를 통해 Atlas Data Lake 파이프라인 을 만들려면 Data Lake pipelines 엔드포인트에 POST 요청 을 보냅니다. 파이프라인 을 생성하기 위한 pipelines 엔드포인트 구문 및 매개 변수에 학습 보려면 1개의 Data Lake 파이프라인 만들기를 참조하세요.

Data Lake availableSchedules 엔드포인트에 GET 요청 을 보내 PERIODIC_DPS 유형의 Data Lake 파이프라인 을 만드는 데 사용할 수 있는 백업 예정 정책 항목 목록을 조회 할 수 있습니다.

1
2
  1. 아직 표시되지 않은 경우 다음에서 프로젝트가 포함된 조직을 선택합니다. Organizations 메뉴를 클릭합니다.

  2. 아직 표시되지 않은 경우 내비게이션 바의 Projects 메뉴에서 프로젝트를 선택합니다.

  3. 사이드바에서 Deployment 제목 아래의 Data Lake 을 클릭합니다.

3
4

워크로드 격리 를 통해 분석 쿼리에 최적화된 MongoDB 관리형 cloud 객체 저장 의 Atlas cluster 에 데이터 복사본을 만들 수 있습니다.

파이프라인 을 설정하다 하려면 Setup Pipeline 페이지에서 다음을 지정합니다.

  1. 드롭다운에서 Atlas cluster 를 선택합니다.

    예시

    cluster 에 샘플 데이터를 로드한 경우, 샘플 데이터를 로드한 Atlas cluster 클러스터 선택합니다.

  2. 드롭다운에서 지정된 클러스터 의 데이터베이스 를 선택하거나, 데이터베이스 가 드롭다운에 나열되지 않은 경우 필드 에 데이터베이스 이름을 입력합니다.

    지정된 클러스터 의 데이터베이스 이름을 가져올 수 없는 경우 Atlas Data Lake 에 데이터베이스 가 표시되지 않습니다.

    예시

    샘플 데이터가 로드되는 클러스터 를 선택한 경우 sample_mflix 을 선택합니다.

  3. 드롭다운에서 지정된 데이터베이스 의 컬렉션 을 선택하거나 컬렉션 을 사용할 수 없는 경우 필드 에 컬렉션 이름을 입력합니다.

    지정된 클러스터의 컬렉션 네임스페이스를 가져올 수 없는 경우 Atlas Data Lake에서 컬렉션을 표시하지 않습니다.

    Atlas Data Lake 는 파이프라인의 데이터 소스 로 보기 를 지원 하지 않습니다. 클러스터 에서 컬렉션 을 선택해야 합니다.

    예시

    sample_mflix 데이터베이스 를 선택한 경우 sample_mflix 데이터베이스 에서 movies 컬렉션 을 선택합니다.

  4. 파이프라인 의 이름을 입력합니다.

    Atlas Data Lake 파이프라인 이름은 64 자를 초과할 수 없으며 다음을 포함할 수 없습니다.

    • 슬래시(/),

    • 백슬래시(\)

    • 빈 공간

    • 달러 기호($)

    예시

    이 튜토리얼의 예제를 따라 진행하는 경우 Pipeline Name 필드 에 sample_mflix.movies 을(를) 입력합니다.

  5. Continue를 클릭합니다.

5

Atlas 백업 스냅샷 에서 클러스터 데이터를 추출하고 Data Lake 데이터 세트로 수집하는 빈도를 지정할 수 있습니다. 각 스냅샷 은 해당 점 의 데이터를 나타내며, 이 데이터는 워크로드 가 격리된 분석 저장 에 저장됩니다. Data Lake 데이터 세트의 모든 스냅샷 데이터를 쿼리 할 수 있습니다.

Basic Schedule 또는 On Demand 을 선택할 수 있습니다.

Basic Schedule 사용 가능한 스냅샷에서 데이터를 자동으로 수집하는 빈도를 정의할 수 있습니다. 다음 일정 중에서 선택해야 합니다. 백업 예정 과 유사한 Snapshot Schedule 를 선택합니다.

  • 매일

  • 매주 토요일

  • 매월 마지막 날

예를 예시 Every day 을(를) 선택하는 경우 정책에 Daily 백업 예정 이 구성되어 있어야 합니다. 또는 일주일에 한 번 예정 을 선택하려면 정책에 Weekly 백업 예정 이 구성되어 있어야 합니다. 학습 내용은 백업 예약 을 참조하세요. Data Lake availableSchedules 엔드포인트에 GET 요청 을 보내 Data Lake 파이프라인 에서 사용할 수 있는 백업 예정 정책 항목 목록을 조회 할 수 있습니다.

예시

이 튜토리얼의 경우 아직 백업 예정 이 없는 경우 Snapshot Schedule 드롭다운에서 Daily 를 선택합니다. 백업 예정 이 있는 경우 사용 가능한 옵션은 백업 예정 에 설정하다 한 예정 을 기반으로 합니다.

On Demand 를 사용하면 원할 때마다 사용 가능한 스냅샷에서 데이터 수집을 수동으로 trigger 할 수 있습니다.

예시

이 튜토리얼에서는 On Demand를 선택하면 파이프라인 을 생성한 후 스냅샷 에서 데이터 수집을 수동으로 trigger 해야 합니다. 학습 내용은 trigger 데이터 수집 온디맨드 - 미리 보기를 참조하세요.

6

Atlas Data Lake는 다음 AWS 리전에서 최적화된 저장을 제공합니다.

데이터 레이크 리전
AWS 리전
Virginia, USA
미국 동부 1(us-east-1)
미국 오리건주
us-west-2
브라질 상파울루
sa-east-1
아일랜드
eu-west-1
영국 런던
eu-west-2
독일 프랑크푸르트
eu-central-1
인도 뭄바이
ap-south-1
싱가포르
아시아 태평양 남동부 1(AP-SOUTH-EAST-1)
호주 시드니
아시아 태평양 남동부 2(AP-SOUTH-EAST-2)

기본값 으로 Atlas Data Lake 는 추출된 데이터를 저장하기 위해 Atlas cluster 에 가장 가까운 리전 을 자동으로 선택합니다. Atlas Data Lake 에서 리전 을 확인할 수 없는 경우 기본값은 us-east-1 입니다.

7

컬렉션 에서 가장 일반적으로 쿼리되는 필드를 Partition Attributes 섹션에 입력합니다. 중첩된 필드를 지정하려면 점 표기법 을 사용합니다. 점 표기법 을 사용하여 지정한 중첩 필드 주위에 따옴표("")를 포함하지 마십시오. 배열 내부에는 필드를 지정할 수 없습니다. 지정된 필드는 데이터를 분할하는 데 사용됩니다.

경고

분할에는 마침표(.)가 포함된 필드 이름을 지정할 수 없습니다.

가장 자주 쿼리되는 필드는 목록 아래에 나열된 필드보다 성능 및 비용 에 더 큰 영향 을 미치므로 맨 위에 나열되어야 합니다. 필드의 순서는 복합 인덱스 와 동일한 방식으로 중요합니다. 데이터는 첫 번째 필드, 두 번째 필드 순으로 쿼리에 최적화됩니다.

예시

Most commonly queried field 필드 에 year 을 입력하고 Second most commonly queried field 필드 에 title 를 입력합니다.

Atlas Data Lake 는 year 필드, title 필드 순으로 성능을 최적화합니다. Data Lake 데이터 세트에 대해 연합 데이터베이스 인스턴스를 구성하는 경우 Atlas Data Federation 은 다음 필드에 대한 쿼리의 성능을 최적화합니다.

  • year 필드

  • year 필드 및 title 필드.

Atlas Data Federation 은 title 필드 에 대한 쿼리 만 지원 수도 있습니다. 그러나 이 경우 Atlas Data Federation 은 쿼리 가 title 필드 에만 있는 경우만큼 효율적으로 쿼리 를 지원하지 못합니다. 성능은 순서대로 최적화됩니다. 쿼리 에서 특정 파티션이 생략되면 Atlas Data Federation 은 그 뒤에 오는 파티션을 사용하는 데 효율성이 떨어집니다.

여기에 지정되지 않은 필드에 대해 Atlas Data Federation 쿼리를 실행 수 있지만, Atlas Data Lake 는 이러한 쿼리를 처리 데 효율성이 떨어집니다.

8

기본값 으로 Atlas Data Lake 는 컬렉션 의 문서 내의 모든 필드를 추출하고 저장합니다. 제외할 필드를 지정하려면 다음을 수행합니다.

  1. Add Field를 클릭합니다.

  2. Add Transformation Field Name 창 에 필드 이름을 입력합니다.

    예시

    (선택 사항) movies 컬렉션 에서 fullplot 이라는 필드 를 제외하려면 fullplot 을 입력합니다.

  3. Done를 클릭합니다.

  4. 제외하려는 각 필드 에 대해 단계를 반복합니다. 이 목록에서 필드 를 제거 하려면 다음을 클릭합니다..

9

이제 Data Lake 파이프라인 을 만들었 으므로 데이터 세트에 대한 연합 데이터베이스 인스턴스 설정 - 미리 보기를 진행하세요.

돌아가기

시작하기

이 페이지의 내용