Atlas Data Lake 파이프라인 만들기 - 미리 보기

이 페이지의 내용

전제 조건
절차
다음 단계

Data Lake 는 더 이상 사용되지 않습니다. 9월 2024 부터 Data Lake 는 더 이상 사용되지 않으며 수명이 종료됩니다. 30, 2025 9월에 제거됩니다. Data Lake 를 사용하는 경우 서비스가 제거되기 전에 대체 솔루션으로 마이그레이션 해야 합니다. 학습 내용은 Atlas Data Lake 사용 중단 가이드 를 참조하세요.

Atlas Data Lake 파이프라인은 Atlas UI, Data Lake Pipelines API 및 Atlas CLI를 사용하여 만들 수 있습니다. 이 페이지에서는 Atlas Data Lake 파이프라인을 생성하는 단계를 안내합니다.

전제 조건

시작하기 전에 다음이 필요합니다.

백업 지원 M10 이상 Atlas cluster.
Project Owner 데이터 레이크를 배포하려는 프로젝트의 역할입니다.
클러스터 에 로드된 샘플 데이터 (다음 절차 의 예시 를 시도하려는 경우).

절차

Atlas CLI를 사용하여 새 데이터 레이크 파이프라인을 생성하려면 다음 명령을 실행합니다.

atlas dataLakePipelines create <pipelineName> [options]

명령 구문 및 매개변수에 관한 학습 사항은 Atlas DataLakePipelines 생성에 대한 Atlas CLI 문서를 참조하십시오.

팁

참조: 관련 링크

파이프라인 완료 확인

Atlas CLI를 사용하여 지정된 Data Lake 파이프라인이 완료되는지 확인하려면 다음 명령을 실행합니다.

atlas dataLakePipelines watch <pipelineName> [options]

명령 구문 및 매개변수에 관한 Atlas CLI 학습 사항은 dataLakePipelines watch Atlas 에 대한 문서를 참조하십시오.

팁

참조: 관련 링크

API 를 통해 Atlas Data Lake 파이프라인 을 만들려면 Data Lake pipelines 엔드포인트에 POST 요청 을 보냅니다. 파이프라인 을 생성하기 위한 pipelines 엔드포인트 구문 및 매개 변수에 학습 보려면 1개의 Data Lake 파이프라인 만들기를 참조하세요.

팁

Data Lake availableSchedules 엔드포인트에 GET 요청 을 보내 PERIODIC_DPS 유형의 Data Lake 파이프라인 을 만드는 데 사용할 수 있는 백업 예정 정책 항목 목록을 조회 할 수 있습니다.

MongoDB Atlas 에 로그인합니다.

Atlas UI 에서 Atlas Data Lake로 고 (Go) 합니다.

아직 표시되지 않은 경우 다음에서 프로젝트가 포함된 조직을 선택합니다. Organizations 메뉴를 클릭합니다.
아직 표시되지 않은 경우 내비게이션 바의 Projects 메뉴에서 프로젝트를 선택합니다.
사이드바에서 Deployment 제목 아래의 Data Lake를 클릭합니다.

Add Data Lake Pipeline를 클릭합니다.

파이프라인 의 데이터 소스 를 정의합니다.

워크로드 격리 를 통해 분석 쿼리에 최적화된 MongoDB 관리형 cloud 객체 저장 의 Atlas cluster 에 데이터 복사본을 만들 수 있습니다.

파이프라인 을 설정하다 하려면 Setup Pipeline 페이지에서 다음을 지정합니다.

드롭다운에서 Atlas cluster 를 선택합니다.
예시
cluster 에 샘플 데이터를 로드한 경우, 샘플 데이터를 로드한 Atlas cluster 클러스터 선택합니다.
드롭다운에서 지정된 클러스터 의 데이터베이스 를 선택하거나, 데이터베이스 가 드롭다운에 나열되지 않은 경우 필드 에 데이터베이스 이름을 입력합니다.
지정된 클러스터 의 데이터베이스 이름을 가져올 수 없는 경우 Atlas Data Lake 에 데이터베이스 가 표시되지 않습니다.
예시
샘플 데이터가 로드되는 클러스터 를 선택한 경우 sample_mflix 을 선택합니다.
드롭다운에서 지정된 데이터베이스 의 컬렉션 을 선택하거나 컬렉션 을 사용할 수 없는 경우 필드 에 컬렉션 이름을 입력합니다.
지정된 클러스터의 컬렉션 네임스페이스를 가져올 수 없는 경우 Atlas Data Lake에서 컬렉션을 표시하지 않습니다.
Atlas Data Lake 는 파이프라인의 데이터 소스 로 보기 를 지원 하지 않습니다. 클러스터 에서 컬렉션 을 선택해야 합니다.
예시
sample_mflix 데이터베이스 를 선택한 경우 sample_mflix 데이터베이스 에서 movies 컬렉션 을 선택합니다.
파이프라인 의 이름을 입력합니다.
Atlas Data Lake 파이프라인 이름은 64 자를 초과할 수 없으며 다음을 포함할 수 없습니다.
- 슬래시(/),
- 백슬래시(\)
- 빈 공간
- 달러 기호($)
예시
이 튜토리얼의 예제를 따라 진행하는 경우 Pipeline Name 필드 에 sample_mflix.movies 을(를) 입력합니다.
Continue를 클릭합니다.

클러스터 데이터에 대한 수집 예정 을 지정합니다.

Atlas 백업 스냅샷 에서 클러스터 데이터를 추출하고 Data Lake 데이터 세트로 수집하는 빈도를 지정할 수 있습니다. 각 스냅샷 은 해당 점 의 데이터를 나타내며, 이 데이터는 워크로드 가 격리된 분석 저장 에 저장됩니다. Data Lake 데이터 세트의 모든 스냅샷 데이터를 쿼리 할 수 있습니다.

Basic Schedule 또는 On Demand 을 선택할 수 있습니다.

Basic Schedule 사용 가능한 스냅샷에서 데이터를 자동으로 수집하는 빈도를 정의할 수 있습니다. 다음 일정 중에서 선택해야 합니다. 백업 예정 과 유사한 Snapshot Schedule 를 선택합니다.

매일
매주 토요일
매월 마지막 날

예를 예시 Every day 을(를) 선택하는 경우 정책에 Daily 백업 예정 이 구성되어 있어야 합니다. 또는 일주일에 한 번 예정 을 선택하려면 정책에 Weekly 백업 예정 이 구성되어 있어야 합니다. 학습 내용은 백업 예약 을 참조하세요. Data Lake availableSchedules 엔드포인트에 GET 요청 을 보내 Data Lake 파이프라인 에서 사용할 수 있는 백업 예정 정책 항목 목록을 조회 할 수 있습니다.

예시

이 튜토리얼의 경우 아직 백업 예정 이 없는 경우 Snapshot Schedule 드롭다운에서 Daily 를 선택합니다. 백업 예정 이 있는 경우 사용 가능한 옵션은 백업 예정 에 설정하다 한 예정 을 기반으로 합니다.

On Demand 를 사용하면 원할 때마다 사용 가능한 스냅샷에서 데이터 수집을 수동으로 trigger 할 수 있습니다.

예시

이 튜토리얼에서는 On Demand를 선택하면 파이프라인 을 생성한 후 스냅샷 에서 데이터 수집을 수동으로 trigger 해야 합니다. 학습 내용은 trigger 데이터 수집 온디맨드 - 미리 보기를 참조하세요.

Amazon Web Services 추출한 데이터를 저장할 리전 을 선택합니다.

Atlas Data Lake는 다음 AWS 리전에서 최적화된 저장을 제공합니다.

데이터 레이크 리전	AWS 리전
Virginia, USA	미국 동부 1(us-east-1)
미국 오리건주	us-west-2
브라질 상파울루	sa-east-1
아일랜드	eu-west-1
영국 런던	eu-west-2
독일 프랑크푸르트	eu-central-1
인도 뭄바이	ap-south-1
싱가포르	아시아 태평양 남동부 1(AP-SOUTH-EAST-1)
호주 시드니	아시아 태평양 남동부 2(AP-SOUTH-EAST-2)

기본값 으로 Atlas Data Lake 는 추출된 데이터를 저장하기 위해 Atlas cluster 에 가장 가까운 리전 을 자동으로 선택합니다. Atlas Data Lake 에서 리전 을 확인할 수 없는 경우 기본값은 us-east-1 입니다.

컬렉션 에 필드를 지정하여 파티션을 생성합니다.

컬렉션 에서 가장 일반적으로 쿼리되는 필드를 Partition Attributes 섹션에 입력합니다. 중첩된 필드를 지정하려면 점 표기법 을 사용합니다. 점 표기법 을 사용하여 지정한 중첩 필드 주위에 따옴표("")를 포함하지 마십시오. 배열 내부에는 필드를 지정할 수 없습니다. 지정된 필드는 데이터를 분할하는 데 사용됩니다.

경고

분할에는 마침표(.)가 포함된 필드 이름을 지정할 수 없습니다.

가장 자주 쿼리되는 필드는 목록 아래에 나열된 필드보다 성능 및 비용 에 더 큰 영향 을 미치므로 맨 위에 나열되어야 합니다. 필드의 순서는 복합 인덱스 와 동일한 방식으로 중요합니다. 데이터는 첫 번째 필드, 두 번째 필드 순으로 쿼리에 최적화됩니다.

예시

Most commonly queried field 필드 에 year 을 입력하고 Second most commonly queried field 필드 에 title 를 입력합니다.

Atlas Data Lake 는 year 필드, title 필드 순으로 성능을 최적화합니다. Data Lake 데이터 세트에 대해 연합 데이터베이스 인스턴스를 구성하는 경우 Atlas Data Federation 은 다음 필드에 대한 쿼리의 성능을 최적화합니다.

year 필드
year 필드 및 title 필드.

Atlas Data Federation 은 title 필드 에 대한 쿼리 만 지원 수도 있습니다. 그러나 이 경우 Atlas Data Federation 은 쿼리 가 title 필드 에만 있는 경우만큼 효율적으로 쿼리 를 지원하지 못합니다. 성능은 순서대로 최적화됩니다. 쿼리 에서 특정 파티션이 생략되면 Atlas Data Federation 은 그 뒤에 오는 파티션을 사용하는 데 효율성이 떨어집니다.

여기에 지정되지 않은 필드에 대해 Atlas Data Federation 쿼리를 실행 수 있지만, Atlas Data Lake 는 이러한 쿼리를 처리 데 효율성이 떨어집니다.

(선택 사항) 제외할 문서 내부의 필드를 지정합니다.

기본값 으로 Atlas Data Lake 는 컬렉션 의 문서 내의 모든 필드를 추출하고 저장합니다. 제외할 필드를 지정하려면 다음을 수행합니다.

Add Field를 클릭합니다.
Add Transformation Field Name 창 에 필드 이름을 입력합니다.
예시
(선택 사항) movies 컬렉션 에서 fullplot 이라는 필드 를 제외하려면 fullplot 을 입력합니다.
Done를 클릭합니다.
제외하려는 각 필드 에 대해 단계를 반복합니다. 이 목록에서 필드 를 제거 하려면 다음을 클릭합니다..

를 클릭하여 Data Lake 를 만듭니다.Finish

다음 단계

이제 Data Lake 파이프라인 을 만들었 으므로 데이터 세트에 대한 연합 데이터베이스 인스턴스 설정 - 미리 보기를 진행하세요.

돌아가기

시작하기

2단계: 연합 데이터베이스 인스턴스 설정