Atlas Data Lake 파이프라인 만들기 - 미리 보기
Atlas Data Lake 파이프라인은 Atlas UI, Data Lake Pipelines API 및 Atlas CLI를 사용하여 만들 수 있습니다. 이 페이지에서는 Atlas Data Lake 파이프라인을 생성하는 단계를 안내합니다.
전제 조건
시작하기 전에 다음이 필요합니다.
백업 지원
M10
이상 Atlas cluster.Project Owner
데이터 레이크를 배포하려는 프로젝트의 역할입니다.
절차
Atlas CLI를 사용하여 새 데이터 레이크 파이프라인을 생성하려면 다음 명령을 실행합니다.
atlas dataLakePipelines create <pipelineName> [options]
명령 구문 및 매개변수에 관한 학습 사항은 Atlas DataLakePipelines 생성에 대한 Atlas CLI 문서를 참조하십시오.
파이프라인 완료 확인
Atlas CLI를 사용하여 지정된 Data Lake 파이프라인이 완료되는지 확인하려면 다음 명령을 실행합니다.
atlas dataLakePipelines watch <pipelineName> [options]
명령 구문 및 매개변수에 관한 Atlas CLI 학습 사항은 dataLakePipelines watch Atlas 에 대한 문서를 참조하십시오.
API 를 통해 Atlas Data Lake 파이프라인 을 만들려면 Data Lake pipelines
엔드포인트에 POST
요청 을 보냅니다. 파이프라인 을 생성하기 위한 pipelines
엔드포인트 구문 및 매개 변수에 학습 보려면 1개의 Data Lake 파이프라인 만들기를 참조하세요.
팁
Data Lake availableSchedules 엔드포인트에 GET
요청 을 보내 PERIODIC_DPS
유형의 Data Lake 파이프라인 을 만드는 데 사용할 수 있는 백업 예정 정책 항목 목록을 조회 할 수 있습니다.
MongoDB Atlas 에 로그인합니다.
파이프라인 의 데이터 소스 를 정의합니다.
워크로드 격리 를 통해 분석 쿼리에 최적화된 MongoDB 관리형 cloud 객체 저장 의 Atlas cluster 에 데이터 복사본을 만들 수 있습니다.
파이프라인 을 설정하다 하려면 Setup Pipeline 페이지에서 다음을 지정합니다.
드롭다운에서 Atlas cluster 를 선택합니다.
예시
cluster 에 샘플 데이터를 로드한 경우, 샘플 데이터를 로드한 Atlas cluster 클러스터 선택합니다.
드롭다운에서 지정된 클러스터 의 데이터베이스 를 선택하거나, 데이터베이스 가 드롭다운에 나열되지 않은 경우 필드 에 데이터베이스 이름을 입력합니다.
지정된 클러스터 의 데이터베이스 이름을 가져올 수 없는 경우 Atlas Data Lake 에 데이터베이스 가 표시되지 않습니다.
예시
샘플 데이터가 로드되는 클러스터 를 선택한 경우
sample_mflix
을 선택합니다.드롭다운에서 지정된 데이터베이스 의 컬렉션 을 선택하거나 컬렉션 을 사용할 수 없는 경우 필드 에 컬렉션 이름을 입력합니다.
지정된 클러스터의 컬렉션 네임스페이스를 가져올 수 없는 경우 Atlas Data Lake에서 컬렉션을 표시하지 않습니다.
Atlas Data Lake 는 파이프라인의 데이터 소스 로 보기 를 지원 하지 않습니다. 클러스터 에서 컬렉션 을 선택해야 합니다.
예시
sample_mflix
데이터베이스 를 선택한 경우sample_mflix
데이터베이스 에서movies
컬렉션 을 선택합니다.파이프라인 의 이름을 입력합니다.
Atlas Data Lake 파이프라인 이름은 64 자를 초과할 수 없으며 다음을 포함할 수 없습니다.
슬래시(
/
),백슬래시(
\
)빈 공간
달러 기호(
$
)
예시
이 튜토리얼의 예제를 따라 진행하는 경우 Pipeline Name 필드 에
sample_mflix.movies
을(를) 입력합니다.Continue를 클릭합니다.
클러스터 데이터에 대한 수집 예정 을 지정합니다.
Atlas 백업 스냅샷 에서 클러스터 데이터를 추출하고 Data Lake 데이터 세트로 수집하는 빈도를 지정할 수 있습니다. 각 스냅샷 은 해당 점 의 데이터를 나타내며, 이 데이터는 워크로드 가 격리된 분석 저장 에 저장됩니다. Data Lake 데이터 세트의 모든 스냅샷 데이터를 쿼리 할 수 있습니다.
Basic Schedule 또는 On Demand 을 선택할 수 있습니다.
Basic Schedule 사용 가능한 스냅샷에서 데이터를 자동으로 수집하는 빈도를 정의할 수 있습니다. 다음 일정 중에서 선택해야 합니다. 백업 예정 과 유사한 Snapshot Schedule 를 선택합니다.
매일
매주 토요일
매월 마지막 날
예를 예시 Every day
을(를) 선택하는 경우 정책에 Daily
백업 예정 이 구성되어 있어야 합니다. 또는 일주일에 한 번 예정 을 선택하려면 정책에 Weekly
백업 예정 이 구성되어 있어야 합니다. 학습 내용은 백업 예약 을 참조하세요. Data Lake availableSchedules 엔드포인트에 GET
요청 을 보내 Data Lake 파이프라인 에서 사용할 수 있는 백업 예정 정책 항목 목록을 조회 할 수 있습니다.
예시
이 튜토리얼의 경우 아직 백업 예정 이 없는 경우 Snapshot Schedule 드롭다운에서 Daily 를 선택합니다. 백업 예정 이 있는 경우 사용 가능한 옵션은 백업 예정 에 설정하다 한 예정 을 기반으로 합니다.
On Demand 를 사용하면 원할 때마다 사용 가능한 스냅샷에서 데이터 수집을 수동으로 trigger 할 수 있습니다.
예시
이 튜토리얼에서는 On Demand를 선택하면 파이프라인 을 생성한 후 스냅샷 에서 데이터 수집을 수동으로 trigger 해야 합니다. 학습 내용은 trigger 데이터 수집 온디맨드 - 미리 보기를 참조하세요.
Amazon Web Services 추출한 데이터를 저장할 리전 을 선택합니다.
Atlas Data Lake는 다음 AWS 리전에서 최적화된 저장을 제공합니다.
데이터 레이크 리전 | AWS 리전 |
---|---|
Virginia, USA | 미국 동부 1(us-east-1) |
미국 오리건주 | us-west-2 |
브라질 상파울루 | sa-east-1 |
아일랜드 | eu-west-1 |
영국 런던 | eu-west-2 |
독일 프랑크푸르트 | eu-central-1 |
인도 뭄바이 | ap-south-1 |
싱가포르 | 아시아 태평양 남동부 1(AP-SOUTH-EAST-1) |
호주 시드니 | 아시아 태평양 남동부 2(AP-SOUTH-EAST-2) |
기본값 으로 Atlas Data Lake 는 추출된 데이터를 저장하기 위해 Atlas cluster 에 가장 가까운 리전 을 자동으로 선택합니다. Atlas Data Lake 에서 리전 을 확인할 수 없는 경우 기본값은 us-east-1
입니다.
컬렉션 에 필드를 지정하여 파티션을 생성합니다.
컬렉션 에서 가장 일반적으로 쿼리되는 필드를 Partition Attributes 섹션에 입력합니다. 중첩된 필드를 지정하려면 점 표기법 을 사용합니다. 점 표기법 을 사용하여 지정한 중첩 필드 주위에 따옴표(""
)를 포함하지 마십시오. 배열 내부에는 필드를 지정할 수 없습니다. 지정된 필드는 데이터를 분할하는 데 사용됩니다.
경고
분할에는 마침표(.
)가 포함된 필드 이름을 지정할 수 없습니다.
가장 자주 쿼리되는 필드는 목록 아래에 나열된 필드보다 성능 및 비용 에 더 큰 영향 을 미치므로 맨 위에 나열되어야 합니다. 필드의 순서는 복합 인덱스 와 동일한 방식으로 중요합니다. 데이터는 첫 번째 필드, 두 번째 필드 순으로 쿼리에 최적화됩니다.
예시
Most commonly queried field 필드 에 year
을 입력하고 Second most commonly
queried field 필드 에 title
를 입력합니다.
Atlas Data Lake 는 year
필드, title
필드 순으로 성능을 최적화합니다. Data Lake 데이터 세트에 대해 연합 데이터베이스 인스턴스를 구성하는 경우 Atlas Data Federation 은 다음 필드에 대한 쿼리의 성능을 최적화합니다.
year
필드year
필드 및title
필드.
Atlas Data Federation 은 title
필드 에 대한 쿼리 만 지원 수도 있습니다. 그러나 이 경우 Atlas Data Federation 은 쿼리 가 title
필드 에만 있는 경우만큼 효율적으로 쿼리 를 지원하지 못합니다. 성능은 순서대로 최적화됩니다. 쿼리 에서 특정 파티션이 생략되면 Atlas Data Federation 은 그 뒤에 오는 파티션을 사용하는 데 효율성이 떨어집니다.
여기에 지정되지 않은 필드에 대해 Atlas Data Federation 쿼리를 실행 수 있지만, Atlas Data Lake 는 이러한 쿼리를 처리 데 효율성이 떨어집니다.
(선택 사항) 제외할 문서 내부의 필드를 지정합니다.
기본값 으로 Atlas Data Lake 는 컬렉션 의 문서 내의 모든 필드를 추출하고 저장합니다. 제외할 필드를 지정하려면 다음을 수행합니다.
Add Field를 클릭합니다.
Add Transformation Field Name 창 에 필드 이름을 입력합니다.
예시
(선택 사항)
movies
컬렉션 에서fullplot
이라는 필드 를 제외하려면fullplot
을 입력합니다.Done를 클릭합니다.
제외하려는 각 필드 에 대해 단계를 반복합니다. 이 목록에서 필드 를 제거 하려면 다음을 클릭합니다..
다음 단계
이제 Data Lake 파이프라인 을 만들었 으므로 데이터 세트에 대한 연합 데이터베이스 인스턴스 설정 - 미리 보기를 진행하세요.