Atlas Stream Processing

Atlas Stream Processing을 사용하면 Atlas 데이터베이스에서 사용되는 동일한 집계 작업을 사용하여 복잡한 데이터 스트림을 읽고, 쓰고, 변환할 수 있습니다. Atlas Stream Processing을 사용하면 다음이 가능합니다.

스트리밍 데이터에서 지속적으로 작동하도록 집계 파이프라인 을 빌드합니다.
지속적인 유효성 검사 수행하여 메시지 형식이 올바른지 확인하고, 메시지 손상을 감지하고, 늦게 도착하는 데이터를 감지합니다.
문서가 파이프라인을 통과할 때 필드를 변환하고 각 문서 의 필드나 표현식을 키로 사용하여 해당 문서를 별개의 데이터베이스, Kafka 주제 또는 기타 외부 싱크로 라우팅합니다.
결과를 Atlas 컬렉션 또는 Apache Kafka 클러스터에 지속적으로 게시하여 데이터에 대한 최신 보기와 분석을 보장합니다.

Atlas Stream Processing 구성 요소는 Atlas 프로젝트에 직접 속하며 Atlas 클러스터와 독립적으로 작동합니다.

참고

Atlas Stream Processing은 MongoDB 변경 스트림을 넘어서는 확장된 기능을 제공하며, Kafka, 외부 API 및 클라우드 저장과 같은 다양한 소스에서 복잡한 데이터 스트림을 처리하고 여러 데이터 이벤트 유형을 관리합니다. 변경 스트림이 데이터베이스 이벤트로 제한되는 것과 달리, Atlas Stream Processing은 Atlas 데이터베이스에서 사용되는 동일한 쿼리 API를 사용하여 포괄적인 스트림 처리 워크플로를 지원합니다.

Stream Processing Workspace 구성

Atlas Stream Processing 시작하려면 먼저 Stream Processing Workspace를 구성해야 합니다. 여기에는 스트리밍 데이터 처리 시작하기 위해 Atlas Stream Processing Workspace를 생성, 수정 및 삭제 방법을 배우는 것이 포함됩니다.

Streaming Data

스트림 하나 이상의 소스에서 발생하는 변경할 수 없는 데이터의 지속적인 흐름입니다. 데이터 스트림의 예로는 센서의 온도 또는 압력 판독값, 금융 거래 기록, 변경 데이터 캡처 이벤트 등이 있습니다.

데이터 스트림 은 Apache Kafka 주제 또는 MongoDB 변경 스트림과 같은 소스에서 시작됩니다. 그런 다음 Apache Kafka 주제, Atlas 컬렉션, 외부 함수 또는 cloud 데이터 저장소를 포함한 싱크에 처리된 데이터를 쓰기 (write) 수 있습니다.

Atlas Stream Processing 미사용 데이터베이스 의 시간과 계산상의 제약 없이 연속 데이터를 처리할 수 있는 네이티브 Stream Processing 기능을 제공합니다.

스트림 프로세서의 구조

스트림 프로세서는 개념적으로 세 단계로 나눌 수 있는 파이프라인 형태를 취합니다. 이 구조를 이해하면 스트리밍 데이터를 지속적으로 처리할 수 있는 스트림 프로세서를 생성하고 관리할 수 있습니다.

출처

스트림 프로세서는 먼저 Atlas Stream Processing 연결된 스트리밍 데이터 소스에서 문서를 수집합니다. 여기에는 Apache Kafka와 같은 브로커 시스템 또는 Atlas 읽기/ 쓰기 (write) 작업에서 생성된 것과 같은 데이터베이스 변경 스트림이 포함될 수 있습니다. 이러한 입력은 유효한 json 또는 ejson 문서여야 합니다. $source 단계에서 문서 수집하면 해당 문서에 MongoDB 집계 적용 필요에 따라 변환할 수 있습니다.

스트리밍 소스에서 데이터를 수집하는 것 외에도, Atlas Stream Processing 연결된 Atlas cluster의 데이터를 결합하기 위한 HTTPS requests 및 $lookup 작업의 데이터로 문서를 보강하는 기능도 지원합니다.

파이프라인

스트림 프로세서는 표준 MongoDB 집계 연산자 및 단계 외에도 집계 파이프라인 단계와 집계 연산자를 활용하여 수집된 데이터를 변환하고 귀중한 집계 연산자 및 단계 인사이트를 추출합니다. Atlas Stream Processing 집계 파이프라인에 대해 알아보려면 집계 파이프라인 설명서를 참조하세요. Atlas Stream Processing은 처리할 수 없는 문서를 데드 레터 큐에 기록할 수 있습니다.

문서를 구조 조정하고, 필드를 추가 또는 제거하고, 컬렉션에서 정보를 조회하는 등 문서를 보강할 수 있습니다. 또한 Atlas Stream Processing 사용하면 Windows 사용하여 이벤트를 수집하고 임의의 함수를 실행할 수 있습니다.

Windows

Windows 설정하다 기간 내에 스트리밍 데이터를 집계하는 파이프라인 단계입니다. 이를 통해 데이터를 그룹 , 평균을 구하고, 최소값과 최대값을 찾고, 그렇지 않으면 스트리밍 데이터에 적용할 수 없는 다양한 기타 작업을 수행할 수 있습니다. 각 스트림 프로세서에는 하나의 창 단계만 있을 수 있습니다.

함수

Atlas Stream Processing 스트림 프로세스가 전달한 각 문서에 대해 실행 사용자 지정 JavaScript 함수 또는 Amazon Web Services Lambda 함수 에 대한 호출을 지원합니다.

싱크

수집된 데이터를 처리 후 스트림 프로세서는 데이터를 싱크에 계속 기록합니다. Atlas Stream Processing 다양한 싱크 유형에 쓰기 위한 $emit 및 $merge 단계를 제공합니다. 이러한 단계는 상호 배타적이며 각 스트림 프로세서는 싱크 단계를 하나만 가질 수 있습니다. 파이프라인 에는 동일한 싱크 연결 내의 다양한 Kafka 주제 또는 Atlas 컬렉션에 처리된 문서 쓰기 (write) 로직이 포함될 수 있습니다.

Atlas Stream Processing 리전

Atlas Stream Processing은 AWS, Azure, 및 Google Cloud에서 스트림 처리 작업 공간 생성을 지원합니다. 사용 가능한 리전 목록은 Stream Processing Worspaces 섹션을 참조하세요.

Amazon Web Services 기능 참조.
Microsoft Azure 기능 참조.
Google Cloud Platform 기능 참조입니다.

스트림 프로세서는 다른 cloud 제공자 또는 다른 리전에 호스팅된 클러스터에서 읽고 쓰기 (write) 수 있습니다.

청구

청구에 대한 자세한 내용은 Atlas Stream Processing 청구 페이지를 참조하세요.

다음 단계

Atlas Stream Processing 직접 사용해 보려면 Get Started with Atlas Stream Processing참조하세요.

핵심 Atlas Stream Processing 개념에 대한 자세한 내용은 다음을 참조하세요.

Atlas Stream Processing의 특정 제한 사항을 알아보세요.

시작하기