Docs Menu

Docs Home보기 & 데이터 분석Spark 커넥터

스트리밍 모드로 MongoDB에서 읽기

이 페이지의 내용

  • 개요
  • 예제
  • API 문서

MongoDB 데이터베이스에서 스트림을 읽을 때, MongoDB Spark Connector는 마이크로 배치 처리연속 처리 를 모두 지원합니다. 기본 처리 엔진인 마이크로 배치 처리는 정확히 한 번의 내결함성을 보장하여 100밀리초의 짧은 지연 시간을 달성합니다. 연속 처리는 Spark 버전 2.3에 도입된 실험적 기능으로, 최소 한 번은 보장하면서 엔드 투 엔드 지연 시간을 1밀리초만큼 낮게 달성합니다.

연속 처리에 대해 자세히 알아보려면 Spark 문서를 참조하세요.

참고

커넥터는 MongoDB 배포의 변경 스트림에서 읽습니다. 변경 스트림에서 변경 이벤트를 생성하려면 데이터베이스에서 업데이트 작업을 수행합니다.

변경 스트림에 대해 자세히 알아보려면 MongoDB 매뉴얼에서 변경 스트림을 참조하세요.

다음 예제는 MongoDB에서 콘솔로 데이터를 스트리밍하는 방법을 보여줍니다.

중요

변경 스트림의 스키마 추론하기

change.stream.publish.full.document.only 옵션을 true 로 설정하면 Spark Connector는 스캔한 문서의 스키마를 사용하여 DataFrame 의 스키마를 추론합니다. 옵션을 false 로 설정하는 경우 스키마를 지정해야 합니다.

이 설정에 대한 자세한 내용과 change stream 구성 옵션의 전체 목록을 보려면 읽기 구성 옵션 가이드를 참조하세요.

이 예시에 사용된 유형에 대해 자세히 알아보려면 다음 Apache Spark API 문서를 참조하세요.

← 스트리밍 모드

이 페이지의 내용