문서 메뉴
문서 홈
/
MongoDB 매뉴얼
/ /

샤드 키 선택

이 페이지의 내용

  • 샤드 키 카디널리티
  • Shard Key Frequency
  • 단조롭게 변경되는 샤드 키
  • 쿼리 패턴 샤딩
  • 7.0에서 샤드 키 분석기를 사용하여 샤드 키 찾기
  • 쿼리 샘플링 활성화
  • 샤드 키 분석 명령

샤드 키 선택은 사용 가능한 샤드 전체에 걸쳐 청크 의 생성 및 배포에 영향을 줍니다. 데이터 분포는 샤드 클러스터 내 작업의 효율성과 성능에 영향을 미칩니다.

이상적인 샤드 키를 사용하면 MongoDB가 클러스터 전체에 문서를 고르게 분산하는 동시에 일반적인 쿼리 패턴을 용이하게 할 수 있습니다.

샤드 키를 선택할 때는 다음 사항을 고려하세요:

참고

샤드 키의 카디널리티는 밸런서가 생성할 수 있는 최대 청크 수를 결정합니다. 가능하면 카디널리티가 높은 샤드 키를 선택하세요. 카디널리티가 낮은 샤드 키는 클러스터의 수평 규모 조정 효과를 감소시킵니다.

각각의 고유한 샤드 키 값은 특정 시점에 단일 청크에만 존재할 수 있습니다. 필드가 continent인 사용자 데이터가 포함된 데이터 집합을 생각해 보겠습니다. continent에서 샤딩하도록 선택한 경우 샤드 키의 카디널리티는 7. 카디널리티가 7 이면 샤딩된 클러스터 내에 7 개 이상의 청크가 있을 수 없으며, 각 청크는 하나의 고유한 샤드 키 값을 저장할 수 있습니다. 이렇게 하면 클러스터의 유효 샤드 수도 7 개로 제한되며, 샤드를 7개 이상 추가해도 아무런 이점이 없습니다.

다음 이미지는 X 필드를 분할 키로 사용하는 분할된 클러스터를 보여줍니다. X 의 카디널리티가 낮은 경우 삽입 분포는 다음과 유사할 수 있습니다.

낮은 카디널리티로 인한 불량한 샤드 키 분배 다이어그램
클릭하여 확대

데이터 모델에서 카디널리티가 낮은 키에 샤딩이 필요한 경우 인덱싱된 필드 조합을 사용하여 카디널리티를 높이는 것이 좋습니다.

카디널리티가 높은 샤드 키는 그 자체로 샤딩된 클러스터 전체에 데이터의 균일한 배포를 보장하지 않습니다. 샤드 키의 빈도와 샤드 키 값이 단조롭게 변경될 가능성도 데이터 분포에 영향을 미칩니다.

분할 키의 frequency 는 지정된 분할 키 값이 데이터에서 발생하는 빈도를 나타냅니다. 문서 대다수가 가능한 샤드 키 값의 일부만 포함하는 경우 해당 값이 포함된 문서를 저장하는 청크가 클러스터 내에서 병목 현상을 일으킬 수 있습니다. 또한 이러한 덩어리가 커지면 더 이상 분할할 수 없어 분할 불가능한 덩어리가 될 수도 있습니다. 이렇게 하면 클러스터 내에서 수평적 크기 조정의 효율성이 감소합니다.

다음 이미지는 X 필드를 분할 키로 사용하는 분할된 클러스터를 보여줍니다. X 값의 하위 집합이 높은 빈도로 발생하는 경우 삽입 분포는 다음과 유사할 수 있습니다.

높은 빈도로 인해 샤드 키 분포가 좋지 않은 다이어그램
클릭하여 확대

데이터 모델에 높은 빈도의 값을 갖는 키에 대한 샤딩이 필요한 경우, 고유하거나 낮은 빈도의 값을 사용하는 복합 인덱스를 사용하는 것이 좋습니다.

빈도가 낮은 샤드 키는 그 자체로 샤딩된 클러스터 전체에 데이터의 균일한 배포를 보장하지 않습니다. 샤드 키의 카디널리티와 샤드 키 값이 단조롭게 변경될 가능성도 데이터 분포에 영향을 미칩니다.

단조롭게 증가하거나 감소하는 값의 샤드 키는 클러스터 내 단일 청크에 삽입물을 분산시킬 가능성이 높습니다.

이는 모든 클러스터에 상한이 MaxKey 범위를 캡처하는 청크가 있기 때문에 발생합니다. maxKey 은 항상 다른 모든 값보다 높은 값으로 비교됩니다. 마찬가지로, 하한이 MinKey인 범위를 캡처하는 청크가 있습니다. minKey 은 항상 다른 모든 값보다 낮은 값으로 비교됩니다.

샤드 키 값이 항상 증가하는 경우 모든 새 삽입은 maxKey 상한으로 사용하여 청크로 라우팅됩니다. 샤드 키 값이 항상 감소하는 경우 모든 새 삽입은 하한이 minKey 인 청크로 라우팅됩니다. 해당 청크가 포함된 샤드는 쓰기 작업의 병목 현상이 됩니다.

데이터 배포를 최적화하기 위해 전역 maxKey (또는 minKey)을 포함하는 청크는 동일한 샤드에 유지되지 않습니다. 청크가 분할되면 maxKey (또는 minKey) 청크가 있는 새 청크가 다른 샤드에 위치합니다.

다음 이미지는 X 필드를 분할 키로 사용하는 분할된 클러스터를 보여줍니다. X 의 값이 단조 증가하는 경우 삽입 분포는 다음과 유사할 수 있습니다.

샤드 키의 단조 증가 또는 감소로 인해 불량한 분할 키 배포 다이어그램
클릭하여 확대

샤드 키 값이 단조롭게 감소하는 경우 모든 삽입이 대신 Chunk A로 라우팅됩니다.

데이터 모델에 단조롭게 변경되는 키에 대한 샤딩이 필요한 경우, 해시 샤딩을사용하는 것이 좋습니다.

단조롭게 변경되지 않는 샤드 키는 그 자체로는 샤딩된 클러스터 전체에 균일한 데이터 분배를 보장하지 않습니다. 샤드 키의 카디널리티와 빈도도 데이터의 분포에 영향을 미칩니다.

이상적인 분할 키는 분할된 클러스터 전체에 데이터를 고르게 분산하는 동시에 일반적인 쿼리 패턴을 촉진합니다. 분할 키를 선택할 때 가장 일반적인 쿼리 패턴과 지정된 분할 키가 해당 패턴을 다루는지 여부를 고려하세요.

샤딩된 클러스터에서 mongos는 쿼리에 샤드 키가 포함된 경우 관련 데이터가 포함된 샤드로만 쿼리를 라우팅합니다. 쿼리에 샤드 키가 포함되어 있지 않으면 쿼리는 평가를 위해 모든 샤드에 브로드캐스트됩니다. 이러한 유형의 쿼리를 분산 수집 쿼리라고 합니다. 각 요청에 대해 여러 개의 샤드를 포함하는 쿼리는 효율성이 떨어지며 클러스터에 더 많은 샤드가 추가될 때 선형적으로 확장되지 않습니다.

이는 대량의 데이터에 대해 작동하는 집계 쿼리에는 적용되지 않습니다. 이러한 경우 분산 수집은 쿼리가 모든 샤드에서 병렬로 실행될 수 있도록 하는 유용한 접근 방식이 될 수 있습니다.

7.0부터 MongoDB를 사용하면 샤드 키를 더 쉽게 선택할 수 있습니다. analyzeShardKey를 사용하여 샤딩되지 않은 컬렉션 또는 샤딩된 컬렉션의 샤드 키를 평가하기 위한 지표를 계산할 수 있습니다. 지표는 샘플링된 쿼리를 기반으로 하므로 샤드 키를 데이터 기반으로 선택할 수 있습니다.

샤드 키를 분석하려면 대상 컬렉션에서 쿼리 샘플링을 활성화해야 합니다. 자세한 내용은 다음을 참조하세요.

쿼리 샘플링 프로세스를 모니터링하려면 $currentOp 단계를 사용하세요. 예시는 샘플링된 쿼리를 참조하세요.

샤드 키를 분석하려면 다음을 참조하세요.

analyzeShardKey (은)는 샤드 키의 주요 특성과 읽기 및 쓰기 분포에 대한 지표를 반환합니다. 이 지표는 샘플링된 쿼리를 기반으로 합니다.

  • keyCharacteristics 필드에는 샤드 키의 카디널리티, 빈도, 단조성 에 대한 지표가 포함됩니다.

  • readWriteDistribution 필드에는 쿼리 라우팅 패턴 및 샤드 키 범위의 부하 분산에 대한 지표가 포함됩니다.

다음도 참조하세요.

← Collection 샤드