문서 메뉴
문서 홈
/
MongoDB 매뉴얼
/

해시 샤딩

해시 샤딩은 단일 필드 해시 인덱스 또는 복합 해시 인덱스 를 샤드 키로 사용하여 샤드 클러스터에서 데이터를 분할합니다.

단일 필드 해시 인덱스의 샤딩

해시 샤딩은 대상 작업과 브로드캐스트 작업을 줄이는 대신 샤딩 클러스터 전체에 데이터를 더 균일하게 분배합니다. 포스트 해시, 'close' 샤드 키 값이 같은 청크나 샤드에 있을 가능성은 거의 없습니다 - mongos 주어진 범위 쿼리를 수행하기 위해 브로드캐스트 작업을 수행할 가능성이 더 높습니다. mongos은 단일 샤드와 동일성이 일치하는 쿼리를 대상으로 지정할 수 있습니다.

해시 기반 세분화 다이어그램.

해시된 인덱스는 단일 필드의 해시 값을 인덱스 값으로 계산합니다. 이 값은 샤드 키로 사용됩니다. [1]

복합 해시 인덱스에서 샤딩

MongoDB에는 단일 해시 필드로 복합 인덱스 생성을 지원하는 기능이 포함되어 있습니다. 복합 해시 인덱스를 생성하려면 인덱스를 생성할 때 단일 인덱스 키의 값으로 hashed를 지정하세요.

복합 해시 인덱스는 복합 인덱스에 있는 단일 필드의 해시 값을 계산합니다. 이 값은 인덱스의 다른 필드와 함께 샤드 키로 사용됩니다.

복합 해시 샤딩은 구역 샤딩과 같은 기능을 지원하며, 여기서 접두사(즉, 첫째) 해시되지 않은 필드 또는 필드는 구역 범위를 지원하는 반면 해시된 필드는 분할된 데이터의 보다 균등한 배포를 지원합니다. 복합 해시 샤딩은 단조롭게 증가하는 필드와 관련된 데이터 배포 문제를 해결하기 위해 해시 접두사가 있는 샤드 키도 지원합니다.

MongoDB는 해시된 인덱스를 사용하여 쿼리를 해결할 때 해시를 자동으로 계산합니다. 애플리케이션은 해시를 계산할 필요가 없습니다.

경고

MongoDB hashed 인덱스는 해싱 전에 부동 소수점 숫자를 64비트 정수로 자릅니다. 예를 들어 hashed 인덱스는 2.3, 2.2, 2.9 값을 포함하는 필드에 대해 동일한 값을 저장합니다. 충돌을 방지하려면 64비트 정수로 안정적으로 변환한 다음 다시 부동 소수점으로 변환할 수 없는 부동 소수점 숫자에는 hashed 인덱스를 사용하지 마십시오. MongoDB hashed 인덱스는 2 53보다 큰 부동 소수점 값을 지원하지 않습니다.

키의 해시값이 무엇인지 확인하려면 convertShardKeyToHashed()를 참조하세요.

[1] 버전 4 부터 시작됩니다.0, mongoshconvertShardKeyToHashed() 메서드를 제공합니다. 이 메서드는 해시된 인덱스와 동일한 해시 함수를 사용하며 키의 해시된 값을 확인하는 데 사용할 수 있습니다.

해시된 샤드 키로 선택한 필드는 카디널리티가 좋거나 다른 값이 많아야 합니다. 해시 키는 객체 ID 값이나 타임스탬프처럼 단조롭게 변경되는 필드가 있는 샤드 키에 이상적입니다. 기본 _id 필드에 객체 ID 값만 포함되어 있다고 가정하는 것이 좋은 예입니다.

해시 샤드 키를 사용하여 컬렉션을 샤딩하려면 컬렉션 샤딩을 참조하세요.

단조롭게 증가하는 값 X을 샤드 키로 사용하는 컬렉션이 있는 경우 범위 샤딩을 사용하면 다음과 유사한 수신 삽입 분포가 발생합니다.

샤드 키의 단조 증가 또는 감소로 인해 불량한 분할 키 배포 다이어그램
클릭하여 확대

X의 값은 항상 증가하므로 상한이 MaxKey인 청크가 대부분의 수신 쓰기를 수신합니다. 이렇게 하면 삽입 작업이 이 청크를 포함하는 단일 샤드로 제한되므로 샤딩된 클러스터에서 분산 쓰기의 이점이 줄어들거나 없어집니다.

X에서 해시된 인덱스를 사용하면 삽입 분포가 다음과 유사합니다.

해시 샤드 키 배포 다이어그램
클릭하여 확대

이제 데이터가 더욱 균등하게 분산되므로 삽입이 클러스터 전체에 효율적으로 분산됩니다.

sh.shardCollection() 메서드를 사용하여 컬렉션의 전체 네임스페이스와 샤드 키로 사용할 대상 해시 인덱스를 지정합니다.

sh.shardCollection( "database.collection", { <field> : "hashed" } )

복합 해시 인덱스에서 컬렉션을 샤드하려면 컬렉션의 전체 네임스페이스와 샤드 키로 사용할 대상 복합 해시 인덱스를 지정합니다.

sh.shardCollection(
"database.collection",
{ "fieldA" : 1, "fieldB" : 1, "fieldC" : "hashed" }
)

중요

  • MongoDB 5.0부터는 컬렉션의 샤드 키를 변경하여 컬렉션을 리샤드할 수 있습니다.

  • 기존 샤드 키에 접미사 필드나 필드를 추가해 샤드 키를 세분화할 수 있습니다.

해시된 샤드 키를 사용하여 채워진 컬렉션을 샤드하는 경우:

  • 샤딩 작업은 모든 샤드 키 값을 포함하는 초기 청크를 생성합니다.

  • 초기 청크 생성 후 밸런서는 데이터 밸런싱이 필요할 때 초기 청크의 범위를 이동합니다.

MongoDB 4.0.3부터, 샤드 수집 작업은 컬렉션에 대한 구역과 구역 범위가 정의된 경우 비어 있거나 존재하지 않는 컬렉션에 대해 초기 청크 생성 및 배포를 수행할 수 있습니다. 청크의 초기 생성 및 배포를 통해 영역 샤딩을 더 빠르게 설정할 수 있습니다. 초기 배포 후에는 밸런서가 평소대로 청크 배포를 관리합니다.

단일 필드 해시 샤드 키에 빈 컬렉션 샤딩하기
  • 비어 있거나 존재하지 않는 컬렉션에 대해 지정된 영역 및 영역 범위가 없는 경우:

    • 샤딩 작업은 샤드 키 값의 전체 범위를 포함하는 빈 청크를 생성하고 초기 청크 분산을 수행합니다. 기본적으로 이 작업은 샤드당 2개의 청크를 생성하고 클러스터 전체에 마이그레이션됩니다. numInitialChunks 옵션을 사용하여 초기 청크의 개수를 다르게 지정할 수 있습니다. 이러한 청크의 초기 생성 및 배포를 통해 샤딩을 더 빠르게 설정할 수 있습니다.

    • 초기 분배 이후에는 밸런서가 앞으로의 청크 분배를 관리합니다.

  • 비어 있거나 존재하지 않는 컬렉션에 구역 및 구역 범위를 지정한 경우(MongoDB 4.0.3부터 사용 가능),

    • 샤딩 작업은 정의된 영역 범위에 대해 빈 청크를 생성하고 샤드 키 값의 전체 범위를 포함하는 추가 청크를 생성하고, 영역 범위에 기반하여 초기 청크 분배를 수행합니다. 이러한 청크의 초기 생성 및 배포는 영역별 샤딩의 빠른 설정을 가능하게 합니다.

    • 초기 분배 이후에는 밸런서가 앞으로의 청크 분배를 관리합니다.

해시 필드 접두사가 있는 복합 해시 샤드 키의 빈 컬렉션 샤딩

복합 해시된 샤드 키의 해시된 필드를 접두사로 사용하는 경우(즉, 해시된 필드가 샤드 키의 첫 번째 필드인 경우):

  • 비어 있거나 존재하지 않는 컬렉션에 대해 구역 및 구역 범위가 지정되지 않은 경우:

    • 샤딩 작업은 샤드 키 값의 전체 범위를 포함하는 빈 청크를 생성하고 초기 청크 분산을 수행합니다. 각 분할 지점에서 해시되지 않은 모든 필드의 값은 MinKey입니다. 기본적으로 이 작업은 샤드당 2개의 청크를 생성하고 클러스터 전체에 마이그레이션됩니다. numInitialChunks 옵션을 사용하여 초기 청크의 개수를 다르게 지정할 수 있습니다. 이러한 청크의 초기 생성 및 배포를 통해 샤딩을 더 빠르게 설정할 수 있습니다.

    • 초기 분배 이후에는 밸런서가 앞으로의 청크 분배를 관리합니다.

  • 비어 있거나 존재하지 않는 컬렉션에 대해 MinKey에서 MaxKey 범위의 단일 구역이 지정되고 presplitHashedZones 옵션이 sh.shardCollection()로 지정된 경우:

    • 샤딩 작업은 정의된 영역 범위에 대한 빈 청크와 샤드 키 값의 전체 범위를 커버하기 위한 추가 청크를 생성하고 영역 범위에 따라 초기 청크 분포를 수행합니다. 이러한 청크의 초기 생성 및 배포를 통해 구역 샤딩을 더 빠르게 설정할 수 있습니다.

    • 초기 분배 이후에는 밸런서가 앞으로의 청크 분배를 관리합니다.

해시되지 않은 접두사가 있는 복합 해시 분할 키의 빈 컬렉션 샤딩

복합 해시된 샤드 키에 접두사로 해시되지 않은 필드가 하나 이상 있는 경우(즉, 해시된 필드가 샤드 키의 첫 번째 필드가 아닌 경우):

  • 비어 있거나 존재하지 않는 컬렉션에 대해 구역 및 구역 범위가 지정되지 않았고 preSplitHashedZones가 false이거나 생략된 경우, MongoDB는 컬렉션을 샤딩할 때 초기 청크 생성 또는 배포를 수행하지 않습니다.

  • 비어 있거나 존재하지 않는 컬렉션 preSplitHashedZones에 대해 지정된 구역 및 구역 범위가 없으면 sh.shardCollection() / shardCollection는 오류를 반환합니다.

  • 빈 컬렉션 또는 존재하지 않는 컬렉션에 대해 구역 및 구역 범위가 지정되고 preSplitHashedZones 옵션이 sh.shardCollection()로 지정됩니다.

    • 샤딩 작업은 정의된 구역 범위에 대한 빈 청크와 샤드 키 값의 전체 범위를 포괄하는 추가 청크를 생성합니다.

    • 샤딩 작업은 구역의 각 샤드에 동일한 수의 청크가 할당되도록 각 범위의 초기 청크를 더욱 세분화합니다.

    • 이러한 청크의 초기 생성 및 배포를 통해 구역 샤딩을 더 빠르게 설정할 수 있습니다. 초기 분배 이후에는 밸런서가 앞으로의 청크 분배를 관리합니다.

    각 구역에 대해 정의된 범위는 특정 요구 사항을 충족해야 합니다 . 요구 사항에 대한 설명과 전체 예시는 비어 있거나 존재하지 않는 컬렉션에 대한 구역 및 구역 범위 사전 정의를 참조하세요.

MongoDB 7.0.3부터 (및 6.0.12 및 5.0.22), 해시 샤드 키에 대한 인덱스를 삭제할 수 있습니다.

이렇게 하면 해시 샤드 키로 샤딩된 컬렉션에 대한 데이터 삽입 속도를 높일 수 있습니다. 또한 mongosync를 사용하면 데이터 수집 속도를 높일 수 있습니다.

자세한 내용은 해시된 샤드 키 인덱스 삭제를 참조하세요.

다음도 참조하세요.

샤드 클러스터를 배포하고 해시 샤딩을 구현하는 방법을 알아보려면 샤드 클러스터 배포를 참조하세요.

← 샤드 키 문제 해결