해시 샤딩
해시 샤딩은 단일 필드 해시 인덱스 또는 복합 해시 인덱스를 샤드 키로 사용하여 샤딩된 클러스터에서 데이터를 분할합니다.
- 단일 필드 해시 인덱스의 샤딩
해시 샤딩은 대상 작업과 브로드캐스트 작업을 줄이는 대신 샤딩된 클러스터 전체에 데이터를 더 균일하게 분배합니다. 포스트 해시, 'close' 샤드 키 값이 같은 청크나 샤드에 있을 가능성은 거의 없습니다 -
mongos
는 주어진 범위 쿼리를 수행하기 위해 브로드캐스트 작업을 수행할 가능성이 더 높습니다.mongos
은 단일 샤드와 동등성 매치가 발생하는 쿼리를 대상으로 지정할 수 있습니다.해시된 인덱스는 단일 필드의 해시 값을 인덱스 값으로 계산합니다. 이 값은 샤드 키로 사용됩니다. [1]
- 복합 해시 인덱스에서 샤딩
MongoDB에는 단일 해시 필드로 복합 인덱스 생성을 지원하는 기능이 포함되어 있습니다. 복합 해시 인덱스를 생성하려면 인덱스를 생성할 때 단일 인덱스 키의 값으로
hashed
를 지정하세요.복합 해시 인덱스는 복합 인덱스에 있는 단일 필드의 해시 값을 계산합니다. 이 값은 인덱스의 다른 필드와 함께 샤드 키로 사용됩니다.
복합 해시 샤딩은 구역 샤딩과 같은 기능을 지원하며, 여기서 접두사(즉, 첫째) 해시되지 않은 필드 또는 필드는 구역 범위를 지원하는 반면 해시된 필드는 분할된 데이터의 보다 균등한 배포를 지원합니다. 복합 해시 샤딩은 단조롭게 증가하는 필드와 관련된 데이터 배포 문제를 해결하기 위해 해시 접두사가 있는 샤드 키도 지원합니다.
팁
MongoDB는 해시된 인덱스를 사용하여 쿼리를 해결할 때 해시를 자동으로 계산합니다. 애플리케이션은 해시를 계산할 필요가 없습니다.
경고
MongoDB hashed
인덱스는 해싱 전에 부동 소수점 숫자를 64비트 정수로 자릅니다. 예를 들어 hashed
인덱스는 2.3
, 2.2
, 2.9
값을 포함하는 필드에 대해 동일한 값을 저장합니다. 충돌을 방지하려면 64비트 정수로 안정적으로 변환한 다음 다시 부동 소수점으로 변환할 수 없는 부동 소수점 숫자에는 hashed
인덱스를 사용하지 마십시오. MongoDB hashed
인덱스는 2 53보다 큰 부동 소수점 값을 지원하지 않습니다.
키의 해시값이 무엇인지 확인하려면 convertShardKeyToHashed()
를 참조하세요.
[1] | mongosh 는 convertShardKeyToHashed() 메서드를 제공합니다. 이 메서드는 해시된 인덱스와 동일한 해시 함수를 사용하며 키의 해시된 값을 확인하는 데 사용할 수 있습니다. |
해시 샤딩 샤드 키
해시된 샤드 키로 선택한 필드는 카디널리티가 좋거나 다른 값이 많아야 합니다. 해시 키는 ObjectId 값이나 타임스탬프처럼 단조롭게 변경되는 필드가 있는 샤드 키에 이상적입니다. 기본 _id
필드에 ObjectId 값만 포함되어 있다고 가정하는 것이 좋은 예입니다.
해시 샤드 키를 사용하여 컬렉션을 샤딩하려면 컬렉션 샤딩을 참조하세요.
해시드 대 원거리 샤딩
단조롭게 증가하는 값 X
을 샤드 키로 사용하는 컬렉션이 있는 경우 범위 샤딩을 사용하면 다음과 유사한 수신 삽입 분포가 발생합니다.
X
의 값은 항상 증가 하므로 maxKey 의 상한이 있는 청크가 대부분의 수신 쓰기를 수신합니다. 이렇게 하면 삽입 작업이 이 청크를 포함하는 단일 shard로 제한되므로 sharded cluster에서 분산 쓰기의 이점이 줄어들거나 없어집니다.
X
에서 해시된 인덱스를 사용하면 삽입 분포가 다음과 유사합니다.
이제 데이터가 더욱 균등하게 분산되므로 삽입이 클러스터 전체에 효율적으로 분산됩니다.
컬렉션 샤딩
sh.shardCollection()
메서드를 사용하여 컬렉션의 전체 네임스페이스와 샤드 키로 사용할 대상 해시 인덱스를 지정합니다.
sh.shardCollection( "database.collection", { <field> : "hashed" } )
복합 해시 인덱스에서 컬렉션을 샤드하려면 컬렉션의 전체 네임스페이스와 샤드 키로 사용할 대상 복합 해시 인덱스를 지정합니다.
sh.shardCollection( "database.collection", { "fieldA" : 1, "fieldB" : 1, "fieldC" : "hashed" } )
이미 데이터가 존재하는 컬렉션 샤드하기
해시된 샤드 키를 사용하여 채워진 컬렉션을 샤드하는 경우:
샤딩 작업은 모든 샤드 키 값을 포함하는 초기 청크를 생성합니다.
초기 청크 생성 후 밸런서는 데이터 밸런싱이 필요할 때 초기 청크의 범위를 이동합니다.
빈 컬렉션 샤드하기
샤드 컬렉션 작업은 컬렉션에 대해 영역과 영역 범위가 정의된 경우 비어 있거나 존재하지 않는 컬렉션에 대해 초기 청크 생성 및 배포를 수행할 수 있습니다. 초기 생성 및 청크 배포는 영역별 샤딩의 빠른 설정을 가능하게 합니다. 초기 배포 후에는 밸런서가 평소대로 청크 배포를 관리합니다.
- 단일 필드 해시 샤드 키에 빈 컬렉션 샤딩하기
비어 있거나 존재하지 않는 컬렉션에 대해 지정된 영역 및 영역 범위가 없는 경우:
샤딩 작업은 샤드 키 값의 전체 범위를 포함하는 빈 청크를 생성하고 초기 청크 분산을 수행합니다. 기본적으로 이 작업은 샤드당 2개의 청크를 생성하고 클러스터 전체에 마이그레이션됩니다.
numInitialChunks
옵션을 사용하여 초기 청크의 개수를 다르게 지정할 수 있습니다. 이러한 청크의 초기 생성 및 배포를 통해 샤딩을 더 빠르게 설정할 수 있습니다.초기 분배 이후에는 밸런서가 앞으로의 청크 분배를 관리합니다.
비어 있거나 존재하지 않는 collection에 대해 구역 및 구역 범위 가 지정된 경우(MongoDB 4.0.3부터 사용 가능):
샤딩 작업은 정의된 영역 범위에 대해 빈 청크를 생성하고 샤드 키 값의 전체 범위를 포함하는 추가 청크를 생성하고, 영역 범위에 기반하여 초기 청크 분배를 수행합니다. 이러한 청크의 초기 생성 및 배포는 영역별 샤딩의 빠른 설정을 가능하게 합니다.
초기 분배 이후에는 밸런서가 앞으로의 청크 분배를 관리합니다.
- 해시 필드 접두사가 있는 복합 해시 샤드 키의 빈 컬렉션 샤딩
복합 해시된 샤드 키의 해시된 필드를 접두사로 사용하는 경우(즉, 해시된 필드가 샤드 키의 첫 번째 필드인 경우):
비어 있거나 존재하지 않는 컬렉션에 대해 지정된 영역 및 영역 범위가 없는 경우:
샤딩 작업은 샤드 키 값의 전체 범위를 포함하는 빈 청크를 생성하고 초기 청크 분산을 수행합니다. 각 분할 점에서 해시되지 않은 모든 필드의 값은
MinKey
입니다. 기본적으로 이 작업은 샤드당 2개의 청크를 생성하고 cluster 전체에 마이그레이션됩니다.numInitialChunks
옵션을 사용하여 초기 청크의 개수를 다르게 지정할 수 있습니다. 이러한 청크의 초기 생성 및 배포를 통해 샤딩을 더 빠르게 설정할 수 있습니다.초기 분배 이후에는 밸런서가 앞으로의 청크 분배를 관리합니다.
비어 있거나 존재하지 않는 collection 에 ~ 범위의 단일 구역 이
MinKey
MaxKey
지정되고 에presplitHashedZones
옵션이 지정된sh.shardCollection()
경우샤딩 작업은 정의된 영역 범위에 대한 빈 청크와 샤드 키 값의 전체 범위를 커버하기 위한 추가 청크를 생성하고 영역 범위에 따라 초기 청크 분포를 수행합니다. 이러한 청크의 초기 생성 및 배포를 통해 구역 샤딩을 더 빠르게 설정할 수 있습니다.
초기 분배 이후에는 밸런서가 앞으로의 청크 분배를 관리합니다.
- 해시되지 않은 접두사가 있는 복합 해시 분할 키의 빈 컬렉션 샤딩
복합 해시된 샤드 키에 접두사로 해시되지 않은 필드가 하나 이상 있는 경우(즉, 해시된 필드가 샤드 키의 첫 번째 필드가 아닌 경우):
비어 있거나 존재하지 않는 컬렉션에 대해 구역 및 구역 범위 가 지정되지 않았고 preSplitHashedZones 가
false
이거나 생략된 경우, MongoDB는 컬렉션을 샤딩할 때 초기 청크 생성 또는 배포를 수행하지 않습니다.비어 있거나 존재하지 않는 컬렉션 과 preSplitHashedZones 에 대해 구역 및 구역 범위 를 지정하지 않으면
sh.shardCollection()
/shardCollection
가 오류를 반환합니다.비어 있거나 존재하지 않는 collection에 대해 구역 및 구역 범위 가 지정 되고 preSplitHashedZones 옵션이
sh.shardCollection()
로 지정된 경우:샤딩 작업은 정의된 구역 범위에 대한 빈 청크와 샤드 키 값의 전체 범위를 포괄하는 추가 청크를 생성합니다.
샤딩 작업은 구역의 각 샤드에 동일한 수의 청크가 할당되도록 각 범위의 초기 청크를 더욱 세분화합니다.
이러한 청크의 초기 생성 및 배포를 통해 구역 샤딩을 더 빠르게 설정할 수 있습니다. 초기 분배 이후에는 밸런서가 앞으로의 청크 분배를 관리합니다.
각 구역에 대해 정의된 범위는 특정 요구 사항을 충족해야 합니다 . 요구 사항에 대한 설명과 전체 예시는 비어 있거나 존재하지 않는 컬렉션에 대한 구역 및 구역 범위 사전 정의를 참조하세요.
해시 샤드 키 인덱스 제거
MongoDB 6.0.12(및 5.0.22)부터 해시 샤드 키의 인덱스를 삭제할 수 있습니다.
이렇게 하면 해시 샤드 키로 샤딩된 컬렉션에 대한 데이터 삽입 속도를 높일 수 있습니다. 또한 mongosync
를 사용하면 데이터 수집 속도를 높일 수 있습니다.
자세한 내용은 해시된 샤드 키 인덱스 제거를 참조하세요.