Docs 菜单
Docs 主页
/
MongoDB Manual
/ /

按位置细分数据

在此页面上

  • Scenario
  • 步骤

在分片的集群中,您可以根据分 分片键 创建分分片的数据的 区域 。您可以将每个区域与集群中的一个或多个分片相关联。 一个分分片可以与任意数量的区域关联。 在均衡集群中, MongoDB仅将区域覆盖的数据段迁移到与该区域关联的分片。

提示

通过对空集合或不存在的集合进行分片之前定义区域和区域范围,分片集合操作会为定义的区域范围创建数据块以及任何其他数据块,以覆盖分片键值的整个范围,并执行基于区域范围的初始数据块分配。数据块的初始创建和分布可以更快地设置区域分片。在初始分布之后,负载均衡器将管理未来的数据段分布。

有关示例,请参阅为空集合或不存在的集合预先定义区域和区域范围

本教程使用分区,根据地理区域对数据进行分段。

以下是按地理区域分割数据的一些示例使用案例:

  • 必须按国家对用户数据进行分段的应用程序

  • 必须按国家/地区分配资源的数据库

下图展示了一个使用地理区域来管理和满足数据分段要求的分片集群。

基于区域的地理分布图

财务相关聊天应用程序记录消息,跟踪原始用户所在的国家/地区。 应用程序将日志存储在messages集合下的chat数据库中。聊天包含的信息必须按国家/地区分段,以便该国家/地区本地服务器为该国家/地区的用户提供读写请求。一组国家/地区可以分配相同的区域以共享资源。

该应用程序目前在美国、英国和德国拥有用户。 country字段根据其 ISO3166 -1 Alpha-2 表示用户所在的国家/地区 两个字符的国家/地区代码。

以下文档表示三条聊天消息的部分视图:

{
"_id" : ObjectId("56f08c447fe58b2e96f595fa"),
"country" : "US",
"userid" : 123,
"message" : "Hello there",
...,
}
{
"_id" : ObjectId("56f08c447fe58b2e96f595fb"),
"country" : "UK",
"userid" : 456,
"message" : "Good Morning"
...,
}
{
"_id" : ObjectId("56f08c447fe58b2e96f595fc"),
"country" : "DE",
"userid" : 789,
"message" : "Guten Tag"
...,
}

messages 集合使用 { country : 1, userid : 1 } 复合索引作为分片键。

每个文档中的 country 字段允许为每个不同的国家/地区值创建一个区域。

userid 字段为分片键提供相对于 country 的高关联基数和低分量。

有关选择分片键的更多一般说明,请参阅选择分片键。

分片集群在两个数据中心拥有分片,一个数据中心位于欧洲,另一个位于北美。

用于支持地理分布架构的区域图

该应用程序需要为每个数据中心提供一个区域。

EU - 欧洲数据中心

在此数据中心部署的分片将分配到EU区域。

对于使用 EU 数据中心进行本地读写的每个国家/地区,请使用以下命令为 EU 区域创建区域范围:

  • 下限 { "country" : <country>, "userid" : MinKey }

  • 上限 { "country" : <country>, "userid" : MaxKey }

NA - 北美数据中心

在此数据中心部署的分片将分配到NA区域。

对于使用 NA 数据中心进行本地读写的每个国家/地区,请使用以下命令为 NA 区域创建区域范围:

  • 下限 { "country" : <country>, "userid" : MinKey }

  • 上限 { "country" : <country>, "userid" : MaxKey }

注意

MinKeyMaxKey 特殊值保留用于比较

对于区域,如果插入或更新的文档与配置的区域匹配,则只能将其写入该区域内的分片。

MongoDB 可以将与已配置区域不匹配的文档写入集群中的任何分片。

注意

上述行为要求集群处于稳定状态,没有任何数据块违反已配置的分区。有关更多信息,请参阅以下有关均衡器的部分。

如果查询至少包含 country 字段,MongoDB 可以将查询路由到特定分片。

例如,MongoDB 可以尝试对以下查询执行针对性的读取操作

chatDB = db.getSiblingDB("chat")
chatDB.messages.find( { "country" : "UK" , "userid" : "123" } )

不带 country 字段的查询执行广播操作。

负载均衡器会根据任何已配置区域将数据段迁移到相应的分片。在迁移之前,分片可能包含违反已配置区域的数据段。平衡完成后,分片应仅包含其范围不违反分配区域的数据段。

添加或删除区域或区域范围可能会导致数据段迁移。根据数据集的大小以及区域或区域范围影响的数据段数量,这些迁移可能会影响集群性能。考虑在特定的计划窗口运行负载均衡器。有关如何设置计划窗口的教程,请参阅计划平衡窗口

对于在自管理部署中使用基于角色的访问控制运行的分分片的集群,请以至少在admin数据库上具有clusterManager角色的用户身份进行身份验证。

必须连接到 mongos 才能创建区域和区段范围。不能通过直接连接到分片来创建区域或区域范围。

1

为了减少性能影响,可在集合上禁用均衡器,确保在配置新分区时不发生迁移。

使用 sh.disableBalancing(),指定集合的命名空间,停止均衡器。

sh.disableBalancing("chat.message")

使用 sh.isBalancerRunning() 检查负载均衡器进程是否正在运行。等待当前所有平衡轮次完成后再继续。

2

将北美数据中心中的每个分片添加到 NA 分区。

sh.addShardTag(<shard name>, "NA")

将欧洲数据中心中的每个分片添加到 EU 区域。

sh.addShardTag(<shard name>, "EU")

可以通过运行 sh.status() 来查看分配给任何给定分片的区域。

3

对于 country : US 的分片键值,定义分片键范围,并使用 sh.addTagRange() 方法将其与 NA 分区关联。此方法需要:

  • 目标集合的完整命名空间。

  • 范围的下限(包含在内)。

  • 范围的独占上限。

  • 区域的名称。

sh.addTagRange(
"chat.messages",
{ "country" : "US", "userid" : MinKey },
{ "country" : "US", "userid" : MaxKey },
"NA"
)

对于 country : UK 的分片键值,定义分片键范围,并使用 sh.addTagRange() 方法将其与 EU 分区关联。此方法需要:

  • 目标集合的完整命名空间。

  • 范围的下限(包含在内)。

  • 范围的独占上限。

  • 区域的名称。

sh.addTagRange(
"chat.messages",
{ "country" : "UK", "userid" : MinKey },
{ "country" : "UK", "userid" : MaxKey },
"EU"
)

对于 country : DE 的分片键值,定义分片键范围,并使用 sh.addTagRange() 方法将其与 EU 分区关联。此方法需要:

  • 目标集合的完整命名空间。

  • 范围的下限(包含在内)。

  • 范围的独占上限。

  • 区域的名称。

sh.addTagRange(
"chat.messages",
{ "country" : "DE", "userid" : MinKey },
{ "country" : "DE", "userid" : MaxKey },
"EU"
)

MinKeyMaxKey 特殊值保留用于比较。MinKey 总是比其他所有可能的值都低,而 MaxKey 总是比其他所有可能的值都高。配置的范围捕获每个 device 的每个用户。

country : UKcountry : DE 都分配给 EU 分区。这将把任何以 UKDE 作为 country 值的文档关联到欧盟数据中心。

4

如果在之前的步骤中停用了负载均衡器,请在完成此步骤后重新启用负载均衡器,以重新均衡集群。

使用 sh.enableBalancing(),指定集合的命名空间,启动负载均衡器。

sh.enableBalancing("chat.message")

使用 sh.isBalancerRunning() 检查负载均衡器进程是否正在运行。

5

下次负载均衡器运行时,它会在必要时分割数据段,并根据配置的区域在分片之间迁移数据段。

均衡完成后:

  • NA 区域中的分片应仅包含带有 country : US 的文档,并且

  • EU 区域中的分片应仅包含带有 country : UKcountry : DE 的文档。

带有 country值(除USUKDE之外)的文档可以驻留在集群的任何分片上。

要确认数据段的分布,请运行 sh.status()

该应用程序需要以下更新:

  • 带有 country : UK 的文档必须与新的 UK 数据中心关联。必须迁移 EU 数据中心中的所有数据

  • 聊天应用程序目前已对墨西哥用户提供支持。带有 country : MX 的文档必须路由到 NA 数据中心。

执行以下步骤以更新区域范围。

1

为了减少性能影响,可在集合上禁用均衡器,确保在配置新分区或删除旧分区时不发生迁移。

使用 sh.disableBalancing(),同时指定集合的命名空间,以停止负载均衡器

sh.disableBalancing("chat.messages")

使用 sh.isBalancerRunning() 检查负载均衡器进程是否正在运行。等待当前所有平衡轮次完成后再继续。

2

UK 数据中心中的每个分片添加到 UK 分区。

sh.addShardTag("<shard name>", "UK")

可以通过运行 sh.status() 来查看分配给任何给定分片的区域。

3

使用 sh.removeTagRange() 方法删除与 UK 国家关联的旧区域范围。此方法需要:

  • 目标集合的完整命名空间。

  • 范围的下限(包含在内)。

  • 范围的独占上限。

sh.removeTagRange(
"chat.messages",
{ "country" : "UK", "userid" : MinKey },
{ "country" : "UK", "userid" : MaxKey }
)
4

对于 country : UK 的分片键值,定义分片键范围,并使用 sh.addTagRange() 方法将其与 UK 分区关联。此方法需要:

  • 目标集合的完整命名空间。

  • 范围的下限(包含在内)。

  • 范围的独占上限。

  • 区域的名称。

sh.addTagRange(
"chat.message",
{ "country" : "UK", "userid" : MinKey },
{ "country" : "UK", "userid" : MaxKey },
"UK"
)

对于 country : MX 的分片键值,定义分片键范围,并使用 sh.addTagRange() 方法将其与 NA 分区关联。此方法需要:

  • 目标集合的完整命名空间。

  • 范围的下限(包含在内)。

  • 范围的独占上限。

  • 区域的名称。

sh.addTagRange(
"chat.messages",
{ "country" : "MX", "userid" : MinKey },
{ "country" : "MX", "userid" : MaxKey },
"NA"
)

MinKeyMaxKey 特殊值保留用于比较。MinKey 总是比其他所有可能的值都低,而 MaxKey 总是比其他所有可能的值都高。确保这两个范围涵盖了 userid 的整个可能值空间。

5

如果在之前的步骤中停用了负载均衡器,请在完成此步骤后重新启用负载均衡器,以重新均衡集群。

使用 sh.enableBalancing(),同时指定集合的命名空间,以启动负载均衡器

sh.enableBalancing("chat.messages")

使用 sh.isBalancerRunning() 检查负载均衡器进程是否正在运行。

6

下次负载均衡器运行时,它会在必要时分割数据段,并根据配置的区域在分片之间迁移数据段。

均衡之前:

  • EU 区域中的分片仅包含 country : DEcountry : UK 的文档,以及

  • 指定 country : MX 的文档可以存储在分片集群中的任何分片上。

平衡后:

  • EU 区域中的分片仅包含指定 country : DE 的文档;

  • UK 区域中的分片仅包含 country : UK 文档,并且

  • NA 区域中的分片仅包含指定 country : UScountry : MX 的文档。

带有 country值(除USMXUKDE之外)的文档可以驻留在集群的任何分片上。

要确认数据段的分布,请运行 sh.status()

提示

另请参阅:

后退

管理

在此页面上