Docs 菜单
Docs 主页
/
MongoDB Manual
/ /

集群化集合

在此页面上

  • 收益分析
  • 行为
  • 限制
  • 设置自己的聚集索引键值
  • 示例

5.3 版本中的新增功能

集群文档将已建立索引的文档存储在与索引规范相同的 WiredTiger 文件中。与常规索引相比,将集合的文档和索引存储在同一文件中可带来存储和性能方面的优势。

聚集集合是用聚集索引创建的。聚集索引指定文档的存储顺序。

要创建聚类集合,请参阅示例

重要

向后不兼容的功能

您必须先删除集群化集合,然后才能降级到 5.3 之前的 MongoDB 版本。

与非集群化集合相比,集群化集合具有以下优点:

  • 无需二级索引即可对集群化集合进行更快的查询,例如对集群化索引键进行范围扫描和相等比较的查询。

  • 集群化集合具有较小的存储大小,这提高了查询和批量插入的性能。

  • 集群化集合可免于使用二级 TTL(生存时间)索引

    • 如果指定了 expireAfterSeconds 字段,则集群化索引也是 TTL 索引。

    • 要用作 TTL 索引,_id 字段必须是受支持的日期类型。请参阅 TTL 索引

    • 如果使用集群化索引作为 TTL 索引,可以提高文档删除性能并减少集群化集合存储大小。

  • 集群化集合在插入、更新、删除和查询方面实现了性能的进一步提升。

    • 所有集合都有 _id 索引

    • 非集群化集合将 _id 索引与文档分开存储。这需要对插入、更新和删除进行两次写入,对查询进行两次读取。

    • 集群化集合按 _id 值顺序将索引和文档存储在一起。这需要对插入、更新和删除进行两次写入,对查询进行一次读取。

集群化集合可存储按集群化索引键值排序的文档。集群化索引键必须为 { _id: 1 }

集合中只能有一个集群索引,因为文档只能按一个顺序存储。只有具有集群索引的集合才能按排序顺序存储数据。

您可以拥有聚簇索引并将二级索引添加到集群化集合中。聚簇索引与二级索引不同:

  • 只有在创建集合时才能创建集群化索引。

  • 集群化索引键与集合一起存储。collStats 命令返回的集合大小包括集群化索引大小。

从 MongoDB 6.0.7 开始,如果存在可用的集群索引,MongoDB 查询计划器会在查询计划过程中根据二级索引对该集群索引求值。当查询使用集群索引时,MongoDB 会执行有界集合扫描

在 MongoDB 6.0.7 之前,如果集群化集合上存在二级索引并且二级索引可供查询使用,则查询计划器默认选择二级索引而不是集群索引。在 MongoDB 6.1 及更早版本中,要使用集群索引,您必须提供提示,因为查询优化器不会自动选择集群索引。

集群化集合限制:

  • 集群化索引键必须为 { _id: 1 }

  • 不得将非集群化集合转换为集群化集合,反之亦然。相反,您可以:

    • 使用具有 $out 阶段或 $merge 阶段的聚合管道读取一个集合中的文档并将这些文档写入另一个集合。

    • 使用 mongodump 导出集合数据,并使用 mongorestore. 将数据导入其他集合。

  • 无法隐藏集群化索引。参见隐藏的索引。

  • 如果集群化集合有二级索引,则此集合具有更大的存储大小。这是因为与非集群化集合的二级索引相比,较大集群化索引键的集群化集合的二级索引可能具有更大的存储大小。

  • 群集群化集合可能不是固定大小集合

默认情况下,聚集索引键值是唯一的文档对象标识符

您可以设立自己的集群索引键值。键值必须遵循_id字段的标准约束。

此外,请使用以下做法来优化性能:

  • 使用顺序递增的键值来提高插入性能。

  • 将索引键设置得尽可能小。

    • 集群化索引支持大小最大为 8 MB 的键,但最好使用小得多的集群化索引键。

    • 大键会增加聚集文档及其从节点(secondary node from replica set)索引的存储大小,从而降低聚集文档性能。

警告

随机生成的键值可能会降低集群化集合的性能。

本部分显示集群化集合示例。

下面的 create 示例添加一个名为 products集群化集合

db.runCommand( {
create: "products",
clusteredIndex: { "key": { _id: 1 }, "unique": true, "name": "products clustered key" }
} )

在此示例中,clusteredIndex 将指定:

  • "key": { _id: 1 },用于按照 _id 字段设置集群索引键。

  • "unique": true,它表示聚集索引键值必须是唯一的。

  • "name": "products clustered key",设置集群索引名称。

下面的 db.createCollection() 示例添加一个名为 stocks集群化集合

db.createCollection(
"stocks",
{ clusteredIndex: { "key": { _id: 1 }, "unique": true, "name": "stocks clustered key" } }
)

在此示例中,clusteredIndex 将指定:

  • "key": { _id: 1 },用于按照 _id 字段设置集群索引键。

  • "unique": true,它表示聚集索引键值必须是唯一的。

  • "name": "stocks clustered key",设置集群索引名称。

下面的 create 示例添加了一个名为 orders 的集群化集合:

db.createCollection(
"orders",
{ clusteredIndex: { "key": { _id: 1 }, "unique": true, "name": "orders clustered key" } }
)

在此示例中,clusteredIndex 将指定:

  • "key": { _id: 1 },用于按照 _id 字段设置集群索引键。

  • "unique": true,它表示聚集索引键值必须是唯一的。

  • "name": "orders clustered key",设置集群索引名称。

以下示例将文档添加到 orders 集合:

db.orders.insertMany( [
{ _id: ISODate( "2022-03-18T12:45:20Z" ), "quantity": 50, "totalOrderPrice": 500 },
{ _id: ISODate( "2022-03-18T12:47:00Z" ), "quantity": 5, "totalOrderPrice": 50 },
{ _id: ISODate( "2022-03-18T12:50:00Z" ), "quantity": 1, "totalOrderPrice": 10 }
] )

_id clusteredIndex 密钥会存储订单日期。

如果在范围查询中使用 _id 字段,性能将得到提升。例如,以下查询使用 _id$gt 以返回日期晚于所提供日期的订单:

db.orders.find( { _id: { $gt: ISODate( "2022-03-18T12:47:00.000Z" ) } } )

示例输出:

[
{
_id: ISODate( "2022-03-18T12:50:00.000Z" ),
quantity: 1,
totalOrderPrice: 10
}
]

使用 listCollections 命令可确定集合是否集群化:

db.runCommand( { listCollections: 1 } )

对于集群化集合,您将在输出中看到 clusteredIndex 的详细信息。例如,以下输出显示了 orders 集群化集合的详细信息:

...
name: 'orders',
type: 'collection',
options: {
clusteredIndex: {
v: 2,
key: { _id: 1 },
name: 'orders clustered key',
unique: true
}
},
...

v 是索引版本。

后退

更改限制