Docs 主页 → 开发应用程序 → Python 驱动程序 → pymongo
数据库和集合
Overview
在本指南中,您可以了解如何通过 PyMongo 使用 MongoDB 数据库和集合。
MongoDB 将数据组织成以下级别的层次结构:
数据库:MongoDB 实例中数据组织的顶层。
集合:MongoDB 将文档存储在集合中。 它们类似于关系数据库中的表。
文档:包含字面数据,例如string 、数字、日期和其他嵌入式文档。
有关文档字段类型和结构的更多信息,请参阅 MongoDB Server 手册中的 文档指南。
访问数据库
对 MongoClient
实例使用字典式访问权限来访问数据库。
以下示例访问名为“test_database”的数据库:
database = client["test_database"]
访问集合
通过对数据库实例使用字典式访问来访问集合。
以下示例访问名为“test_collection”的集合:
database = client["test_database"] collection = database["test_collection"]
提示
如果提供的集合名称在数据库中尚不存在,则当您首次向其中插入数据时,MongoDB 会隐式创建该集合。
创建集合
使用 create_collection()
方法在MongoDB database中显式创建集合。
以下示例创建了一个名为"example_collection"
的collection:
database = client["test_database"] database.create_collection("example_collection")
您可以通过将集合选项(例如最大大小和文档验证规则)作为关键字参数传递来指定这些选项。 有关可选参数的完整列表,请参阅 create_collection() API 文档。
获取集合列表
您可以通过调用list_collections()
方法来查询数据库中的集合列表。 该方法返回一个游标,其中包含数据库中的所有集合及其关联的元数据。
以下示例调用list_collections()
方法并对游标进行迭代以打印结果:
collection_list = database.list_collections() for c in collection_list: print(c)
要仅查询数据库中集合的名称,请调用list_collection_name()
方法,如下所示:
collection_list = database.list_collection_names() for c in collection_list: print(c)
有关迭代游标的更多信息,请参阅从游标访问数据。
删除集合
您可以使用drop_collection()
方法从数据库中删除集合。
以下示例删除test_collection
集合:
collection = database["test_collection"]; collection.drop();
警告
删除集合会删除该集合中的所有数据
从数据库中删除集合会永久删除该集合中的所有文档和所有索引。
仅当不再需要集合中的数据时才删除集合。
配置读取和写入操作
您可以通过设置读取偏好来控制驱动程序路由读取操作的方式。 您还可以通过设置读关注和写关注来控制驱动程序如何等待副本集上读写操作确认的选项。
默认情况下,数据库从MongoClient
实例继承这些设置,集合从数据库继承这些设置。 但是,您可以使用以下方法之一更改数据库或集合的这些设置:
get_database()
:获取数据库并应用客户端的读取偏好、读关注和写入偏好。database.with_options()
:获取数据库并应用其当前的读取偏好、读关注和写入偏好。get_collection()
:获取集合并应用其当前的读取偏好、读关注和写入偏好。collection.with_options()
:获取集合并应用数据库的读取偏好、读关注和写入偏好。
若要使用上述方法更改读取或写入设置,请调用该方法并传入集合或数据库名称以及新的读取偏好、读关注或写入偏好。
以下示例展示了如何使用get_database()
方法更改名为test-database
的数据库的读取偏好、读关注和写入偏好:
client.get_database("test-database", read_preference=ReadPreference.SECONDARY, read_concern="local", write_concern="majority")
以下示例展示了如何使用get_collection()
方法更改名为test-collection
的集合的读取和写入设置:
database.get_collection("test-collection", read_preference=ReadPreference.SECONDARY, read_concern="local", write_concern="majority")
以下示例展示了如何使用with_options()
方法更改名为test-collection
的集合的读取和写入设置:
collection.with_options(read_preference=ReadPreference.SECONDARY, read_concern="local", write_concern="majority")
提示
要查看ReadPreference
枚举中可用的读取偏好类型,请参阅 API 文档。
要了解有关读取和写入设置的更多信息,请参阅 MongoDB Server 手册中的以下指南:
标签集
在 MongoDB Server 中,您可以根据您选择的任何条件将键值标签应用于副本集成员。 然后,您可以使用这些标签来定位一个或多个成员以执行读取操作。
默认情况下,PyMongo 在选择要读取的成员时会忽略标签。 要指示 PyMongo 优先选择某些标签,请将它们作为参数传递给 读取偏好类 构造函数。
在以下代码示例中,传递给read_preference
参数的标签集指示 PyMongo 优先从纽约数据中心 ( 'dc': 'ny'
) 读取数据,并回退到旧金山数据中心 ( 'dc': 'sf'
):
db = client.get_database( 'test', read_preference=Secondary([{'dc': 'ny'}, {'dc': 'sf'}]))
LocalThreshold
如果多个副本集成员与您指定的读取偏好和标签集匹配,PyMongo 将从根据其 ping 时间选择的最近的副本集成员中读取。
默认情况下,驱动程序仅使用 ping 时间与最近节点的 ping 时间在15毫秒以内的节点进行查询。 要在延迟较高的成员之间分配读取,请将localThresholdMS
选项传递给MongoClient()
构造函数。
以下示例指定了35毫秒的本地阈值:
client = MongoClient(replicaSet='repl0', readPreference=ReadPreference.SECONDARY_PREFERRED, localThresholdMS=35)
在前面的示例中,PyMongo 在最近成员的 ping 时间的35毫秒内在匹配成员之间分配读取。
注意
通过mongos
实例与副本集通信时,PyMongo 会忽略localThresholdMS
的值。 在这种情况下,请使用localThreshold命令行选项。
故障排除
AutoReconnect
错误
如果您在读取偏好中指定tag-sets
,并且 MongoDB 无法找到具有指定标签的副本集成员,您会收到此错误。 要避免此错误,请在标签集列表的末尾包含一个空字典 ( {}
)。 这指示 PyMongo 在找不到匹配标签时,从任何与读取引用模式匹配的成员中读取。
API 文档
要进一步了解本指南所讨论的任何方法或类型,请参阅以下 API 文档: