Docs 菜单
Docs 主页
/ / /
PyMongoArrow

模式示例

在此页面上

  • 带模式的嵌套数据
  • 带投影的嵌套数据

本指南举例说明如何在常见情况下使用 PyMongoArrow 模式。

执行聚合或查找操作时,可以使用 struct对象为嵌套数据提供模式。 与其父文档相比,子文档中可能存在名称冲突。

>>> from pymongo import MongoClient
... from pymongoarrow.api import Schema, find_arrow_all
... from pyarrow import struct, field, int32
... coll = MongoClient().db.coll
... coll.insert_many(
... [
... {"start": "string", "prop": {"name": "foo", "start": 0}},
... {"start": "string", "prop": {"name": "bar", "start": 10}},
... ]
... )
... arrow_table = find_arrow_all(
... coll, {}, schema=Schema({"start": str, "prop": struct([field("start", int32())])})
... )
... print(arrow_table)
pyarrow.Table
start: string
prop: struct<start: int32>
child 0, start: int32
----
start: [["string","string"]]
prop: [
-- is_valid: all not null
-- child 0 type: int32
[0,10]]

使用 Pandas 和 NumPy 时,您可以执行相同的操作:

>>> df = find_pandas_all(
... coll, {}, schema=Schema({"start": str, "prop": struct([field("start", int32())])})
... )
... print(df)
start prop
0 string {'start': 0}
1 string {'start': 10}

您还可以在将数据传递给 PyMongoArrow 之前使用投影来展平数据。 以下示例说明了如何使用非常简单的嵌套文档结构来执行此操作:

>>> df = find_pandas_all(
... coll,
... {
... "prop.start": {
... "$gte": 0,
... "$lte": 10,
... }
... },
... projection={"propName": "$prop.name", "propStart": "$prop.start"},
... schema=Schema({"_id": ObjectIdType(), "propStart": int, "propName": str}),
... )
... print(df)
_id propStart propName
0 b'c\xec2\x98R(\xc9\x1e@#\xcc\xbb' 0 foo
1 b'c\xec2\x98R(\xc9\x1e@#\xcc\xbc' 10 bar

执行聚合操作时,可以使用$project阶段展平字段,如以下示例所示:

>>> df = aggregate_pandas_all(
... coll,
... pipeline=[
... {"$match": {"prop.start": {"$gte": 0, "$lte": 10}}},
... {
... "$project": {
... "propStart": "$prop.start",
... "propName": "$prop.name",
... }
... },
... ],
... )

后退

数据类型