/ /

Atlas Stream Processing

聚合阶段

Docs 主页

开发中

Atlas Stream Processing

聚合阶段

`$tumblingWindow` 阶段（流处理）

定义

$tumblingWindow 阶段指定用于聚合数据的滚动窗口。Atlas Stream Processing 窗口是有状态的，可以在中断后恢复，并具有处理延迟到达的数据的机制。您必须在该窗口阶段中将所有其他聚合查询应用于流数据。

$tumblingWindow

$tumblingWindow 管道阶段采用以下原型形式：

{
  "$tumblingWindow": {
    "boundary": "eventTime" | "processingTime",
    "interval": {
      "size": <int>,
      "unit": "<unit-of-time>"
    },
    "pipeline" : [
      <aggregation-stage-array>
    ],
    "offset": {
      "offsetFromUtc": <int>,
      "unit": "<unit-of-time>"
    },
    "idleTimeout": {
      "size": <int>,
      "unit": "<unit-of-time>"
    },
    "allowedLateness": {
      size: <int>,
      unit: "<unit-of-time>"
    }
  }
}

或者，$tumblingWindow 管道阶段可以具有 allowedLateness 和 idleTimeout 字段，其整数值为 0，如下所示：

{
  "$tumblingWindow": {
    "boundary": "eventTime" | "processingTime",
    "interval": {
      "size": <int>,
      "unit": "<unit-of-time>"
    },
    "pipeline" : [
      <aggregation-stage-array>
    ],
    "offset": {
      "offsetFromUtc": <int>,
      "unit": "<unit-of-time>"
    },
    "idleTimeout": 0,
    "allowedLateness": 0
  }
}

语法

$tumblingWindow 阶段采用包含以下字段的文档：

字段	类型	必要性	说明
`boundary`	字符串	Optional	指定窗口边界是由事件时间还是处理时间决定的字符串。值可以是 `eventTime` 或 `processingTime`。请参阅流处理时间以了解更多信息。如果省略，该字段默认值为 `eventTime`。 `idleTimeout` 当 `boundary` 设置为 `processingTime` 时，无法设置 `allowedLateness` 字段。
`interval`	文档	必需	以大小和时间单位的组合形式指定跳跃窗口间隔的文档，其中： `size`的值必须是非零正整数。 `unit`的值必须是以下值之一： `"ms"` （毫秒） `"second"` `"minute"` `"hour"` `"day"` 例如， `20`的`size`和 {3 `unit` `second`将每个窗口设置为保持打开状态20秒。
`pipeline`	阵列	必需	根据窗口内的消息对嵌套聚合管道进行评估。
`offset`	文档	Optional	指定窗口边界相对于 UTC 的时间偏移的文档。该文档是大小字段`offsetFromUtc`和时间单位的组合，其中： `offsetFromUtc`的值必须是非零正整数。 `unit`的值必须是以下值之一： `"ms"` （毫秒） `"second"` `"minute"` `"hour"` 例如， `8`的`offsetFromUtc`和 {3 `unit` `hour`会生成比 UTC 提前八小时的边界。如果不指定偏移量，窗口边界将与 UTC 对齐。
`idleTimeout`	文档	Optional	该文档指定 `$source` 空闲时关闭Windows之前的等待时间。将此设置定义为时间`size`和`unit`的组合，其中： `size`的值必须是非零正整数。 `unit`的值可以是以下值之一： `"ms"` （毫秒） `"second"` `"minute"` `"hour"` `"day"` 如果设置 `idleTimeout`，则仅当 `$source` 空闲的时间超过剩余窗口时间或 `idleTimeout` 时间（以较长者为准）时， Atlas Stream Processing才会关闭打开的Windows 。只要`$source`进入空闲状态，空闲计时器就会启动。例如，考虑12 : 00下午到1 : 00下午窗口和`idleTimeout`时间2小时。如果最后一个事件发生在下午12 : 02 ，之后`$source`进入空闲状态，则剩余窗口时间为58分钟。 Atlas Stream Processing 会在下午2 : 02空闲2小时后关闭窗口，该时间长于剩余窗口时间和`idleTimeout`时间。如果`idleTimeout`时间仅设置为10分钟，则 Atlas Stream Processing 会在下午1 : 00空闲58分钟后关闭窗口，该时间长于`idleTimeout`时间，并且剩余窗口时间。或者，您可以使用整数值 0 来定义此设置。有关更多信息，请参阅管道定义。
`allowedLateness`	文档	Optional	文档，用于指定在处理窗口结束时间的文档后，将从源生成的窗口保持开放状态多长时间以接受延迟到达的数据。如果省略，则默认值为 3 秒。或者，您可以使用整数值 0 来定义此设置。有关更多信息，请参阅管道定义。

行为

Atlas Stream Processing 仅支持每个管道一个窗口阶段。

当您将$group阶段应用于窗口阶段时，单个组密钥的 RAM 限制为100 MB。

在 Windows 中，对某些聚合阶段的支持可能会受到限制或不可用。要了解更多信息，请参阅支持的聚合管道阶段。

如果服务中断，您可以从中断点的状态恢复窗口的内部管道。要了解更多信息，请参阅检查点。

示例

流数据源从不同位置生成详细的天气报告，符合示例天气数据集的模式。以下聚合分为三个阶段：

$source 阶段与Apache Kafka 代理建立连接，后者在名为 my_weatherdata 的主题中收集这些报告，从而在将每条记录引入后续聚合阶段时将其公开。
$tumblingWindow 阶段定义了持续时间为 30 秒的连续窗口。每个窗口都执行一个内部 pipeline，用于查找该窗口持续时间的平均值、中位数、最大值和最小值 atmosphericPressureObservation.altimeterSetting.value。然后，pipeline 会输出一个文档，_id 等同于其所表示的窗口的开始时间戳以及该窗口的指定值。
$merge 阶段将输出写入 sample_weatherstream 数据库中名为 stream 的 Atlas 集合。如果不存在此类数据库或集合，Atlas 会创建它们。

{
  '$source': {
    connectionName: 'sample_weatherdata',
    topic: 'my_weatherdata',
    tsFieldName: 'ingestionTime'
  }
},
{
  '$tumblingWindow': {
    interval: {
      size: 30,
      unit: "second"
    },
    pipeline: [{
      $group: {
        _id:
  { $meta: "stream.window.start"},
        averagePressure: { $avg: "$atmosphericPressureObservation.altimeterSetting.value" },
        medianPressure: {
          $median: {
            input: "$atmosphericPressureObservation.altimeterSetting.value",
            method: "approximate"
          }
        },
        maxPressure: { $max: "$atmosphericPressureObservation.altimeterSetting.value" },
        minPressure: { $min: "$atmosphericPressureObservation.altimeterSetting.value" }
      }
    }]
  }
},
{
  '$merge': {
    into: {
      connectionName: 'weatherStreamOutput',
      db: 'sample_weatherstream',
      coll: 'stream'
    }
  }
}

要查看生成的 sample_weatherstream.stream 集合中的文档，请连接到您的 Atlas 集群并运行以下命令：

  db.getSiblingDB("sample_weatherstream").stream.find()

{
   _id: ISODate('2024-09-26T16:34:00.000Z'),
   averagePressure: 5271.47894736842,
   maxPressure: 9999.9,
   medianPressure: 1015.9,
   minPressure: 1015.9
 },
 {
   _id: ISODate('2024-09-26T16:34:30.000Z'),
   averagePressure: 5507.9,
   maxPressure: 9999.9,
   medianPressure: 1015.9,
   minPressure: 1015.9
 }

注意

以上是一个有代表性的示例。流数据不是静态的，每个用户看到的都是不同的文档。

后退

$ skippingWindow

来年

$emit