Docs 菜单
Docs 主页
/
MongoDB Atlas
/ /

查看警报条件

在此页面上

  • 主机警报
  • 查询目标警报
  • 云备份警报
  • 副本集警报
  • 分片集群警报
  • App Services 警报
  • 无服务器警报
  • 用户警报
  • 项目警报
  • 账单警报
  • 联合警报
  • 静态加密警报
  • 维护窗口警报
  • MongoDB 支持访问授权警报
  • Atlas Stream Processing 警报

本页描述可以触发警报的条件。配置警报时可指定条件和阈值。要了解更多信息,请参阅警报工作流程

注意

M0 免费集群和M2/M5 trigger共享集群仅触发与这些集群支持的指标相关的警报。有关 警报和指标限制的完整文档,请参阅Atlas M0 (免费集群)、M2 和 M5 M0/M2/M5限制。

如果您在配置警报时选择 Host(主机)作为警报目标,则本部分中的条件适用。您可以将条件应用于所有主机或特定类型的主机,例如主节点配置服务器

重要

在实时迁移期间,Atlas 会禁用主机警报。

Atlas 会根据集群监控触发某些托管警报,因此会受到粒度变化的影响。要了解更多信息,请参阅监控数据存储粒度

Host has index suggestions

如果性能优化顾问有针对主机的索引建议,则引发此警报。

如果主机的查询目标比率大于 8000,并且 Performance Advisor 确定主机可从一个或多个索引中获益来提高低效查询的性能,则会触发此警报,并指导您创建建议的索引。

此警报仅用于 M10+ 集群,并且默认情况下针对启用了性能优化顾问M10+ 集群启用。对于禁用了性能优化顾问的集群,不会触发该警报。

以下警报条件衡量从 MongoDB serverStatus 命令的 asserts 文档中收集的 MongoDB 进程的断言速率。您可以通过集群监控来查看断言。

Asserts: Msg is

如果消息断言率达到指定阈值,则触发该警报。消息断言是内部服务器错误。记录这些的堆栈追踪。

Asserts: Regular is

如果常规断言率达到指定阈值,则触发该警报。

Asserts: User is

如果用户产生的错误率达到指定阈值,则触发该警报。

Asserts: Warning is

如果警告率达到指定阈值,则触发该警报。

您可以为以下集群事件配置警报。查看操作日志查看发生的所有自动伸缩事件。

对于本节中的每个事件,要接收警报,您必须首先配置一个警报,以通知您或您组织的成员此类自动伸缩事件。

要了解 Atlas 如何扩展或缩减集群,请参阅配置自动伸缩。

Auto-scaling: Compute auto-scaling initiated for base tier

如果 Atlas 为专用集群中的任何操作节点启动计算自动伸缩,则触发该警报。作为此事件的一部分, Atlas 可以扩展磁盘容量。

Auto-scaling: Compute auto-scaling initiated for analytics tier

如果 Atlas 为专用集群中的任何分析节点启动计算自动伸缩,则触发该警报。作为此事件的一部分, Atlas 可以扩展磁盘容量。

Auto-scaling: Compute auto-scaling down didn't initiate for base tier due to storage requirements

如果因为目标集群层不支持配置的存储大小,Atlas 无法为专用集群中的任何运行节点启动计算自动伸缩,则会引发该问题。

Auto-scaling: Compute auto-scaling down didn't initiate for analytics tier due to storage requirements

如果因为目标集群层不支持配置的存储大小,Atlas 无法为专用集群中的任何分析节点启动计算自动伸缩,则会引发该故障。

Auto-scaling: Compute auto-scaling didn't initiate for base tier due to maximum configured cluster tier

如果因为您的集群已达到为自动伸缩配置的最大集群层,Atlas 无法扩展操作节点,则引发该故障。

Auto-scaling: Compute auto-scaling didn't initiate for analytics tier due to maximum configured cluster tier

如果 Atlas 因集群达到为自动伸缩配置的最大集群层而无法扩展分析节点,则触发该警报。

Auto-scaling: Compute auto-scaling didn't initiate for base tier due to insufficient oplog size

如果 Atlas 因 oplog 容量不足而无法扩展运行节点 ,则触发该警报。要了解更多信息,请参阅设置最小 Oplog Window。

Auto-scaling: Compute auto-scaling didn't initiate for analytics tier due to insufficient oplog size

如果 Atlas 由于 oplog 大小不足而无法扩展分析节点 ,则引发此事件。要了解更多信息,请参阅设置最小 Oplog Window。

Auto-scaling: Disk auto-scaling initiated

如果 Atlas 开始自动伸缩磁盘容量,则触发该警报。

Auto-scaling: Disk auto-scaling didn't initiate due to the cluster reaching maximum available disk size

如果 Atlas 因集群已达到最大可用磁盘容量而无法扩展磁盘容量,则触发该警报。

Auto-scaling: Disk auto-scaling didn't initiate due to insufficient oplog size

如果 Atlas 因集群的 oplog 大小不够而无法扩展磁盘大小,则触发该警报。

以下警报条件测量 Atlas Search 进程使用的 CPU 和内存量。您可以通过集群监控查看 Atlas Search 指标。

Atlas Search: Index Replication Lag is

如果 Atlas Search 在复制 mongodoplog 中的更改时落后的大致毫秒数高于或低于阈值,则会引发此警报。

Atlas Search: Index Size on Disk is

如果磁盘上所有 Atlas Search 索引的总大小(以字节为单位)高于或低于阈值,则触发该警报。

Atlas Search: Max Number of Lucene Docs is

如果用于存储给定副本集或分片的 Atlas Search 索引的 Lucene 文档数量上限高于阈值,则触发该警报。

Atlas Search: Mongot stopped replication

如果复制由于磁盘利用率高而被 Atlas Search mongot 流程中断,则在专用搜索节点上引发。

Atlas Search: Number of Error Queries is

如果 Atlas Search 无法返回响应的查询数量高于或低于阈值,则会引发此警报。

Atlas Search: Number of Index Fields is

如果 Atlas Search 索引中存在的唯一字段总数高于或低于阈值,则会引发此警报。

Atlas Search: Number of Successful Queries is

如果 Atlas Search 成功返回响应的查询数量高于或低于阈值,则会引发此警报。

Atlas Search: Total Number of Queries is

如果提交到 Atlas Search 的查询数量高于或低于阈值,则会引发此警报。

Atlas Search Opcounter: Delete is

如果每秒删除的文档或字段(索引定义中指定的)总数高于或低于阈值,则触发该警报。

Atlas Search Opcounter: Getmore is

如果每秒对所有 Atlas Search 查询运行的 getmore 命令总数高于或低于阈值,则触发该警报。

Atlas Search Opcounter: Insert is

如果 Atlas Search 每秒索引的文档或字段(索引定义中指定的)总数高于或低于阈值,则触发该警报。

Atlas Search Opcounter: Update is

如果 Atlas Search 每秒更新的文档或字段(索引定义中指定的)总数高于或低于阈值,则触发该警报。

Insufficient disk space to support rebuilding search indexes

如果集群没有足够的可用磁盘空间来支持 Atlas Search 索引,则触发警报。

Search Memory: Resident is

如果 Atlas Search 进程占用的常驻内存总字节数高于或低于阈值,则会引发此警报。

Search Memory: Shared is

如果 Atlas Search 进程占用的共享内存总字节数高于或低于阈值,则触发该警报。

Search Memory: Virtual is

如果 Atlas Search 进程占用的虚拟内存总字节数高于或低于阈值,则触发该警报。

Search Process: CPU (Kernel) % is

如果 CPU 为 Atlas Search 进程服务操作系统调用的时间百分比超过阈值,则触发该警报。

Search Process: CPU (User) % is

如果服务 Atlas Search 进程的 CPU 时间百分比高于阈值,则会引发此警报。

Search Process: Disk space used is

如果 Atlas Search 进程使用的磁盘空间总字节数高于阈值,则会引发此警报。

注意

如果将该条件应用于所有主机,则它也适用于专用搜索节点

Search Process: Ran out of memory

如果搜索进程 (mongot) 内存不足,则触发该警报。如果搜索进程内存不足,索引和查询将失败。

以下警报条件测量 MongoDB 进程的读取、写入或命令的平均执行时间(从 MongoDB serverStatus 命令的 opLatencies 文档收集)。您可以通过集群监控来查看断言。

Average Execution Time: Commands is

命令操作的平均执行时间达到指定的阈值。

Average Execution Time: Reads is

读取操作的平均执行时间达到指定阈值。

Average Execution Time: Writes is

写入操作的平均执行时间达到指定的阈值。

以下警报条件衡量自上次启动 MongoDB 进程以来该进程的数据库操作速率,这些操作是从 MongoDB serverStatus 命令的 opcounters 文档中收集的。您可以通过 集群监控查看 opcounter。

Opcounter: Cmd is

如果执行命令的速率达到指定阈值,则触发该警报。

Opcounter: Delete is

如果删除速率达到指定阈值,则触发该警报。

Opcounter: Getmores is

如果检索下一个游标批处理的 getmore 操作的速率达到指定阈值,则触发该警报。

提示

另请参阅:

要了解更多信息,请参阅 MongoDB 手册中的游标批处理

Opcounter: Insert is

如果插入速率达到指定阈值,则触发该警报。

Opcounter: Query is

如果查询速率达到指定阈值,则触发该警报。

Opcounter: Update is

如果更新速率达到指定阈值,则触发该警报。

以下警报条件可用于测量对 MongoDB 从节点执行的数据库操作的速率,它们是从 MongoDB serverStatus 命令的 opcountersRepl 文档中收集的。您可以在 Opcounters - Repl 图表上查看这些指标,可通过集群监控访问该图表。

Opcounter: Repl Cmd is

如果复制命令的速率达到指定阈值,则触发该警报。

Opcounter: Repl Delete is

如果复制删除操作的速率达到指定阈值,则触发该警报。

Opcounter: Repl Insert is

如果复制插入的速率达到指定阈值,则触发该警报。

Opcounter: Repl Update is

如果复制更新的速率达到指定阈值,则触发该警报。

您可以为 MongoDB 进程的扫描和排序操作设置警报。

Operations: Scan and Order is

在您指定的查询阈值中,返回排序结果且无法使用索引执行排序操作的查询的平均每秒速率。

注意

如何测量

MongoDB 使用 serverStatus 命令返回的 metrics.operation.scanAndOrder 文档报告复制 oplog 。

Logical Size is

如果数据和索引的总大小超出指定的阈值,则触发该警报。

仅适用于 Atlas 免费集群

以下条件测量 MongoDB 进程的内存,内存是从 MongoDB serverStatus 命令的 mem 文档收集的。您可以在 Atlas MemoryNon-Mapped Virtual Memory 图表上查看这些指标,可通过集群监控访问这些图表。

Memory: Computed is

如果内存映射未考虑的虚拟内存大小满足指定阈值,则触发该警报。如果该数字非常高(多个 GB),则表明在内存映射之外使用过多内存。

提示

另请参阅:

要了解如何使用此指标,请查看 Non-Mapped Virtual Memory 图表并点击图表的 i 图标。

Memory: Resident is

如果常驻内存的大小达到指定阈值,则触发该警报。随着时间的推移,在专用数据库服务器上,常驻内存的大小通常会接近主机上物理 RAM 的大小。

Memory: Virtual is

如果 mongod 进程的虚拟内存大小达到指定阈值,则触发该警报。您可以使用此警报来标记内存映射之外的过多内存。

提示

另请参阅:

要了解更多信息,请点击 Memory 图表的 i 图标。

System Memory: Available is

如果可用系统内存下降到指定阈值以下,则触发该警报。

System Memory: Max Available is

如果可用系统内存最大量低于指定阈值,则触发该警报。

System Memory: Max Used is

如果最大系统内存使用量达到指定阈值,则触发该警报。

System Memory: Used is

如果系统内存总用量减去缓冲区容量、缓存容量和可用内存容量后达到指定阈值,则触发该警报。

以下警报条件测量 MongoDB 进程的连接数,该连接数是从 MongoDB serverStatus 命令的 connections 文档收集的。您可以在 Atlas Connections 图表上查看该指标,可通过集群监控访问该图表。

Connections is

如果主机的活动连接数达到指定的平均值,则触发该警报。

Connections % of configured limit is

如果主机的打开连接数超过指定百分比,则触发该警报。

以下警报条件测量从 MongoDB serverStatus 命令的 globalLock 文档收集的等待锁的操作数。您可以在 Atlas Queues 图表上查看这些指标,可通过集群监控访问该图表。

Queues: Readers is

如果等待读锁的操作数达到指定的平均值,则触发该警报。

Queues: Total is

如果等待任何类型的操作数达到指定的平均值,则触发该警报。

Queues: Writers is

如果等待写锁的操作数达到指定的平均值,则触发该警报。

以下警报条件衡量从 MongoDB serverStatus 命令的 extra_info.page_faults 字段收集的 MongoDB 进程的页面错误率。

Page Faults is

如果页面错误率(无论是否引发异常)达到指定的阈值,则触发。您可以在 Atlas Page Faults 图表上查看该指标,可通过集群监控访问该图表。

以下警报条件测量的是 MongoDB 进程的游标数量,这些游标是从 MongoDB serverStatus 命令的 metrics.cursor 文档中收集的。您可以在 Atlas Cursors 图表上查看这些指标,可通过集群监控访问该图表。

Cursors: Open is

如果服务器为客户端维护的游标数量达到指定的平均值,则触发该警报。

Cursors: Timed Out is

如果服务器为客户端维护的超时游标数量达到指定的平均值,则触发该警报。

以下警报条件测量 MongoDB 进程的吞吐量,吞吐量是从 MongoDB serverStatus 命令的 network 文档收集的。您可以在主机的 Network(网络)图表上查看这些指标,可通过集群监控访问该图表。

Network: Bytes In is

如果发送 MongoDB 的字节数达到指定阈值,则触发该警报。

Network: Bytes Out is

如果 MongoDB 发送的字节数达到指定阈值,则触发该警报。

Network: Num Requests is

如果发送到 MongoDB 的请求数量达到指定的平均值,则触发该警报。

以下警报条件适用于 MongoDB 进程的 oplog。您可以在以下图表上查看这些指标,可通过集群监控访问这些图表:

  • Oplog GB/Hour

  • Replication Headroom

  • Replication Lag

  • Replication Oplog Window

以下警报条件应用于 oplog:

Oplog Data Per Hour is

当每小时写入主节点的 oplog 的数据量达到指定阈值,则触发该警报。

Replication Headroom is

如果同步源节点的 oplog 窗口与从节点上的复制滞后时间差达到指定阈值,则触发该警报。

Replication Lag is

如果从节点落后主节点的大致时间量达到指定阈值,则触发该警报。Atlas 使用 MongoDB 手册中检查复制滞后所述的方法,计算复制滞后。

Replication Oplog Window is

如果主节点的复制 oplog 中可用的大致时间达到指定阈值,则触发该警报。

以下警报条件适用于由 MongoDB dbStats 命令为 MongoDB 进程收集的数据库存储量。有关 Atlas 如何处理达到数据库存储限制的详细信息,请参阅常见问题解答页面。这些条件基于 MongoDB 进程上所有数据库的总和:

注意

Atlas 默认下每 20 分钟检索一次数据库指标,但会在必要时调整频率以减少对数据库性能的影响。

DB Data Size is

如果所有文档(及其填充)的大致大小达到指定阈值,则触发该警报。

DB Storage is

如果分配的存储满足指定的阈值,则引发此警报。可以在主机的 DB Storage 图表上查看此警报条件,可通过集群监控访问该图表。

以下警报条件用于 MongoDB 进程的 WiredTiger 存储引擎,该进程是从 MongoDB serverStatus 命令的 wiredTiger.cachequeues.execution 文档收集的。

您可以在以下图表上查看这些指标,可通过集群监控访问这些图表:

  • Cache Activity

  • Cache Usage

  • Tickets Available

以下是适用于 WiredTiger 的警报条件:

Cache: Bytes Read Into Cache is

当读入 WiredTiger 缓存的字节数达到指定阈值时,则触发该警报。

Cache: Bytes Written From Cache is

当从 WiredTiger 缓存写入的字节数达到指定阈值时,则触发该警报。

Cache: Dirty Bytes is

当 WiredTiger 缓存中的脏数据字节数达到指定阈值时,则触发该警报。

Cache: Used Bytes is

当 WiredTiger 缓存中已使用的字节数达到指定阈值时,则触发该警报。

Tickets Available: Reads is

如果 WiredTiger 存储引擎可用的读取票证数量达到指定阈值,则触发该警报。

Tickets Available: Writes is

如果 WiredTiger 存储引擎可用的写入票证数量达到指定阈值,则触发该警报。

对于在 MongoDB 7.0 及更高版本上运行的集群,请勿使用工单数量作为过载警报的指标。从 MongoDB 版本 7.0 开始,Atlas 动态调整工单数量。相反,使用排队的读取器和写入器的数量作为过载指标。

以下警报条件测量 Atlas 服务器集群的使用情况:

注意

目前,Atlas 对数据、索引和日志文件使用单个分区。尽管警报引用各个分区,但它们指向相同的指标。

注意

所有硬件指标都有等效的突发报告,具有不同的可配置警报。要了解更多信息,请参阅突发报告。

Disk Queue depth on Data Partition is

如果向 MongoDB 使用的数据分区发出的请求队列的平均长度超过指定阈值,则触发该警报。

Disk read IOPS on Data Partition is

如果每秒磁盘读取操作的平均数超过指定阈值,则触发该警报。

Disk read latency on Data Partition is

如果磁盘读取操作的延迟量超过指定阈值,则触发该警报。

Disk space % used on Data Partition is

在包含 MongoDB 集合数据的任何分区上使用的磁盘空间的百分比。

要查找此警报的可能解决方案,请参阅警报解决方案

Disk write IOPS on Data Partition is

如果每秒磁盘写入操作的平均数超过指定阈值,则触发该警报。

Disk write latency on Data Partition is

如果磁盘写入操作的延迟量超过指定阈值,则触发该警报。

Max disk queue depth on Data Partition is

如果向 MongoDB 使用的数据分区发出的请求队列的最大平均长度超过指定阈值,则触发该警报。

Max disk read IOPS on Data Partition is

如果每秒磁盘读取操作的最大平均数超过指定阈值,则触发该警报。

Max disk read latency on Data Partition is

如果磁盘读取操作的最大延迟量超过指定阈值,则触发该警报。

Max disk space % used on Data Partition is

如果在包含 MongoDB 集合数据的任何分区上使用的最大磁盘空间百分比超过指定阈值,则触发该警报。

Max disk write IOPS on Data Partition is

如果每秒磁盘写入操作的最大平均数超过指定阈值,则触发该警报。

Max disk write latency on Data Partition is

如果磁盘写入操作的最大延迟量超过指定阈值,则触发该警报。

Max System Network In is

如果发送 MongoDB 的最大字节数达到指定阈值,则触发该警报。

Max System Network Out is

如果 MongoDB 发送的最大字节数达到指定阈值,则触发该警报。

System: CPU (Steal) % is

当 EC2 集群信用余额耗尽时适用。

CPU 使用率超过保证基线 CPU 信用累积率的百分比。CPU 信用是累积的 CPU 利用率单位。信用以恒定速率累积,以提供有保证的性能水平。这些信用可提高 CPU 性能。当信用余额耗尽时,仅提供 CPU 性能的保证基线,超出的量以窃取百分比显示。

注意

Atlas Triggers仅对支持Amazon Web Services 2突发性能 的 EC 集群触发此警报 。目前,这些是M10M20集群类型。

System: CPU (User) % is

节点上进程的 CPU 使用率,按 CPU 数量进行归一化。该值的范围为 0-100%。

System: Max CPU (Steal) % is

如果 CPU 占用率超出保证基准 CPU 信用累积率的最大百分比超过指定阈值,则触发该警报。

System: Max CPU (User) % is

如果节点上进程的最大 CPU 占用率(按 CPU 数量归一化)超过指定阈值,则触发该警报。

System Network In is

如果 eth0 网络接口每秒接收的物理字节的平均速率达到指定阈值,则触发该警报。

System Network Out is

如果 eth0 网络接口每秒传输的物理字节的平均速率达到指定阈值,则触发该警报。

Restarts in Last Hour is

如果主机在前一小时内重启的次数超过指定阈值,则触发该警报。

Host is Down

如果 Atlas 在几分钟内无法到达主机,则触发该警报。

重要

仅当您依赖于从节点读取时才应配置此警报。有关从节点读取的更多信息,请参阅使用预定义副本集标签进行查询读取偏好

该警报通常由以下情况触发:

  • 集群出现故障,正在自动修复。

  • 网络问题导致无法访问集群。

MongoDB Atlas 检查停机并非源于您的操作(例如,滚动索引构建)。MongoDB Atlas 如果确认停机不是故意的,则会尝试替换受影响的节点。如果发生故障,只要大多数节点正在运行,Atlas 集群就会保持节点的读取和写入可用性。要了解更多信息,请参阅 MongoDB Atlas 如何提供高可用性?

以下警报条件用于交换空间使用率:

Swap Usage: Free is

如果可用交换空间量下降到指定阈值以下,则触发该警报。

Swap Usage: Max Free is

如果最大可用交换空间量降至指定阈值以下,则触发该警报。

Swap Usage: Max Used is

如果正在使用的交换空间最大总量达到指定阈值,则触发该警报。

Swap Usage: Used is

如果正在使用的交换空间总量达到指定阈值,则触发该警报。

以下主机条件不会应用于 Atlas。Atlas 在以下情况下不会生成警报:

  • 不在内存中的访问数:总计为

  • 后台刷新平均值为

  • B-Tree:访问次数为

  • B-Tree:命中次数为

  • B-Tree:未命中次数是

  • B-Tree:失误率为

  • 游标:客户端游标大小为

  • 有效锁 % 为

  • 写锁中的日志记录提交是

  • 日志记录大小 (MB)

  • 日志写入数据文件大小 (MB) 为

  • 内存:已映射内存容量为

  • 引发的页面错误异常:总数为

以下警报用于集合上的索引。这两种警报都可能表明索引丢失或效率低下。

提示

另请参阅:

要了解有关使用索引来提高性能的更多信息,请参阅索引策略

Query Targeting: Scanned / Returned

如果扫描的索引键与返回的文档的比率满足或超过指定阈值,则触发该警报。

Query Targeting: Scanned Objects / Returned

如果扫描的文档与返回的文档的比率达到或超过指定阈值,则触发该警报。

Atlas Search 进程 (mongot) 用来保持 Atlas Search 索引更新的变更流游标可以提高查询目标比率,如果比率很高,则会触发查询定位警报

以下警报应用于云备份快照。

Backup restore failed

恢复失败时触发。

Backup restore succeeded

恢复成功时触发。

Fallback snapshot failed

备用快照失败时触发。

Fallback snapshot taken

在常规备份失败但 Atlas 能够拍摄备用快照时引发此警报。

提示

另请参阅:

Last snapshot too old

当距离上次成功快照的时间过长时出现。

Snapshot download request failed

下载请求失败时触发。

Snapshot schedule fell behind

在配置的时间段内未获取快照时触发。

Snapshot taken successfully

成功拍摄快照时触发。

以下警报条件适用于副本集

Number of elections in last hour is > X

过去一小时内发生的选举数量超过用户指定的 X 值触发。X 的值是在您创建警报时设置的。此警报可能表明集群的复制未处于健康状态,不断的选举即可证明。

Replica set elected a new primary

当副本集选举新的主节点时引发此警报。

Replica set has no primary

副本集没有主节点时触发。具体来说,当副本集的所有节点均不具有 PRIMARY 状态时,将触发该警报。例如,当集合中有偶数个投票成员导致平局时,可能会出现这种情况。

如果 Atlas 在选举期间收集数据,该警报可能会发出误报。为防止此类误报,请设置警报配置的 after waiting 时间间隔(在配置的 Send to 部分中)。

要查找此警报的可能解决方案,请参阅警报解决方案

以下警报条件用于分片集群

Cluster is missing an active mongos

如果 Atlas 无法联系集群的任何 mongos,则引发该警报。

以下警报条件适用于 Atlas App Services

An overall request rate limit has been hit

当并发请求数超过限制时触发。此警报表明应用程序可能发出异常大量的请求。

Auth Login Fail is

如果每秒客户端登录请求失败数达到指定阈值,则触发该警报。

Endpoints Compute Time is

如果每秒 HTTPS 端点计算时间达到指定阈值,则触发该警报。

Endpoints Egress Bytes is

如果每秒 HTTPS 端点数据出口字节数达到指定阈值,则。

Failed Requests - Endpoints is

如果每秒失败的 HTTPS 端点请求数达到指定阈值,则触发该警报。

Failed Requests - GraphQL is

如果每秒失败的 GraphQL 请求数量达到指定阈值,则触发该警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档

Failed Requests - Overall is

如果每秒失败的请求总数达到指定阈值,则触发该警报。

Failed Requests - SDK (Functions) is

如果每秒失败的 SDK 函数请求数达到指定阈值,则触发该警报。

Failed Requests - Sync is

如果每秒失败的 Atlas Device Sync 请求数达到指定阈值,则触发该警报。

Failed Requests - Triggers is

如果每秒失败的 Trigger 请求数量达到指定阈值,则触发该警报。

GraphQL Compute Time is

如果每秒 GraphQL 计算时间达到指定阈值,则触发该警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档

GraphQL Egress Bytes is

如果 GraphQL 每秒数据传出字节数达到指定阈值,则引发警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档

GraphQL Request Duration P95 is

如果 GraphQL 请求的持续时间(以毫秒为单位)的第 95 个百分位数达到指定阈值,则触发该警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档)。

HTTP Endpoint Request Duration P95 is

如果 HTTPS 端点请求的持续时间(毫秒)的第 95 百分位达到指定阈值,则触发该警报。

MQL Request Duration P95 is

如果 MQL 请求的持续时间(以毫秒为单位)的第 95 个百分位达到指定的阈值,则触发该警报。

Overall Compute Time is

如果每秒总计算时间达到指定阈值,则触发该警报。

Overall Egress Bytes is

如果每秒总数据出口节数达到指定阈值,则触发该警报。

SDK Functions Compute Time is

如果每秒 SDK 函数计算时间达到指定阈值,则触发该警报。

SDK Functions Egress Bytes is

如果每秒 SDK 函数数据出口字节数达到指定阈值,则触发该警报。

SDK Functions Request Duration P95 is

如果 SDK 函数请求的持续时间(毫秒)的第 95 百分位达到指定阈值,则触发该警报。

SDK MQL Compute Time is

如果每秒 SDK MQL 计算时间达到指定阈值,则触发该警报。

SDK MQL Egress Bytes is

如果每秒 SDK MQL 数据出口字节数达到指定阈值,则触发该警报。

Session Ended - Sync is

如果 Atlas Device Sync 期间每秒结束的会话数达到指定阈值,则触发该警报。

Sync Client Bootstrap Time is

如果 Atlas Device Sync 客户端的引导时间的第 95 个百分位数达到指定阈值,则触发该警报。

Sync Client Uploads that failed is

如果 Atlas Device Sync 客户端上每秒失败的上传次数达到指定阈值,则触发该警报。

Sync Client Uploads that are invalid

如果 Atlas Device Sync 客户端上每秒的无效上传次数达到指定阈值,则触发该警报。

Sync Current Oplog Lag Sum is

如果 Atlas Device Sync 滞后 MongoDB oplog 的大致时间长度达到指定阈值,则触发该警报。

Sync Egress Bytes is

如果每秒 Atlas Device Sync 数据出口字节数达到指定阈值,则触发该警报。

Sync Num Unsyncable Docs % is

如果 App Services 无法同步的文档数量达到指定阈值,则触发该警报。

Triggers Compute Time is

如果每秒 Triggers 计算时间达到指定阈值,则触发该警报。

Triggers Current Oplog Lag Sum is

如果 App Services Tiggers 滞后 MongoDB oplog 的大致时间长度达到指定阈值,则触发该警报。

Triggers Egress Bytes is

如果每秒 Tiggers 数据出口字节数达到指定阈值,则触发该警报。

Triggers Request Duration P95 is

如果 Tiggers 持续时间(以毫秒为单位)的第 95 个百分位数达到指定阈值,则触发该警报。

以下警报条件适用于无服务器实例

Serverless metric outside threshold

如果满足以下任一条件,则触发该警报:

  • 通往主机的打开连接数超过允许的打开连接总数的 80%。

  • 所有文档(及其填充)和索引的近似大小超过 0.75 TB。

  • 至少连续 30 分钟每秒读取处理单元 (RPU) 超过 250K,并且每 12 小时重新发出警报。

  • 至少连续 5 分钟每秒读取处理单元 (RPU) 超过 100 万个,并且每 2 小时重新发出警报。

Total Read Units is

如果每秒读取处理单元 (RPU) 总数超过指定阈值,则触发该警报。

Total Write Units is

如果每秒写入处理单元(WPU)总数超过指定阈值,则触发该警报。

以下警报条件适用于 Atlas 用户。

Organization users do not have multi-factor authentication enabled

当组织中的一个或多个用户未启用多因素身份验证时触发。

User had their role changed

在 Atlas 用户的项目或组织角色发生变化时引发此警报。

User joined the organization

当新用户加入 Atlas 组织时引发此警报。

User joined the project

当新用户加入 Atlas 项目时触发。

User left the organization

当用户离开 Atlas 组织时引发此警报。

User left the project

当用户离开 Atlas 项目时引发此警报。

以下警报条件适用于 Atlas 项目。

Users awaiting approval to join project

如果有用户要求加入该项目,则触发。用户可在首次注册 Atlas 时请求加入项目。

Users do not have multi-factor authentication enabled

如果项目或组织中的用户尚未设置多因素身份验证,则触发该警报。

以下警报条件用于 Atlas 账单。您可以通过 Atlas 用户界面配置组织级或项目级账单提醒。

要配置组织级别的警报:

1
  1. 如果尚未显示,组织从导航栏中的Organizations菜单。

  2. 单击 Organizations 菜单旁边的 Organization Settings 图标。

    显示“组织设置”页面。

2

单击侧边栏中的 Alerts(支持)。

将显示组织警报页面。

3

要配置项目级别警报,请执行以下操作:

1
  1. 如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 执行以下步骤之一:

    • 单击导航栏中的 Project Alerts 图标。

    • Projects 菜单旁边,展开 Options 菜单,单击 Project Settings,然后单击侧栏中的 Alerts

    将显示项目警报页面。

2

注意

所有账单金额均以美元为单位。

Amount billed ($) yesterday is above the threshold

如果组织或项目的最近每日账单金额超过配置的阈值,则触发。Atlas 在计算账单金额时,不考虑前一天的任何贷项。

此条件适用于组织和项目。

Credit card is about to expire

如果绑定的信用卡即将过期,则触发该警报。在信用卡到期的月初触发该警报。Atlas 在首次添加信用卡时启用该警报。

此条件适用于组织和项目。

Current bill ($) for any single project is above the threshold

如果组织内任何项目的月度总额超过您为所有项目配置的阈值,则会触发该警报。当前待处理的发票关闭时,此警报将重置。

此警报条件仅适用于组织。

Current bill ($) for the organization is above the threshold

如果组织的月度总额超过您配置的阈值,则触发该警报。当前待处理的发票关闭时,此警报将重置。

此警报条件仅适用于组织。

Organization's IdP certificate is about to expire

如果与您拥有 Organization Owner 角色的组织关联的 IdP 证书在 14 天内过期,则引发此警报。Atlas 每天都会发送此警报,直到您确认为止。

注意

当您将组织映射到 IdP 提供商时,Atlas 会自动创建此警报。如果您删除该映射,Atlas 将删除此警报的所有实例。

以下警报条件适用于使用客户密钥管理的静态加密的项目。

AWS encryption key elapsed time since last rotation is above (n) days

如果 Atlas 项目使用的 AWS 客户主密钥 (CMK) 的活动天数超过配置的天数(默认为 90 天),则会引发此警报。

要修改警报阈值,请执行以下操作:

  1. 在 Atlas 中,前往 Project Alerts 页面。

    1. 如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。

    2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

    3. 执行以下步骤之一:

      • 单击导航栏中的 Project Alerts 图标。

      • Projects 菜单旁边,展开 Options 菜单,单击 Project Settings,然后单击侧栏中的 Alerts

      将显示项目警报页面。

  2. 单击 Alert Settings(“下载”图标)。

如果您将默认 90天alert 配置为大于Amazon Web ServicesAmazon Web ServicesKMS KMSAtlas Amazon Web Services集合扫描轮换,则Atlas不会创建警报,因为Amazon Web Services会自动轮换您的集合扫描 。

如果您轮换项目 CMK,此警报将自动重置。有关如何轮换项目 CMK 的文档,请参阅轮换 AWS 客户主密钥

Azure encryption key elapsed time since last rotation is above (n) days

如果 Atlas 项目使用的 Azure Key Vault 密钥标识符的活动时间超过配置的天数(默认为 90 天),则触发该警报。

要修改警报阈值,请执行以下操作:

  1. 在 Atlas 中,前往 Project Alerts 页面。

    1. 如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。

    2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

    3. 执行以下步骤之一:

      • 单击导航栏中的 Project Alerts 图标。

      • Projects 菜单旁边,展开 Options 菜单,单击 Project Settings,然后单击侧栏中的 Alerts

      将显示项目警报页面。

  2. 单击 Alert Settings(“下载”图标)。

如果轮换项目密钥标识符,此警报则会自动重置。有关如何轮换项目密钥标识符的文档,请参阅关于轮换 Azure 密钥标识符

GCP encryption key elapsed time since last rotation is above (n) days

如果 Atlas 项目使用的 GCP 密钥版本资源 ID 的活动天数超过配置的天数(默认为 90 天),则触发该警报。

要修改警报阈值,请执行以下操作:

  1. 在 Atlas 中,前往 Project Alerts 页面。

    1. 如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。

    2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

    3. 执行以下步骤之一:

      • 单击导航栏中的 Project Alerts 图标。

      • Projects 菜单旁边,展开 Options 菜单,单击 Project Settings,然后单击侧栏中的 Alerts

      将显示项目警报页面。

  2. 单击 Alert Settings(“下载”图标)。

如果您轮换项目密钥版本资源 ID,则此警报会自动重置。

要了解如何轮换项目密钥版本资源 ID,请参阅轮换 GCP 密钥版本资源 ID

Encryption at Rest KMS network access denied

如果云提供商的 KMS 档案由于网络访问限制而无效,则触发该警报。

要修改或删除该警报,请执行以下操作:

  1. 在 Atlas 中,前往 Project Alerts 页面。

    1. 如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。

    2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

    3. 执行以下步骤之一:

      • 单击导航栏中的 Project Alerts 图标。

      • Projects 菜单旁边,展开 Options 菜单,单击 Project Settings,然后单击侧栏中的 Alerts

      将显示项目警报页面。

  2. 单击 Alert Settings(“下载”图标)。

所有新项目均默认启用此警报。

以下警报条件适用于已配置维护窗口的项目。

注意

只有当项目具有有效的维护时段时,您才能配置维护窗口警报

Maintenance is scheduled

在项目计划维护前 72 小时引发该警报。

Maintenance no longer needed

如果项目不再需要计划维护,则触发该警报。

Maintenance started

在开始维护项目时触发。

Maintenance has been auto-deferred

如果维护被推迟,将会触发该警报。

Granted additional access to MongoDB support

当 MongoDB 支持人员拥有基础架构访问权限时触发。您可以查看访问权限授权类型和授权事件的到期日期。

Revoked additional access from MongoDB support

当 MongoDB 支持人员不再具有基础架构访问权限时触发。您可以查看访问权限授权类型。

以下警报条件适用于运行 Stream Processing 实例的项目。

Stream Processor State is failed

如果目标流处理器以失败状态退出,则触发该警报。

后退

警报基础知识