查看警报条件
在此页面上
本页描述可以触发警报的条件。配置警报时可指定条件和阈值。要了解更多信息,请参阅警报工作流程。
注意
M0
免费集群和M2/M5
trigger共享集群仅触发与这些集群支持的指标相关的警报。有关 警报和指标限制的完整文档,请参阅Atlas M0 (免费集群)、M2 和 M5 M0/M2/M5
限制。
主机警报
如果您在配置警报时选择 Host(主机)作为警报目标,则本部分中的条件适用。您可以将条件应用于所有主机或特定类型的主机,例如主节点或配置服务器。
重要
在实时迁移期间,Atlas 会禁用主机警报。
Atlas 会根据集群监控触发某些托管警报,因此会受到粒度变化的影响。要了解更多信息,请参阅监控数据存储粒度。
顾问
断言
以下警报条件衡量从 MongoDB serverStatus
命令的 asserts
文档中收集的 MongoDB 进程的断言速率。您可以通过集群监控来查看断言。
自动伸缩 (Auto-Scaling)
您可以为以下集群事件配置警报。查看操作日志查看发生的所有自动伸缩事件。
对于本节中的每个事件,要接收警报,您必须首先配置一个警报,以通知您或您组织的成员此类自动伸缩事件。
要了解 Atlas 如何扩展或缩减集群,请参阅配置自动伸缩。
Auto-scaling: Compute auto-scaling initiated for base tier
如果 Atlas 为专用集群中的任何操作节点启动计算自动伸缩,则触发该警报。作为此事件的一部分, Atlas 可以扩展磁盘容量。
Auto-scaling: Compute auto-scaling initiated for analytics tier
如果 Atlas 为专用集群中的任何分析节点启动计算自动伸缩,则触发该警报。作为此事件的一部分, Atlas 可以扩展磁盘容量。
Auto-scaling: Compute auto-scaling down didn't initiate for base tier due to storage requirements
如果因为目标集群层不支持配置的存储大小,Atlas 无法为专用集群中的任何运行节点启动计算自动伸缩,则会引发该问题。
Auto-scaling: Compute auto-scaling down didn't initiate for analytics tier due to storage requirements
如果因为目标集群层不支持配置的存储大小,Atlas 无法为专用集群中的任何分析节点启动计算自动伸缩,则会引发该故障。
Auto-scaling: Compute auto-scaling didn't initiate for base tier due to maximum configured cluster tier
如果因为您的集群已达到为自动伸缩配置的最大集群层,Atlas 无法扩展操作节点,则引发该故障。
Auto-scaling: Compute auto-scaling didn't initiate for analytics tier due to maximum configured cluster tier
如果 Atlas 因集群达到为自动伸缩配置的最大集群层而无法扩展分析节点,则触发该警报。
Auto-scaling: Compute auto-scaling didn't initiate for base tier due to insufficient oplog size
如果 Atlas 因 oplog 容量不足而无法扩展运行节点 ,则触发该警报。要了解更多信息,请参阅设置最小 Oplog Window。
Auto-scaling: Compute auto-scaling didn't initiate for analytics tier due to insufficient oplog size
如果 Atlas 由于 oplog 大小不足而无法扩展分析节点 ,则引发此事件。要了解更多信息,请参阅设置最小 Oplog Window。
Auto-scaling: Disk auto-scaling didn't initiate due to the cluster reaching maximum available disk size
如果 Atlas 因集群已达到最大可用磁盘容量而无法扩展磁盘容量,则触发该警报。
Auto-scaling: Disk auto-scaling didn't initiate due to insufficient oplog size
如果 Atlas 因集群的 oplog 大小不够而无法扩展磁盘大小,则触发该警报。
Atlas Search
以下警报条件测量 Atlas Search 进程使用的 CPU 和内存量。您可以通过集群监控查看 Atlas Search 指标。
Atlas Search: Index Replication Lag is
如果 Atlas Search 在复制
mongod
的 oplog 中的更改时落后的大致毫秒数高于或低于阈值,则会引发此警报。
Atlas Search: Max Number of Lucene Docs is
如果用于存储给定副本集或分片的 Atlas Search 索引的 Lucene 文档数量上限高于阈值,则触发该警报。
Insufficient disk space to support rebuilding search indexes
如果集群没有足够的可用磁盘空间来支持 Atlas Search 索引,则触发警报。
Search Process: Disk space used is
如果 Atlas Search 进程使用的磁盘空间总字节数高于阈值,则会引发此警报。
注意
如果将该条件应用于所有主机,则它也适用于专用搜索节点。
平均执行时间
以下警报条件测量 MongoDB 进程的读取、写入或命令的平均执行时间(从 MongoDB serverStatus
命令的 opLatencies
文档收集)。您可以通过集群监控来查看断言。
Opcounter
以下警报条件衡量自上次启动 MongoDB 进程以来该进程的数据库操作速率,这些操作是从 MongoDB serverStatus
命令的 opcounters
文档中收集的。您可以通过 集群监控查看 opcounter。
Opcounter - Repl
以下警报条件可用于测量对 MongoDB 从节点执行的数据库操作的速率,它们是从 MongoDB serverStatus
命令的 opcountersRepl
文档中收集的。您可以在 Opcounters - Repl 图表上查看这些指标,可通过集群监控访问该图表。
操作扫描和排序
您可以为 MongoDB 进程的扫描和排序操作设置警报。
Atlas 免费集群
内存
以下条件测量 MongoDB 进程的内存,内存是从 MongoDB serverStatus
命令的 mem
文档收集的。您可以在 Atlas Memory 和 Non-Mapped Virtual Memory 图表上查看这些指标,可通过集群监控访问这些图表。
Memory: Computed is
如果内存映射未考虑的虚拟内存大小满足指定阈值,则触发该警报。如果该数字非常高(多个 GB),则表明在内存映射之外使用过多内存。
提示
另请参阅:
要了解如何使用此指标,请查看 Non-Mapped Virtual Memory 图表并点击图表的 i 图标。
Memory: Virtual is
如果
mongod
进程的虚拟内存大小达到指定阈值,则触发该警报。您可以使用此警报来标记内存映射之外的过多内存。提示
另请参阅:
要了解更多信息,请点击 Memory 图表的 i 图标。
连接
以下警报条件测量 MongoDB 进程的连接数,该连接数是从 MongoDB serverStatus
命令的 connections
文档收集的。您可以在 Atlas Connections 图表上查看该指标,可通过集群监控访问该图表。
Queues
以下警报条件测量从 MongoDB serverStatus
命令的 globalLock
文档收集的等待锁的操作数。您可以在 Atlas Queues 图表上查看这些指标,可通过集群监控访问该图表。
Queues: Readers is
如果等待读锁的操作数达到指定的平均值,则触发该警报。
Queues: Total is
如果等待任何类型锁的操作数达到指定的平均值,则触发该警报。
Queues: Writers is
如果等待写锁的操作数达到指定的平均值,则触发该警报。
页面错误
以下警报条件衡量从 MongoDB serverStatus
命令的 extra_info.page_faults
字段收集的 MongoDB 进程的页面错误率。
Page Faults is
如果页面错误率(无论是否引发异常)达到指定的阈值,则触发。您可以在 Atlas Page Faults 图表上查看该指标,可通过集群监控访问该图表。
Cursors
以下警报条件测量的是 MongoDB 进程的游标数量,这些游标是从 MongoDB serverStatus
命令的 metrics.cursor
文档中收集的。您可以在 Atlas Cursors 图表上查看这些指标,可通过集群监控访问该图表。
网络
以下警报条件测量 MongoDB 进程的吞吐量,吞吐量是从 MongoDB serverStatus
命令的 network
文档收集的。您可以在主机的 Network(网络)图表上查看这些指标,可通过集群监控访问该图表。
复制 Oplog
以下警报条件适用于 MongoDB 进程的 oplog。您可以在以下图表上查看这些指标,可通过集群监控访问这些图表:
Oplog GB/Hour
Replication Headroom
Replication Lag
Replication Oplog Window
以下警报条件应用于 oplog:
数据库存储
以下警报条件适用于由 MongoDB dbStats 命令为 MongoDB 进程收集的数据库存储量。有关 Atlas 如何处理达到数据库存储限制的详细信息,请参阅常见问题解答页面。这些条件基于 MongoDB 进程上所有数据库的总和:
注意
Atlas 默认下每 20 分钟检索一次数据库指标,但会在必要时调整频率以减少对数据库性能的影响。
DB Storage is
如果分配的存储满足指定的阈值,则引发此警报。可以在主机的 DB Storage 图表上查看此警报条件,可通过集群监控访问该图表。
WiredTiger 存储引擎
以下警报条件用于 MongoDB 进程的 WiredTiger 存储引擎,该进程是从 MongoDB serverStatus
命令的 wiredTiger.cache
和 queues.execution
文档收集的。
您可以在以下图表上查看这些指标,可通过集群监控访问这些图表:
Cache Activity
Cache Usage
Tickets Available
以下是适用于 WiredTiger 的警报条件:
对于在 MongoDB 7.0 及更高版本上运行的集群,请勿使用工单数量作为过载警报的指标。从 MongoDB 版本 7.0 开始,Atlas 动态调整工单数量。相反,使用排队的读取器和写入器的数量作为过载指标。
系统和磁盘警报
以下警报条件测量 Atlas 服务器集群的使用情况:
注意
目前,Atlas 对数据、索引和日志文件使用单个分区。尽管警报引用各个分区,但它们指向相同的指标。
注意
所有硬件指标都有等效的突发报告,具有不同的可配置警报。要了解更多信息,请参阅突发报告。
Disk space % used on Data Partition is
在包含 MongoDB 集合数据的任何分区上使用的磁盘空间的百分比。
要查找此警报的可能解决方案,请参阅警报解决方案。
System: CPU (Steal) % is
当 EC2 集群信用余额耗尽时适用。
CPU 使用率超过保证基线 CPU 信用累积率的百分比。CPU 信用是累积的 CPU 利用率单位。信用以恒定速率累积,以提供有保证的性能水平。这些信用可提高 CPU 性能。当信用余额耗尽时,仅提供 CPU 性能的保证基线,超出的量以窃取百分比显示。
注意
Atlas Triggers仅对支持Amazon Web Services 2突发性能 的 EC 集群触发此警报 。目前,这些是
M10
和M20
集群类型。
重启
主机关闭
Host is Down
如果 Atlas 在几分钟内无法到达主机,则触发该警报。
重要
仅当您依赖于从节点读取时才应配置此警报。有关从节点读取的更多信息,请参阅使用预定义副本集标签进行查询和读取偏好。
该警报通常由以下情况触发:
集群出现故障,正在自动修复。
网络问题导致无法访问集群。
MongoDB Atlas 检查停机并非源于您的操作(例如,滚动索引构建)。MongoDB Atlas 如果确认停机不是故意的,则会尝试替换受影响的节点。如果发生故障,只要大多数节点正在运行,Atlas 集群就会保持节点的读取和写入可用性。要了解更多信息,请参阅 MongoDB Atlas 如何提供高可用性?
Swap
以下警报条件用于交换空间使用率:
不适用的主机条件
以下主机条件不会应用于 Atlas。Atlas 在以下情况下不会生成警报:
不在内存中的访问数:总计为
后台刷新平均值为
B-Tree:访问次数为
B-Tree:命中次数为
B-Tree:未命中次数是
B-Tree:失误率为
游标:客户端游标大小为
有效锁 % 为
写锁中的日志记录提交是
日志记录大小 (MB)
日志写入数据文件大小 (MB) 为
内存:已映射内存容量为
引发的页面错误异常:总数为
查询目标警报
以下警报用于集合上的索引。这两种警报都可能表明索引丢失或效率低下。
Atlas Search 进程 (mongot
) 用来保持 Atlas Search 索引更新的变更流游标可以提高查询目标比率,如果比率很高,则会触发查询定位警报。
云备份警报
以下警报应用于云备份快照。
副本集警报
以下警报条件适用于副本集:
Number of elections in last hour is > X
过去一小时内发生的选举数量超过用户指定的
X
值触发。X
的值是在您创建警报时设置的。此警报可能表明集群的复制未处于健康状态,不断的选举即可证明。
Replica set elected a new primary
当副本集选举新的主节点时引发此警报。
分片集群警报
以下警报条件用于分片集群:
Cluster is missing an active mongos
如果 Atlas 无法联系集群的任何
mongos
,则引发该警报。
App Services 警报
以下警报条件适用于 Atlas App Services。
Endpoints Compute Time is
如果每秒 HTTPS 端点计算时间达到指定阈值,则触发该警报。
Endpoints Egress Bytes is
如果每秒 HTTPS 端点数据出口字节数达到指定阈值,则。
Failed Requests - GraphQL is
如果每秒失败的 GraphQL 请求数量达到指定阈值,则触发该警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档。
Failed Requests - Sync is
如果每秒失败的 Atlas Device Sync 请求数达到指定阈值,则触发该警报。
GraphQL Compute Time is
如果每秒 GraphQL 计算时间达到指定阈值,则触发该警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档。
GraphQL Egress Bytes is
如果 GraphQL 每秒数据传出字节数达到指定阈值,则引发警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档。
GraphQL Request Duration P95 is
如果 GraphQL 请求的持续时间(以毫秒为单位)的第 95 个百分位数达到指定阈值,则触发该警报。(GraphQL 对 Atlas App Services 的支持已弃用。如需了解更多信息,请参阅 Atlas App Services 文档)。
Overall Compute Time is
如果每秒总计算时间达到指定阈值,则触发该警报。
Overall Egress Bytes is
如果每秒总数据出口节数达到指定阈值,则触发该警报。
SDK Functions Compute Time is
如果每秒 SDK 函数计算时间达到指定阈值,则触发该警报。
SDK Functions Egress Bytes is
如果每秒 SDK 函数数据出口字节数达到指定阈值,则触发该警报。
SDK MQL Compute Time is
如果每秒 SDK MQL 计算时间达到指定阈值,则触发该警报。
SDK MQL Egress Bytes is
如果每秒 SDK MQL 数据出口字节数达到指定阈值,则触发该警报。
Session Ended - Sync is
如果 Atlas Device Sync 期间每秒结束的会话数达到指定阈值,则触发该警报。
Sync Client Bootstrap Time is
如果 Atlas Device Sync 客户端的引导时间的第 95 个百分位数达到指定阈值,则触发该警报。
Sync Client Uploads that failed is
如果 Atlas Device Sync 客户端上每秒失败的上传次数达到指定阈值,则触发该警报。
Sync Client Uploads that are invalid
如果 Atlas Device Sync 客户端上每秒的无效上传次数达到指定阈值,则触发该警报。
Sync Current Oplog Lag Sum is
如果 Atlas Device Sync 滞后 MongoDB oplog 的大致时间长度达到指定阈值,则触发该警报。
Sync Egress Bytes is
如果每秒 Atlas Device Sync 数据出口字节数达到指定阈值,则触发该警报。
Sync Num Unsyncable Docs % is
如果 App Services 无法同步的文档数量达到指定阈值,则触发该警报。
Triggers Compute Time is
如果每秒 Triggers 计算时间达到指定阈值,则触发该警报。
Triggers Current Oplog Lag Sum is
如果 App Services Tiggers 滞后 MongoDB oplog 的大致时间长度达到指定阈值,则触发该警报。
Triggers Egress Bytes is
如果每秒 Tiggers 数据出口字节数达到指定阈值,则触发该警报。
无服务器警报
以下警报条件适用于无服务器实例:
用户警报
以下警报条件适用于 Atlas 用户。
Organization users do not have multi-factor authentication enabled
当组织中的一个或多个用户未启用多因素身份验证时触发。
项目警报
以下警报条件适用于 Atlas 项目。
账单警报
以下警报条件用于 Atlas 账单。您可以通过 Atlas 用户界面配置组织级或项目级账单提醒。
要配置组织级别的警报:
在 Atlas 中,转到 Organization Settings(项目设置)页面。
如果尚未显示,组织从导航栏中的Organizations菜单。
单击 Organizations 菜单旁边的 Organization Settings 图标。
显示“组织设置”页面。
转到 Organization Alerts(快速入门)页面。
单击侧边栏中的 Alerts(支持)。
将显示组织警报页面。
要配置项目级别警报,请执行以下操作:
在 Atlas 中,转到 Project Alerts(项目设置)页面。
如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。
执行以下步骤之一:
单击导航栏中的 Project Alerts 图标。
在 Projects 菜单旁边,展开 Options 菜单,单击 Project Settings,然后单击侧栏中的 Alerts。
将显示项目警报页面。
注意
所有账单金额均以美元为单位。
Amount billed ($) yesterday is above the threshold
如果组织或项目的最近每日账单金额超过配置的阈值,则触发。Atlas 在计算账单金额时,不考虑前一天的任何贷项。
此条件适用于组织和项目。
联合警报
Organization's IdP certificate is about to expire
如果与您拥有
Organization Owner
角色的组织关联的 IdP 证书在 14 天内过期,则引发此警报。Atlas 每天都会发送此警报,直到您确认为止。注意
当您将组织映射到 IdP 提供商时,Atlas 会自动创建此警报。如果您删除该映射,Atlas 将删除此警报的所有实例。
静态加密警报
以下警报条件适用于使用客户密钥管理的静态加密的项目。
AWS encryption key elapsed time since last rotation is above (n) days
如果 Atlas 项目使用的 AWS 客户主密钥 (CMK) 的活动天数超过配置的天数(默认为 90 天),则会引发此警报。
要修改警报阈值,请执行以下操作:
在 Atlas 中,前往 Project Alerts 页面。
如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。
执行以下步骤之一:
单击导航栏中的 Project Alerts 图标。
在 Projects 菜单旁边,展开 Options 菜单,单击 Project Settings,然后单击侧栏中的 Alerts。
将显示项目警报页面。
单击 Alert Settings(“下载”图标)。
如果您将默认 90天
alert
配置为大于Amazon Web ServicesAmazon Web ServicesKMS KMSAtlas Amazon Web Services集合扫描轮换,则Atlas不会创建警报,因为Amazon Web Services会自动轮换您的集合扫描 。如果您轮换项目 CMK,此警报将自动重置。有关如何轮换项目 CMK 的文档,请参阅轮换 AWS 客户主密钥。
Azure encryption key elapsed time since last rotation is above (n) days
如果 Atlas 项目使用的 Azure Key Vault 密钥标识符的活动时间超过配置的天数(默认为 90 天),则触发该警报。
要修改警报阈值,请执行以下操作:
在 Atlas 中,前往 Project Alerts 页面。
如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。
执行以下步骤之一:
单击导航栏中的 Project Alerts 图标。
在 Projects 菜单旁边,展开 Options 菜单,单击 Project Settings,然后单击侧栏中的 Alerts。
将显示项目警报页面。
单击 Alert Settings(“下载”图标)。
如果轮换项目密钥标识符,此警报则会自动重置。有关如何轮换项目密钥标识符的文档,请参阅关于轮换 Azure 密钥标识符。
GCP encryption key elapsed time since last rotation is above (n) days
如果 Atlas 项目使用的 GCP 密钥版本资源 ID 的活动天数超过配置的天数(默认为 90 天),则触发该警报。
要修改警报阈值,请执行以下操作:
在 Atlas 中,前往 Project Alerts 页面。
如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。
执行以下步骤之一:
单击导航栏中的 Project Alerts 图标。
在 Projects 菜单旁边,展开 Options 菜单,单击 Project Settings,然后单击侧栏中的 Alerts。
将显示项目警报页面。
单击 Alert Settings(“下载”图标)。
如果您轮换项目密钥版本资源 ID,则此警报会自动重置。
要了解如何轮换项目密钥版本资源 ID,请参阅轮换 GCP 密钥版本资源 ID。
Encryption at Rest KMS network access denied
如果云提供商的 KMS 档案由于网络访问限制而无效,则触发该警报。
要修改或删除该警报,请执行以下操作:
在 Atlas 中,前往 Project Alerts 页面。
如果尚未显示,请从导航栏上的 Organizations 菜单中选择包含所需项目的组织。
如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。
执行以下步骤之一:
单击导航栏中的 Project Alerts 图标。
在 Projects 菜单旁边,展开 Options 菜单,单击 Project Settings,然后单击侧栏中的 Alerts。
将显示项目警报页面。
单击 Alert Settings(“下载”图标)。
所有新项目均默认启用此警报。
维护窗口警报
以下警报条件适用于已配置维护窗口的项目。
注意
只有当项目具有有效的维护时段时,您才能配置维护窗口警报。
MongoDB 支持访问授权警报
Atlas Stream Processing 警报
以下警报条件适用于运行 Stream Processing 实例的项目。