/ /

查看警报条件

对于您创建的每个项目或全局警报，您必须设立一个目标以及一个条件或指标。目标指向已更改的内容： MongoDB Ops Manager组件。如果条件成立或指标达到设立的阈值， MongoDB Ops Manager将触发警报。要学习；了解更多信息，请参阅警报工作流程。

要设置条件：

从列表中选择一个 Target 。
在condition/metric列表中选择一个条件。

当指定目标 MongoDB 实例上的条件为 true时，Ops Manager 会触发 Atlas Triggers。

要设置指标，请执行以下操作：

从列表中选择Target类型。
筛选Target类型或选择Any 。
在condition/metric列表中选择一个指标。
选择此指标应为Below或Above阈值。
键入阈值。所有阈值都是数字。
选择阈值的度量单位。

当指定的目标 MongoDB 实例达到指标阈值时，Ops Manager 会Atlas Triggers警报。

主机警报

为主机设置警报时，请选择适用于此警报的host type和触发此警报的condition 。

主机类型

对于host type ，为以下所有类型或其中一种类型的 MongoDB 进程设置警报：

将主机类型设置为：	警报包括
任何类型	此表中描述的所有类型。
独立运行的实例	任何既不属于副本集或分片集群，也不用作配置服务器的 mongod 实例。
主节点	所有副本集主节点。
从节点	所有副本集从节点。
投票节点	所有副本集仲裁节点。
Mongos	所有mongos实例。
Conf	用作配置服务器的所有 mongod 实例。

主机警报条件

主机状态变更

您可以设置在 MongoDB 实例发生变化时发出警报。主机状态条件包括：

条件	警报 trigger
已添加主机	MongoDB Ops Manager首次开始监控或管理mongod或`mongos`进程。
主机已删除	MongoDB Ops Manager首次停止监控或管理mongod或`mongos`进程。
主机已添加到副本集	指定类型的mongod进程已添加到副本集中。
主机已从副本集中删除	已从副本集删除指定类型的 mongod 进程。
主机已重新启动	Ops Manager 检测到主机已重新启动。
最后一小时重新启动次数为	Ops Manager 检测到主机在前一小时内重新启动的次数超过指定阈值。
主机出现回滚	MongoDB Ops Manager检测到主机上的mongod触发了回滚。以下主机类型无法进行回滚：仲裁节点 mongos 要学习；了解更多信息，请参阅副本集故障转移期间的回滚。
主机正在恢复	从从节点(secondary node from replica set)进入`RECOVERING`状态。要学习；了解有关`RECOVERING`状态的更多信息，请参阅副本集成员状态。
主机不是最新版本	主机上运行的 MongoDB 的修订版本比 MongoDB 当前稳定版本落后两个或多个修订版本。示例，如果当前的稳定发布是MongoDB 4.0.9，则运行MongoDB 4.0.8 的托管不会trigger警报，但运行MongoDB 4.0.7 版本的托管会trigger警报。要学习；了解有关MongoDB版本编号的更多信息，请参阅MongoDB手册中的MongoDB版本号。
主机的 SSL 证书将在 30 天内过期	MongoDB 实例的 SSL 证书还有 30 天过期。 Ops Manager 每 24 小时重新发送一次警报，直到问题解决或得到确认。如果您未解决或确认警报且证书已过期，则 Ops Manager 会继续发送警报。如果证书过期，监控将无法再连接到 MongoDB 实例。

主机已关闭	Ops Manager 未收到主机网络探测（ping）的时间超过 4 分钟。在正常操作下，监控大约每分钟连接到每个受监控主机一次。 Ops Manager 会等待 4 分钟，然后再触发警报，以最大限度地减少主机重启期间可能发生的误报。如果主机仍然无法访问，监控最终会将 ping 频率降低到每5分钟mongod和每20分钟mongos 。 mongod如果一个或mongos 再次变得可访问，MongoDB Ops Manager 将在5 分钟内识别该进程。如果MongoDB Ops Manager自动化不管理mongos进程，并且该进程在 30 天内仍然无法访问， MongoDB Ops Manager将从Deployment标签页中删除该进程。但是，如果重新启动mongos进程， MongoDB Ops Manager会检测到它。要解决此警报，请参阅修复主机故障。

主机已关闭

Ops Manager 未收到主机网络探测（ping）的时间超过 4 分钟。在正常操作下，监控大约每分钟连接到每个受监控主机一次。 Ops Manager 会等待 4 分钟，然后再触发警报，以最大限度地减少主机重启期间可能发生的误报。

如果主机仍然无法访问，监控最终会将 ping 频率降低到每5分钟mongod和每20分钟mongos 。 mongod如果一个或mongos 再次变得可访问，MongoDB Ops Manager 将在5 分钟内识别该进程。

如果MongoDB Ops Manager自动化不管理mongos进程，并且该进程在 30 天内仍然无法访问， MongoDB Ops Manager将从Deployment标签页中删除该进程。但是，如果重新启动mongos进程， MongoDB Ops Manager会检测到它。

要解决此警报，请参阅修复主机故障。

顾问

您可以设置Host Has Index Suggestions警报，以便在性能优化顾问有针对主机的索引建议时接收警报。

如果主机的查询目标比率在 10 分钟内持续超过 10,000，Performance Advisor会检查主机是否存在低效查询，以及可能的索引以提高性能。如果性能优化顾问确定主机会从一个或多个索引中受益，则会触发此警报，并指导您创建建议的索引。

对于禁用了Performance Advisor的项目，不会trigger此警报。

断言

您可以设置针对实例每秒创建的断言错误数量的警报。

注意

如何衡量

MongoDB使用serverStatus命令返回的asserts文档报告 opscounter。

断言指标包括：

衡量标准	警报 trigger
断言：常规为	常规断言率达到指定阈值。
断言：警告为	警告率达到指定阈值。
断言：消息为	消息断言率达到指定阈值。消息断言是内部服务器错误。会记录这些操作的堆栈跟踪。
断言：用户是	用户创建的断言率达到指定阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

平均执行时间

重要

仅适用于 MongoDB 3.4 或更高版本

以下指标仅适用于运行 MongoDB 3.4 或更高版本的部署。

您可以针对操作完成所需的时间设置警报。执行时间指标包括：

衡量标准	警报 trigger
平均执行时间：命令为	命令操作的平均执行时间达到指定的阈值。
平均执行时间：读取次数为	读取操作的平均执行时间达到指定阈值。
平均执行时间：写入为	写入操作的平均执行时间达到指定的阈值。

文档指标

您可以针对每秒处理的 MongoDB 文档数量设置警报。文档处理指标包括：

衡量标准	警报 trigger
文档指标：已删除的是	每秒删除文档的平均速率达到指定的阈值。
文档指标：Inserted is	每秒插入文档的平均速率达到指定的阈值。
文档指标：返回的是	每秒返回文档的平均速率达到指定的阈值。
文档指标：更新为	每秒更新文档的平均速率达到指定的阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

查询目标

您可以针对 MongoDB 在查询期间扫描项目的速度以及扫描的项目数与返回的文档数进行比较设置警报。查询执行时间指标包括：

注意

如何衡量

MongoDB根据explain命令来衡量查询性能。

Query Targeting: Scanned is: 在查询和查询计划评估期间扫描索引项的平均每秒速率达到指定的阈值。

Query Targeting: Scanned Objects is: 扫描文档的平均每秒速率达到指定的阈值。

Query Targeting: Scanned / Returned is: 扫描的索引项与返回的文档的比率达到指定阈值。

Query Targeting: Scanned Objects / Returned is: 扫描的文档与返回的文档的比率达到指定阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

Opcounter

您可以设置每秒完成的数据库操作数警报。

注意

如何衡量

MongoDB使用serverStatus命令返回的opscounters文档报告 opscounter。

操作指标包括：

条件	警报 trigger
Opcounter：Cmd 是	每秒执行命令的平均速率达到指定的阈值。
Opcounter：删除的是	每秒执行的平均删除速率达到指定的阈值。
Opcounter：Getmores 是	每秒执行 getMores 的平均速率达到指定的阈值。在主节点上，即使查询计数较低，此数字也可能很高。作为复制的一部分，从节点从主节点“获取更多”。
Opcounter：插入为	每秒执行插入的平均速率达到指定的阈值。
Opcounter：查询是	每秒执行查询的平均速率达到指定的阈值。
Opcounter：更新为	每秒执行的平均更新速率达到指定的阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

Opcounter - Repl

您可以设立针对每秒复制到MongoDB从节点的数据库操作数量的警报。

注意

如何衡量

MongoDB使用serverStatus命令返回的opscountersRepl文档报告 opscounter。

复制操作指标包括：

衡量标准	警报 trigger
Opcounter：Repl Cmd 为	每秒应用的复制命令的平均速率达到阈值。
Opcounter：Repl Delete 为	每秒应用的复制删除平均速率达到阈值。
Opcounter：Repl 插入为	每秒应用的复制插入平均速率达到阈值。
Opcounter：Repl 更新为	每秒应用的复制更新平均速率达到阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

内存

您可以为 MongoDB 实例使用的内存量设置警报。以位、千位、兆位、千兆位、字节、千字节、兆字节、千兆字节、太字节或拍字节为单位设置此阈值。

注意

如何衡量

MongoDB 使用serverStatus命令返回的mem文档报告内存情况。

内存指标包括：

衡量标准	警报 trigger
内存：常驻是	`mongod`进程的常驻内存大小达到指定的阈值。随着时间的推移，在专用数据库托管上，常驻内存可能会接近托管上的RAM大小。
内存：虚拟内存	`mongod`进程的虚拟内存大小达到指定的阈值。您可以使用此警报来标记内存映射之外的过多内存。
内存：已映射内存容量为	`mongod`进程的映射内存大小达到指定的阈值。由于MongoDB所有数据文件进行内存映射，因此映射内存的大小应接近数据库总大小。
内存：计算出的是	内存映射未考虑的`mongod`进程的虚拟内存大小达到指定的阈值。如果此数字非常高（多个 GB），则表示在内存映射之外使用了过多内存。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

安全性

安全指标包括：

衡量标准	警报 trigger
主机提供安全建议	身份验证或 TLS已禁用。

Swap

交换指标包括：

衡量标准	警报 trigger
交换使用情况：已使用 is	正在使用的交换空间总量已达到指定阈值。
交换使用量：最大已使用值为	正在使用的最大交换空间总量达到指定阈值。
交换使用量：免费是	可用交换空间量已降至指定阈值以下。
交换使用量：最大可用空间为	最大可用交换空间量低于指定阈值。

WiredTiger 缓存

您可以为 MongoDB 实例使用的 WiredTiger 缓存量设置警报。以位、千位、兆位、千兆位、字节、千字节、兆字节、千兆字节、太字节或拍字节为单位设置此阈值。

注意

如何衡量

MongoDB 使用serverStatus命令返回的cache文档报告内存情况。

WiredTiger 缓存指标包括：

衡量标准	警报 trigger
缓存：读入缓存的字节数为	每秒读入 WiredTiger 缓存的平均字节速率达到指定的阈值。
缓存：从缓存写入的字节数为	从 WiredTiger 缓存写入的平均字节每秒速率达到指定的阈值。
缓存：脏字节数为	WiredTiger 缓存中当前跟踪的脏数据字节数。
缓存：已用字节数为	WiredTiger 缓存中当前的字节数。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

B树

重要

仅适用于 MongoDB 2.2 至 2.6

这些指标仅对运行 MongoDB 2.2 至 2.6 版本的部署Atlas Triggers警报。

您可以设置针对 MongoDB 实例上每秒完成的 BTree 操作数量的警报。 B-Tree 指标包括：

衡量标准	警报 trigger
B-Tree：访问次数为	对 B-Tree 索引的访问次数达到指定阈值。
B-Tree：命中次数为	B-Tree 页面在内存中的次数达到指定阈值的次数。
B-Tree：未命中次数是	B-Tree 页面不在内存中的次数达到指定阈值。
B-Tree：失误率为	未命中与命中的比率达到指定的阈值。

有效锁百分比

重要

仅适用于 MongoDB 2.2 至 2.6

该指标仅对运行 MongoDB 2.2 至 2.6 版本的部署Atlas Triggers警报。

您可以针对MongoDB实例处于写入锁定状态的时间百分比设立警报。有效锁定百分比指标包括：

衡量标准	警报 trigger
有效锁 % 为	如果实例处于写入锁定状态的总时间百分比达到指定的阈值。

背景刷新平均值

重要

仅适用于运行 MMAPv1 的数据库

该指标仅对针对 MongoDB 数据库运行 MMAPv1 存储引擎的部署 Atlas Triggers 警报。

您可以设置警报，了解 MongoDB 实例上的平均刷新需要多长时间（以毫秒为单位）。刷新是将数据从内存写入磁盘。

注意

如何衡量

MongoDB使用serverStatus命令返回的backgroundFlushing.average_ms值报告平均背景刷新时间。

背景刷新平均指标包括：

衡量标准	警报 trigger
后台刷新平均值为	背景刷新的平均时间达到指定的阈值。

连接

您可以为 MongoDB 实例的活动连接设置警报。

注意

如何衡量

MongoDB 使用serverStatus命令返回的connections文档报告内存情况。

连接指标包括：

衡量标准	警报 trigger
连接数为	活动主机连接数达到指定阈值。
已配置限制的连接百分比为	活动主机连接数占可能连接总数的百分比达到指定阈值。 MongoDB 版本 2.6.0 和 3.0.0 的默认值为`65536` ，MongoDB ( `>` ) 3.0.0 以上版本的默认值为`1000000` 。您可以通过两种方式覆盖默认值：使用mongod `--maxConnns`为`mongod`设立最大并行连接数。要学习；了解更多信息，请参阅mongod核心选项。更新MongoDB配置文件中的`net.maxIncomingConnections`字段。要学习；了解更多信息，请参阅net 选项。

衡量标准

警报 trigger

连接数为

活动主机连接数达到指定阈值。

已配置限制的连接百分比为

活动主机连接数占可能连接总数的百分比达到指定阈值。 MongoDB 版本 2.6.0 和 3.0.0 的默认值为65536 ，MongoDB ( > ) 3.0.0 以上版本的默认值为1000000 。您可以通过两种方式覆盖默认值：

使用mongod --maxConnns为mongod设立最大并行连接数。要学习；了解更多信息，请参阅mongod核心选项。
更新MongoDB配置文件中的net.maxIncomingConnections字段。要学习；了解更多信息，请参阅net 选项。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

Queues

您可以为等待锁的操作设置警报。

注意

如何衡量

MongoDB 使用serverStatus命令返回的globalLock.currentQueue文档报告内存情况。

队列指标包括：

衡量标准	警报 trigger
队列：总计为	等待任何类型的锁的操作数量达到指定的阈值。
Queues: Readers 是	等待任何类型锁的读取器操作数量达到指定的阈值。
Queues: Writers 是	等待任何类型的锁的写入操作数达到指定的阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

页面错误

重要

仅适用于 MongoDB 2.2 至 2.6

Accesses Not In Memory: Total is和Page Fault Exceptions Thrown: Total is指标仅对运行 MongoDB 版本 2.2 到 2.6 的部署触发警报。

您可以设置页面错误警报。

注意

如何衡量

MongoDB 使用serverStatus命令返回的extra_info.page_faults文档报告内存情况。

MongoDB 2.2到2.6使用serverStatus命令返回的recordStats文档报告Accesses Not In Memory: Total is和Page Fault Exceptions Thrown: Total is指标。

页面错误指标包括：

衡量标准	警报 trigger
不在内存中的访问数：总计为	磁盘访问速率达到指定的阈值。如果内存放不下您的工作集， MongoDB必须访问权限磁盘上的数据。该指标可在主机的`Record Stats`图表找到。
引发的页面错误异常：总数为	引发的页面错误异常率达到指定的阈值。该指标可在主机的`Record Stats`图表上找到。
页面错误是	页面错误率（无论是否引发异常）达到指定的阈值。该指标可在主机的`Page Faults`图表上找到。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

Cursors

您可以为MongoDB进程的打开游标和超时游标数量设立警报。

注意

如何衡量

MongoDB 使用serverStatus命令返回的metrics.cursor文档报告内存情况。

游标指标包括：

衡量标准	警报 trigger
游标：客户端游标大小为	主机用于维护游标的内存量达到指定的阈值。
游标：打开为	主机为客户端维护的游标数量达到指定阈值。
游标：超时是	主机为客户端维护的超时游标数量达到指定阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

网络

您可以为 MongoDB 进程的网络吞吐量设置警报。

注意

如何衡量

MongoDB 使用serverStatus命令返回的network文档报告内存情况。

网络指标包括：

衡量标准	警报 trigger
网络：字节输入为	发送到数据库主机的字节数达到指定阈值。
网络：输出字节数为	从数据库主机发送的字节数达到指定阈值。
网络：请求数量为	发送到数据库主机的请求数量达到指定阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

复制 Oplog

您可以为 MongoDB 进程的复制 oplog 设置警报。

注意

如何衡量

MongoDB使用oplog oplogserverStatus 命令返回的文档以及 rs.status() 和 rs.conf() 的结果来报告复制。

复制 oplog 指标包括：

衡量标准	警报 trigger
复制空间为	同步源的复制oplog窗口与从节点的复制延迟之间的差值达到指定的阈值。如果此值变为 `0`，从节点(secondary node from replica set)可以Go `RECOVERING`。
副本时间为	主节点的复制oplog中可用的大致时间量（以毫秒为单位）达到指定阈值。
每小时的 Oplog 数据为	主节点每小时生成千兆字节 oplog 的平均速率达到指定的阈值。
复制延迟为	在写入应用程序中，从主节点 (primary node in the replica set) 从节点(secondary node from replica set) 的大致秒数。仅当延迟大于1 - 2秒时才准确，因为此统计数据的精度有限。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

超出指标阈值

您可以使用OUTSIDE_METRIC_THRESHOLD事件类型配置警报，在指标超出指定阈值时触发。启用后，如果监控指标的值超出您指定的阈值，Ops Manager就会触发警报。

配置 OUTSIDE_METRIC_THRESHOLD 警报时，必须在 metricThreshold 对象中设立值，以指定要监控的指标以及阈值条件。

为 OUTSIDE_METRIC_THRESHOLD 创建警报时，请指定以下关键参数。这可确保每当指标值高于或低于定义的阈值时，您都会收到通知。另请指定通知参数。要学习；了解有关通知参数的更多信息，请参阅全局警报配置。

Parameter	说明
`metricName`	要监控的指标的名称。
`operator`	比较操作符，可以是 `GREATER_THAN` 或 `LESS_THAN`。
`threshold`	应触发警报的值。
`units`	测量单位，取决于指标类型。
`mode`	将此参数设置为 `AVERAGE`，因为Ops Manager会将该指标的值计算为平均值。

示例：超出指标阈值

您可以使用 OPLOG_REPLICATION_LAG_TIME 指标监控oplog复制延迟。该指标衡量副本集从节点(secondary node from replica set)与主节点 (primary node in the replica set)之间的复制延迟，并报告从节点(secondary node from replica set)在应用 write 操作时落后于主节点 (primary node in the replica set)的大致秒数。仅当延迟大于 1-2 秒时，该指标才准确，因为此统计数据的精度有限。

使用此警报可检测复制延迟何时超过可接受的阈值，这可能表明影响副本集同步的性能问题或网络问题。

以下示例创建了一个警报配置，该配置在oplog复制延迟超过 5 秒时触发：

要创建在oplog复制延迟超过 5 秒时触发的警报配置，请将以下JSON对象发送到 POST 请求中的 /groups/{PROJECT-ID}/alertConfigs 终结点。创建后，您可以检索配置及其通知 ID 以测试警报。调整 notifications 数组以匹配所需的通知设置。

{
  "eventTypeName": "OUTSIDE_METRIC_THRESHOLD",
  "enabled": true,
  "metricThreshold": {
    "metricName": "OPLOG_REPLICATION_LAG_TIME",
    "mode": "AVERAGE",
    "operator": "GREATER_THAN",
    "threshold": 5.0,
    "units": "SECONDS"
  },
  "notifications": [
    {
      "delayMin": 0,
      "emailEnabled": true,
      "intervalMin": 60,
      "typeName": "GROUP"
    }
  ]
}

以下示例使用 mongocli ops-manager alerts config create 命令创建一个警报配置，该配置在 oplog 复制延迟超过 5 秒时触发。将 <notification-token> 替换为从 mongocli ops-manager 通知 create 命令中获取的实际通知令牌。

mongocli ops-manager alerts config create \
  --event OUTSIDE_METRIC_THRESHOLD \
  --enabled \
  --metricName OPLOG_REPLICATION_LAG_TIME \
  --metricOperator GREATER_THAN \
  --metricThreshold 5.0 \
  --notificationToken <notification-token> \
  --output json

操作扫描和排序

您可以为 MongoDB 进程的扫描和排序操作设置警报。

注意

如何衡量

MongoDB 使用 serverStatus 命令返回的 metrics.operation.scanAndOrder 文档报告复制 oplog 。

操作指标包括：

衡量标准	警报 trigger
操作：扫描和排序是	返回排序结果但无法使用索引执行排序操作的查询的每秒平均速率（超过指定阈值）。

数据库存储

您可以为已使用的数据存储量设置警报。数据库存储指标包括：

衡量标准	警报 trigger
数据库存储是	扩展区使用的磁盘存储空间量达到指定的阈值。
数据库数据大小为	数据库中的实际数据大小达到指定的阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

日记

您可以针对已使用的日志存储量设置警报。日志指标包括：

衡量标准	警报 trigger
写锁中的日志记录提交是	数据库处于写锁状态时的提交速率达到指定的阈值。
日志记录大小 (MB)	Ops Manager 每秒写入恢复日志的平均数据量（以兆字节为单位）达到指定的阈值。
日志写入数据文件大小 (MB) 为	Ops Manager 每秒写入数据库数据文件的平均数据速率（以兆字节为单位）达到指定的阈值。由于这些写入已记录日志，因此可以延迟发生，因此此处指示的数字可能低于物理写入磁盘的数量。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

WiredTiger 存储引擎

您可以为 WiredTiger 票证设置警报。

注意

如何衡量

MongoDB使用serverStatus命令返回的wiredTiger.cache和wiredTiger.concurrentTransactions文档报告WiredTiger 。

WiredTiger storage engine 的条件包括：

衡量标准	警报 trigger
可用票证：读取数为	WiredTiger storage engine 可用的读取票证数量达到指定阈值。
可用票证：写入为	WiredTiger storage engine 可用的写入票证数量达到指定阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

系统和磁盘警报

您可以为计算和磁盘利用率设置警报。系统资源条件包括：

衡量标准	警报 trigger
系统：CPU (Steal) % 为	当 EC2 实例信用余额耗尽时适用。 CPU 处于“非自愿等待”状态的时间百分比。 CPU 窃取百分比是 CPU 使用率超过保证基线 CPU 信用累积率的百分比。当Amazon Web Services可突发性能实例的所有信用都已用完时，通常会触发此警报。
系统：最大 CPU (窃取) % 为	CPU 处于“非自愿等待”状态的最大时间百分比超过指定阈值。
系统：CPU（用户）百分比为	MongoDB 进程的 CPU 使用率，通过除以 CPU 数量，范围为 0-100%。
系统：最大 CPU（用户）百分比为	MongoDB 进程的最大 CPU 使用率（通过除以超过指定阈值的 CPU 数量，调整范围为 0-100%）。
系统内存：已使用	用于`mongod`的总系统内存减去缓冲区、缓存和可用内存后达到指定阈值。
系统内存：已使用的最大内存为	最大系统内存使用量值达到指定阈值。
系统内存：可用内存为	`mongod`的可用系统内存使用量已降至指定阈值以下。
系统内存：最大可用内存为	最大可用系统内存量降至指定阈值以下。
数据分区上使用的磁盘空间百分比为	包含 MongoDB 集合数据的任何分区上使用的磁盘空间百分比。
数据分区上使用的最大磁盘空间百分比为	包含 MongoDB 集合数据的任何分区上使用的磁盘空间的最大百分比超过指定阈值。
索引分区上使用的磁盘空间百分比为	包含 MongoDB 索引数据的任何分区上使用的磁盘空间的百分比。
索引分区上使用的最大磁盘空间百分比为	包含 MongoDB 索引数据的任何分区上使用的磁盘空间的最大百分比超过指定阈值。
日志分区上使用的磁盘空间百分比为	包含 MongoDB 日志的分区上使用的磁盘空间百分比（如果已启用日志功能）。
日志分区上使用的最大磁盘空间百分比为	包含 MongoDB 日志的分区上使用的最大磁盘空间百分比超过指定阈值。
系统网络输入	每秒发送到数据库主机的字节数达到指定阈值。
最大系统网络输入为	发送到MongoDB 的最大字节数达到指定阈值。
系统网络输出为	每秒从数据库主机发送的字节数达到指定阈值。
最大系统网络输出为	从MongoDB 发送的最大字节数达到指定阈值。

注意

您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。

在 Ops Manager 项目的Deployment视图中，单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表，然后选择要绘制图表的所需指标。

要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息，请参阅查看部署指标MongoDB Process Metrics 并单击标签页。

副本集警报

您可以设置有关主节点状态和副本集中健康成员数量的警报。副本集条件包括：

条件	警报 trigger
副本集选出新的主节点	设立选举出新的主节点 (primary node in the replica set)节点。 MongoDB Ops Manager每次收到网络探测（ping）时，都会检查副本集rs.status()方法的输出，了解每个副本集成员的状态。根据此输出， MongoDB Ops Manager确定哪个副本集成员是主节点 (primary node in the replica set)。如果网络探测（ping）数据中找到的主节点 (primary node in the replica set)节点与MongoDB Ops Manager已知的当前主节点 (primary node in the replica set)节点不同，则会触发此警报。收到此警报并不总是平均值该副本集已选出新的主节点。当重新选举同一个主节点时也可能trigger此警报。当 Ops Manager 在选举期间处理网络探测（ping）时，可能会发生这种情况。
副本集没有主节点	副本集没有主节点。具体来说，当副本集的所有节点都不具有状态 `PRIMARY` 时， Atlas Triggers警报。例如，当集合中有偶数个有投票权成员导致平局时，就可能出现这种情况。如果监控在主节点 (primary node in the replica set)节点选举期间收集数据，则此警报可能会发送误报。为防止此类误报，请设立警报配置的after waiting时间间隔（在配置的Send to部分中）。有关解决方案，请参阅修复丢失的主节点。

条件

警报 trigger

副本集选出新的主节点

设立选举出新的主节点 (primary node in the replica set)节点。 MongoDB Ops Manager每次收到网络探测（ping）时，都会检查副本集rs.status()方法的输出，了解每个副本集成员的状态。根据此输出， MongoDB Ops Manager确定哪个副本集成员是主节点 (primary node in the replica set)。如果网络探测（ping）数据中找到的主节点 (primary node in the replica set)节点与MongoDB Ops Manager已知的当前主节点 (primary node in the replica set)节点不同，则会触发此警报。

收到此警报并不总是平均值该副本集已选出新的主节点。当重新选举同一个主节点时也可能trigger此警报。当 Ops Manager 在选举期间处理网络探测（ping）时，可能会发生这种情况。

副本集没有主节点

副本集没有主节点。具体来说，当副本集的所有节点都不具有状态 PRIMARY 时， Atlas Triggers警报。例如，当集合中有偶数个有投票权成员导致平局时，就可能出现这种情况。

如果监控在主节点 (primary node in the replica set)节点选举期间收集数据，则此警报可能会发送误报。为防止此类误报，请设立警报配置的after waiting时间间隔（在配置的Send to部分中）。

有关解决方案，请参阅修复丢失的主节点。

副本集指标包括：

衡量标准	警报 trigger
健康节点数为	副本集的健康节点数少于您指定的阈值。
不健康成员的数量为	副本集运行状况不佳的成员数量超过了您指定的阈值。
过去一小时内的选举次数 > X	过去一小时内发生的选举数量超过了用户指定的`X`值。 `X`的值是在您创建警报时设置的。此警报可能表明集群的复制未处于健康状态，不断的选举即可证明。

注意

如果您为某个副本集运行rs.status()并且结果为该节点返回PRIMARY或SECONDARY ，则该副本集节点处于正常运行状态。隐藏的从节点和仲裁节点不计算在内。

分片集群警报

您可以为分片集群中缺少的mongos设立警报。分片集群条件包括：

条件	警报 trigger
集群缺少活动的 mongos	MongoDB Ops Manager无法访问集群的任何`mongos` 。

代理警报

您可以为代理状态或版本控制设置警报。代理条件包括：

条件	警报 trigger
自动化功能已关闭	至少 1 分钟未检测到自动化。在正常操作下，自动化大约每 10 秒向 Ops Manager 发送一次网络探测（ping）。如果 Ops Manager 至少 1 分钟未收到网络探测（ping），则会Atlas Triggers此警报。仅当自动化正在管理 MongoDB 进程或代理模块时，Atlas Triggers 此警报。
监控已关闭	至少 7 分钟未检测到监控。在正常操作下，监控大约每分钟向 Ops Manager 发送一次网络探测（ping）。如果 Ops Manager 至少 7 分钟未收到网络探测（ping），则会Atlas Triggers此警报。但是，对于未配置主机的项目，永远不会Atlas Triggers此警报。重要提示：当监控关闭时， MongoDB Ops Manager不会为任何托管触发其他警报。示例：如果托管关闭，则无法监控向MongoDB Ops Manager发送可能trigger新警报的数据。
监控没有最新版本	监控未运行最新版本的软件。
备份已关闭	至少有一个活动副本集或集群的项目的备份停机时间超过 1 小时。要解决此警报，请执行以下操作：要查看哪个主机提供备份，请单击Deployment ，然后单击Servers标签页。检查该主机上的备份日志文件。
备份没有最新版本	备份未运行最新版本的软件。

备份会议通话失败次数过多	监控已知的集群拓扑结构与备份发出的会议通话中的备份配置不匹配。尝试次数达到您在`maximumFailedConfCalls`设置中指定的阈值。您只能将此警报用作全局警报。

备份警报

您可以为备份 oplog、重新同步和不一致设置警报。备份条件包括：

条件	警报 trigger
备份 oplog 落后	收到的最新oplog 数据已超过MongoDB Ops Manager 75分钟。要解决此警报，请参阅修复备份 Oplog 问题。
备份需要重新同步	备份的复制进程远远落后于oplog ，无法跟上。当主机覆盖备份尚未复制的 oplog 条目时，会发生这种情况。发生这种情况时，您必须重新同步备份，如重新同步备份过程中所述。另外，请检查相应的备份日志。如果看到“失败的共同点”测试，则可能发生了以下情况之一。备份副本集上发生重大回滚事件。已备份副本集的oplog已调整大小或已删除。高 oplog 流失导致代理丢失 oplog 尾部。
检测到备份配置不一致	Ops Manager 检测到备份的配置与其备份的 MongoDB 部署的配置不匹配。要解决此警报，请参阅修复不一致的备份。
不一致的集群快照计数是...	Ops Manager 连续多次失败才能成功拍摄集群快照。当尝试次数达到指定阈值时，会触发此警报。警报文本可能包含问题的原因。常见问题包括：没有可访问的`mongos` 。要解决此问题，请确保页面上至少显示一个`mongos` MongoDB Ops ManagerDeployment。无法停止负载均衡器。要解决此问题，请检查第一个配置服务器的日志文件，以确定负载均衡器不会停止的原因。无法在一个或多个分片中插入令牌。要解决此问题，请确保备份和所有分片之间的连接。

无法将备份分配给备份守护程序	备份作业无法绑定到备份守护程序。示例，作业绑定失败的原因包括但不限于：未找到备份副本集的主节点 (primary node in the replica set)节点。发生绑定时，监控未检测到主节点 (primary node in the replica set)。确保副本集运行正常。任何备份守护程序上都没有足够的可用空间。在这两种情况下，请解决问题，然后重新启动备份的初始同步。作为替代方案，您可以通过Admin接口手动将作业绑定到守护进程。有关更多信息，请参阅作业。您只能将此警报用作全局警报。
备份重试次数已达到上限	如果同一任务重复失败，则发送警报。例如，在维护期间，这种情况就可能发生。检查相应的作业日志中是否有解释问题的错误消息。如果您需要解释错误消息的帮助，请联系 MongoDB 支持部门。您只能将此警报用作全局警报。
备份处于意外状态	发生意外情况，副本集的备份状态为`broken` 。您必须重新同步已备份的副本集，如重新同步备份过程中所述。如果出现`Backup is in an unexpected state`警报，请检查相应的作业日志中是否有解释问题的错误消息。如果您需要解释错误消息的帮助，请联系 MongoDB 支持部门。您只能将此警报用作全局警报。
副本集有延迟快照	快照未能在下一个快照计划开始之前完成。检查 Ops Manager 管理界面中的作业日志是否有任何错误。您只能将此警报用作全局警报。
同步切片传输尚未取得进展...	初始同步已启动，但随后停止。可能导致此问题的问题包括但不限于：关闭的进程（代理、摄取、后端数据库）网络问题(Network Issues) 身份验证凭据不正确您只能将此警报用作全局警报。
备份作业正忙于...	一项备份作业在 24 小时内的工作时间超过指定的阈值。不同的备份作业股票备份守护程序或快照存储。备份作业执行时间可能会有所不同。长时间运行的备份作业可能会导致其余作业落后或失败。将此指标设置为您预计部署中完成备份所需的时间。您应该检查相应的作业日志中是否有错误消息。如果您需要解释错误消息的帮助，请联系 MongoDB 支持部门。您只能将此警报用作全局警报。

BI Connector 警报

这些警报条件适用于将 BI Connector 与 Ops Manager 结合使用的情况。

条件	警报 trigger
`BI Connector is down`	自动化至少有 4 分钟未检测到 BI Connector 进程。重要提示：当自动化关闭时， MongoDB Ops Manager无法trigger BI Connector的警报。

用户警报

您可以为用户添加、删除和角色变更设置警报。用户条件包括：

条件	警报 trigger
用户已加入项目	新用户加入项目。
用户离开项目	用户离开项目。
用户的角色已更改	用户的角色已更改。

项目警报

您可以为用户批准和身份验证配置设置警报。项目条件包括：

条件	警报 trigger
用户未启用双重身份验证	项目中有尚未设置双重身份验证的用户。
安全检查警报已更新	项目的安全检查警报已更改。

后退

配置和解决警报

来年

配置设置