Docs 菜单
Docs 主页
/
MongoDB Cloud Manager
/ /

查看警报条件

在此页面上

  • 主机警报
  • 副本集警报
  • 分片集群警报
  • 代理警报
  • 备份警报
  • BI Connector 警报
  • 用户警报
  • 项目警报
  • 账单警报
  • 联合警报

对于您创建的每个警报,您必须设置目标以及条件或指标。 目标指向已更改的内容:Cloud Manager 组件。 如果条件成立或指标低于或高于设置的阈值,Cloud Manager 就会Atlas Triggers警报。要了解更多信息,请参阅警报工作流程。

要设置条件:

  1. 从列表中选择一个 Target

  2. condition/metric列表中选择一个条件。

当指定目标 MongoDB 实例上的条件为 true时,Cloud Manager 会触发警报。

要设置指标,请执行以下操作:

  1. 从列表中选择Target类型。

  2. 筛选Target类型或选择Any

  3. condition/metric列表中选择一个指标。

  4. 选择此指标应为BelowAbove阈值。

  5. 键入阈值。 所有阈值都是数字。

  6. 选择阈值的度量单位。

当指定的目标 MongoDB 实例达到指标阈值时,Cloud Manager 会触发 Atlas Triggers。

为主机设置警报时,请选择适用于此警报的host type和触发此警报的condition

对于host type ,为以下所有类型或其中一种类型的 MongoDB 进程设置警报:

将主机类型设置为:
警报包括

任何类型

此表中描述的所有类型。

独立运行的实例

既不 属于副本集或分片集群 ,也不 用作配置服务器的任何 mongod 实例。

主节点

所有副本集主节点。

从节点

所有副本集从节点。

投票节点

所有副本集仲裁节点。

Mongos

所有mongos实例。

Conf

您可以设置在 MongoDB 实例发生变化时发出警报。 主机状态条件包括:

条件
警报 trigger

已添加主机

Cloud Manager首次开始监控或管理mongodmongos进程。

主机已删除

Cloud Manager 首次停止监控或管理mongodmongos进程。

主机已添加到副本集

指定类型的mongod进程已添加到副本集中。

主机已从副本集中删除

已从 副本集 删除指定类型的 mongod 进程。

主机已重新启动

Cloud Manager 检测到主机已重新启动。

最后一小时重新启动次数为

Cloud Manager 检测到主机在前一小时内重启的次数超过指定阈值。

主机出现回滚

Cloud Manager检测到托管上的mongod触发了回滚。

以下主机类型无法进行回滚:

要学习;了解更多信息,请参阅副本集故障转移期间的回滚。

主机正在恢复

从节点(secondary node from replica set)进入RECOVERING状态。 要学习;了解有关RECOVERING状态的更多信息,请参阅副本集成员状态。

主机不是最新版本

主机上运行的 MongoDB 的修订版本比 MongoDB 当前稳定版本落后两个或多个修订版本。

示例,如果当前的稳定发布是MongoDB 4.0.9,则运行MongoDB 4.0.8 的托管不会trigger警报,但运行MongoDB 4.0.7 版本的托管会trigger警报。

要学习;了解有关MongoDB版本编号的更多信息,请参阅MongoDB手册中的MongoDB版本号

主机的 SSL 证书将在 30 天内过期

MongoDB 实例的 SSL 证书还有 30 天过期。 Cloud Manager 每 24 小时重新发送一次警报,直到解决或得到确认。如果您未解决或确认警报且证书已过期,Cloud Manager 会继续发送警报。如果证书过期,监控将无法再连接到 MongoDB 实例。

主机暴露在公共互联网中

主机暴露在公共互联网中。 配置后,Cloud Manager 会尝试与主机建立套接字连接。 如果 Cloud Manager 能够连接,则 Cloud Manager 会Atlas Triggers,因为主机未位于防火墙后面且未启用身份验证。

Cloud Manager 每天运行一次此检查。

这是一种较弱的安全验证,不应取代其他审核或入侵检测系统程序。

主机已关闭

Cloud Manager 未收到主机网络探测(ping)的时间超过 9 分钟。在正常操作下,监控大约每分钟连接到每个受监控主机一次。 Cloud Manager 会等待 9 分钟再触发警报,以尽量减少误报(如主机重启期间可能发生的情况)。

如果主机仍然无法访问,监控最终会将 ping 频率降低到每5分钟mongod和每20分钟mongosmongod如果一个或mongos 再次变得可访问,Cloud Manager 会在5 分钟内识别该进程。

如果需要立即触发监控进行检查,可以重新启动代理。

如果Cloud Manager Automation 不管理某个mongos进程,并且该进程在30天内仍然无法访问,则Cloud Manager会从Deployment标签页中删除该进程。 但是,如果您重新启动mongos进程, Cloud Manager会在2分钟内检测到。

要解决此警报,请参阅修复主机故障。

您可以设置Host Has Index Suggestions警报,以便在性能优化顾问有针对主机的索引建议时接收警报。

如果主机的查询目标比率在 10 分钟内持续超过 10,000,Performance Advisor会检查主机是否存在低效查询,以及可能的索引以提高性能。如果性能优化顾问确定主机会从一个或多个索引中受益,则会触发此警报,并指导您创建建议的索引。

对于禁用了Performance Advisor的项目,不会trigger此警报。

您可以设置针对实例每秒创建的断言错误数量的警报。

注意

如何衡量

MongoDB使用serverStatus命令返回的asserts文档报告 opscounter。

断言指标包括:

衡量标准
警报 trigger

断言:常规为

常规断言率达到指定阈值。

断言:警告为

警告率达到指定阈值。

断言:消息为

消息断言率达到指定阈值。 消息断言是内部服务器错误。 会记录这些操作的堆栈跟踪。

断言:用户是

用户创建的断言率达到指定阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

重要

仅适用于 MongoDB 3.4 或更高版本

以下指标仅适用于运行 MongoDB 3.4 或更高版本的部署。

您可以针对操作完成所需的时间设置警报。 执行时间指标包括:

衡量标准
警报 trigger

平均执行时间:命令为

命令操作的平均执行时间达到指定的阈值。

平均执行时间:读取次数为

读取操作的平均执行时间达到指定阈值。

平均执行时间:写入为

写入操作的平均执行时间达到指定的阈值。

您可以针对每秒处理的 MongoDB 文档数量设置警报。 文档处理指标包括:

衡量标准
警报 trigger

文档指标:已删除的是

每秒删除文档的平均速率达到指定的阈值。

文档指标:Inserted is

每秒插入文档的平均速率达到指定的阈值。

文档指标:返回的是

每秒返回文档的平均速率达到指定的阈值。

文档指标:更新为

每秒更新文档的平均速率达到指定的阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以针对 MongoDB 在查询期间扫描项目的速度以及扫描的项目数与返回的文档数进行比较设置警报。 查询执行时间指标包括:

注意

如何衡量

MongoDB根据explain命令来衡量查询性能。

Query Targeting: Scanned is

在查询和查询计划评估期间扫描索引项的平均每秒速率达到指定的阈值。

Query Targeting: Scanned Objects is

扫描文档的平均每秒速率达到指定的阈值。

Query Targeting: Scanned / Returned is

扫描的索引项与返回的文档的比率达到指定阈值。

Query Targeting: Scanned Objects / Returned is

扫描的文档与返回的文档的比率达到指定阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以设置每秒完成的数据库操作数警报。

注意

如何衡量

MongoDB使用serverStatus命令返回的opscounters文档报告 opscounter。

操作指标包括:

条件
警报 trigger

Opcounter:Cmd 是

每秒执行命令的平均速率达到指定的阈值。

Opcounter:删除的是

每秒执行的平均删除速率达到指定的阈值。

Opcounter:Getmores 是

每秒执行 getMores 的平均速率达到指定的阈值。 在主节点上,即使查询计数较低,此数字也可能很高。 作为复制的一部分,从节点从主节点“获取更多”。

Opcounter:插入为

每秒执行插入的平均速率达到指定的阈值。

Opcounter:查询是

每秒执行查询的平均速率达到指定的阈值。

Opcounter:更新为

每秒执行的平均更新速率达到指定的阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以设立针对每秒复制到MongoDB从节点的数据库操作数量的警报

注意

如何衡量

MongoDB使用serverStatus命令返回的opscountersRepl文档报告 opscounter。

复制操作指标包括:

衡量标准
警报 trigger

Opcounter:Repl Cmd 为

每秒应用的复制命令的平均速率达到阈值。

Opcounter:Repl Delete 为

每秒应用的复制删除平均速率达到阈值。

Opcounter:Repl 插入为

每秒应用的复制插入平均速率达到阈值。

Opcounter:Repl 更新为

每秒应用的复制更新平均速率达到阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以为 MongoDB 实例使用的内存量设置警报。 以位、千位、兆位、千兆位、字节、千字节、兆字节、千兆字节、太字节或拍字节为单位设置此阈值。

注意

如何衡量

MongoDB 使用serverStatus命令返回的mem文档报告内存情况。

内存指标包括:

衡量标准
警报 trigger

内存:常驻是

mongod进程的常驻内存大小达到指定的阈值。 随着时间的推移,在专用数据库托管上,常驻内存可能会接近托管上的RAM大小。

内存:虚拟内存

mongod进程的虚拟内存大小达到指定的阈值。 您可以使用此警报来标记内存映射之外的过多内存。

内存:已映射内存容量为

mongod进程的映射内存大小达到指定的阈值。 由于MongoDB所有数据文件进行内存映射,因此映射内存的大小应接近数据库总大小。

内存:计算出的是

内存映射未考虑的mongod进程的虚拟内存大小达到指定的阈值。 如果此数字非常高(多个 GB),则表示在内存映射之外使用了过多内存。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

安全指标包括:

衡量标准
警报 trigger

主机提供安全建议

身份验证或 TLS已禁用。

交换指标包括:

衡量标准
警报 trigger

交换使用情况:已使用 is

正在使用的交换空间总量已达到指定阈值。

交换使用量:最大已使用值为

正在使用的最大交换空间总量达到指定阈值。

交换使用量:免费是

可用交换空间量已降至指定阈值以下。

交换使用量:最大可用空间为

最大可用交换空间量低于指定阈值。

您可以为 MongoDB 实例使用的 WiredTiger 缓存量设置警报。以位、千位、兆位、千兆位、字节、千字节、兆字节、千兆字节、太字节或拍字节为单位设置此阈值。

注意

如何衡量

MongoDB 使用serverStatus命令返回的cache文档报告内存情况。

WiredTiger 缓存指标包括:

衡量标准
警报 trigger

缓存:读入缓存的字节数为

每秒读入 WiredTiger 缓存的平均字节速率达到指定的阈值。

缓存:从缓存写入的字节数为

从 WiredTiger 缓存写入的平均字节每秒速率达到指定的阈值。

缓存:脏字节数为

WiredTiger 缓存中当前跟踪的脏数据字节数。

缓存:已用字节数为

WiredTiger 缓存中当前的字节数。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

重要

仅适用于 MongoDB 2.2 至 2.6

这些指标仅对运行 MongoDB 2.2 至 2.6 版本的部署Atlas Triggers警报。

您可以设置针对 MongoDB 实例上每秒完成的 BTree 操作数量的警报。 B-Tree 指标包括:

衡量标准
警报 trigger

B-Tree:访问次数为

对 B-Tree 索引的访问次数达到指定阈值。

B-Tree:命中次数为

B-Tree 页面在内存中的次数达到指定阈值的次数。

B-Tree:未命中次数是

B-Tree 页面不在内存中的次数达到指定阈值。

B-Tree:失误率为

未命中与命中的比率达到指定的阈值。

重要

仅适用于 MongoDB 2.2 至 2.6

该指标仅对运行 MongoDB 2.2 至 2.6 版本的部署Atlas Triggers警报。

您可以针对MongoDB实例处于写入锁定状态的时间百分比设立警报。 有效锁定百分比指标包括:

衡量标准
警报 trigger

有效锁 % 为

如果实例处于写入锁定状态的总时间百分比达到指定的阈值。

重要

仅适用于运行 MMAPv1 的数据库

该指标仅对针对 MongoDB 数据库运行 MMAPv1 存储引擎的部署 Atlas Triggers 警报。

您可以设置警报,了解 MongoDB 实例上的平均刷新需要多长时间(以毫秒为单位)。 刷新是将数据从内存写入磁盘。

注意

如何衡量

MongoDB使用serverStatus命令返回的backgroundFlushing.average_ms值报告平均背景刷新时间。

背景刷新平均指标包括:

衡量标准
警报 trigger

后台刷新平均值为

背景刷新的平均时间达到指定的阈值。

您可以为 MongoDB 实例的活动连接设置警报。

注意

如何衡量

MongoDB 使用serverStatus命令返回的connections文档报告内存情况。

连接指标包括:

衡量标准
警报 trigger

连接数为

活动主机连接数达到指定阈值。

已配置限制的连接百分比为

活动主机连接数占可能连接总数的百分比达到指定阈值。 MongoDB 版本 2.6.0 和 3.0.0 的默认值为65536 ,MongoDB ( > ) 3.0.0 以上版本的默认值为1000000 。 您可以通过两种方式覆盖默认值:

  • 使用mongod --maxConnnsmongod设立最大并行连接数。 要学习;了解更多信息,请参阅mongod核心选项。

  • 更新MongoDB配置文件中的net.maxIncomingConnections字段。 要学习;了解更多信息,请参阅net 选项。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以为等待锁的操作设置警报。

注意

如何衡量

MongoDB 使用serverStatus命令返回的globalLock.currentQueue文档报告内存情况。

队列指标包括:

衡量标准
警报 trigger

队列:总计为

等待任何类型的的操作数量达到指定的阈值。

Queues: Readers 是

等待任何类型的读取器操作数量达到指定的阈值。

Queues: Writers 是

等待任何类型的的写入操作数达到指定的阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

重要

仅适用于 MongoDB 2.2 至 2.6

Accesses Not In Memory: Total isPage Fault Exceptions Thrown: Total is指标仅对运行 MongoDB 版本 2.2 到 2.6 的部署触发警报。

您可以设置页面错误警报。

注意

如何衡量

MongoDB 使用serverStatus命令返回的extra_info.page_faults文档报告内存情况。

MongoDB 2.2到2.6使用serverStatus命令返回的recordStats文档报告Accesses Not In Memory: Total isPage Fault Exceptions Thrown: Total is指标。

页面错误指标包括:

衡量标准
警报 trigger

不在内存中的访问数:总计为

磁盘访问速率达到指定的阈值。 如果内存放不下您的工作集, MongoDB必须访问权限磁盘上的数据。 该指标可在主机的Record Stats图表找到。

引发的页面错误异常:总数为

引发的页面错误异常率达到指定的阈值。 该指标可在主机的Record Stats图表上找到。

页面错误是

页面错误率(无论是否引发异常)达到指定的阈值。 该指标可在主机的Page Faults图表上找到。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以为MongoDB进程的打开游标和超时游标数量设立警报。

注意

如何衡量

MongoDB 使用serverStatus命令返回的metrics.cursor文档报告内存情况。

游标指标包括:

衡量标准
警报 trigger

游标:客户端游标大小为

主机用于维护游标的内存量达到指定的阈值。

游标:打开为

主机为客户端维护的游标数量达到指定阈值。

游标:超时是

主机为客户端维护的超时游标数量达到指定阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以为 MongoDB 进程的网络吞吐量设置警报。

注意

如何衡量

MongoDB 使用serverStatus命令返回的network文档报告内存情况。

网络指标包括:

衡量标准
警报 trigger

网络:字节输入为

发送数据库主机的字节数达到指定阈值。

网络:输出字节数为

数据库主机发送的字节数达到指定阈值。

网络:请求数量为

发送数据库主机的请求数量达到指定阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以为 MongoDB 进程的复制 oplog 设置警报。

注意

如何衡量

MongoDB使用oplog oplogserverStatus 命令返回的 文档以及 rs.status() 和 rs.conf() 的结果来报告复制 。

复制 oplog 指标包括:

衡量标准
警报 trigger

复制空间为

同步源的复制oplog窗口与从节点复制延迟之间的差值达到指定的阈值。 如果此值变为 0,从节点(secondary node from replica set)可以Go RECOVERING

副本时间为

主节点的复制oplog中可用的大致时间量(以毫秒为单位)达到指定阈值。

每小时的 Oplog 数据为

主节点每小时生成千兆字节 oplog 的平均速率达到指定的阈值。

复制延迟为

在写入应用程序中,从 主节点 (primary node in the replica set) 从节点(secondary node from replica set) 的大致秒数。仅当延迟大于1 - 2秒时才准确,因为此统计数据的精度有限。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以为 MongoDB 进程的扫描和排序操作设置警报。

注意

如何衡量

MongoDB 使用 serverStatus 命令返回的 metrics.operation.scanAndOrder 文档报告复制 oplog 。

操作指标包括:

衡量标准
警报 trigger

操作:扫描和排序是

返回排序结果但无法使用索引执行排序操作的查询的每秒平均速率(超过指定阈值)。

您可以为已使用的数据存储量设置警报。 数据库存储指标包括:

衡量标准
警报 trigger

数据库存储是

扩展区使用的磁盘存储空间量达到指定的阈值。

数据库数据大小为

数据库中的实际数据大小达到指定的阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以针对已使用的日志存储量设置警报。 日志指标包括:

衡量标准
警报 trigger

写锁中的日志记录提交是

数据库处于写锁状态时的提交速率达到指定的阈值。

日志记录大小 (MB)

Cloud Manager 每秒写入恢复日志的平均数据量(以兆字节为单位)达到指定的阈值。

日志写入数据文件大小 (MB) 为

Cloud Manager 每秒写入数据库数据文件的平均数据速率(以兆字节为单位)达到指定的阈值。由于这些写入已记录日志,因此可以延迟发生,因此此处指示的数字可能低于物理写入磁盘的数量。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以为 WiredTiger 票证设置警报。

注意

如何衡量

MongoDB使用serverStatus命令返回的wiredTiger.cachewiredTiger.concurrentTransactions文档报告WiredTiger 。

WiredTiger storage engine 的条件包括:

衡量标准
警报 trigger

可用票证:读取数为

WiredTiger storage engine 可用的读取票证数量达到指定阈值。

可用票证:写入为

WiredTiger storage engine 可用的写入票证数量达到指定阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以为计算和磁盘利用率设置警报。 系统资源条件包括:

衡量标准
警报 trigger

系统:CPU (Steal) % 为

当 EC2 实例信用余额耗尽时适用。

CPU 处于“非自愿等待”状态的时间百分比。 CPU 窃取百分比是 CPU 使用率超过保证基线 CPU 信用累积率的百分比。

Amazon Web Services 可突发性能实例 的所有信用都已用完时,通常会触发此警报。

系统:最大 CPU (窃取) % 为

CPU 处于“非自愿等待”状态的最大时间百分比超过指定阈值。

系统:CPU(用户)百分比为

MongoDB 进程的 CPU 使用率,通过除以 CPU 数量,范围为 0-100%。

系统:最大 CPU(用户)百分比为

MongoDB 进程的最大 CPU 使用率(通过除以超过指定阈值的 CPU 数量,调整范围为 0-100%)。

系统内存:已使用

用于mongod的总系统内存减去缓冲区、缓存和可用内存后达到指定阈值。

系统内存:已使用的最大内存为

最大系统内存使用量值达到指定阈值。

系统内存:可用内存为

mongod的可用系统内存使用量已降至指定阈值以下。

系统内存:最大可用内存为

最大可用系统内存量降至指定阈值以下。

数据分区上使用的磁盘空间百分比为

包含 MongoDB 集合数据的任何分区上使用的磁盘空间百分比。

数据分区上使用的最大磁盘空间百分比为

包含 MongoDB 集合数据的任何分区上使用的磁盘空间的最大百分比超过指定阈值。

索引分区上使用的磁盘空间百分比为

包含 MongoDB 索引数据的任何分区上使用的磁盘空间的百分比。

索引分区上使用的最大磁盘空间百分比为

包含 MongoDB 索引数据的任何分区上使用的磁盘空间的最大百分比超过指定阈值。

日志分区上使用的磁盘空间百分比为

包含 MongoDB 日志的分区上使用的磁盘空间百分比(如果已启用日志功能)。

日志分区上使用的最大磁盘空间百分比为

包含 MongoDB 日志的分区上使用的最大磁盘空间百分比超过指定阈值。

系统网络输入

每秒发送数据库主机的字节数达到指定阈值。

最大系统网络输入为

发送MongoDB 的最大字节数达到指定阈值。

系统网络输出为

每秒数据库主机发送的字节数达到指定阈值。

2024 年 2 月 14 日发布的 Cloud Manager 版本修复了 Cloud Manager 不准确地报告该指标的问题。 此版本会重置该指标,以前的值将不再出现。

最大系统网络输出为

MongoDB 发送的最大字节数达到指定阈值。

您可以在 Cloud Manager 中为选择的这些指标创建 Atlas Charts。

1
  1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

  2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

  3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

    显示“部署”页面。

2

单击部署的Processes标签页。

显示“进程”页面。

3
  1. 单击 List 标签页。

  2. 单击要监控的进程。

  3. 单击 Status 标签页。

  4. 向下滚动到可用指标列表,然后选择要绘制图表的所需指标。

您可以设置有关节点状态和副本集中健康成员数量的警报。 副本集条件包括:

条件
警报 trigger

副本集选出新的主节点

设立选举出新的主节点 (primary node in the replica set)节点。 每次Cloud Manager收到网络探测(ping)时,它都会检查副本集rs.status()方法的输出,了解每个副本集节点的状态。 根据此输出, Cloud Manager确定哪个副本集节点是主节点 (primary node in the replica set)。 如果网络探测(ping)数据中找到的主节点 (primary node in the replica set)节点与Cloud Manager已知的当前主节点 (primary node in the replica set)节点不同,则触发此警报。

收到此警报并不总是平均值该副本集已选出的主节点。当重新选举同一个主节点时也可能trigger此警报。当 Cloud Manager 在选举期间处理网络探测(ping)时,可能会发生这种情况。

副本集没有主节点

副本集没有主节点。 具体来说,当副本集的所有节点都不具有状态 PRIMARY 时, Atlas Triggers警报。 例如,当集合中有偶数个有投票权成员导致平局时,就可能出现这种情况。

如果监控在主节点 (primary node in the replica set)节点选举期间收集数据,则此警报可能会发送误报。 为防止此类误报,请设立警报配置的after waiting时间间隔(在配置的Send to部分中)。

有关解决方案,请参阅修复丢失的主节点。

副本集指标包括:

衡量标准
警报 trigger

健康节点数为

副本集的健康节点数少于您指定的阈值。

不健康成员的数量为

副本集运行状况不佳的成员数量超过了您指定的阈值。

过去一小时内的选举次数 > X

过去一小时内发生的选举数量超过了用户指定的X值。 X的值是在您创建警报时设置的。 此警报可能表明集群的复制未处于健康状态,不断的选举即可证明。

注意

如果您为某个副本集运行rs.status()并且结果为该节点返回PRIMARYSECONDARY ,则该副本集节点处于正常运行状态。 隐藏的从节点和仲裁节点不计算在内。

您可以为分片集群中缺少的mongos设立警报。 分片集群条件包括:

条件
警报 trigger

集群缺少活动的 mongos

Cloud Manager 无法访问集群的任何mongos

您可以为代理状态或版本控制设置警报。 代理条件包括:

条件
警报 trigger

自动化功能已关闭

至少 1 分钟未检测到自动化。 正常操作下,Automation 大约每 10 秒向 Cloud Manager 发送一次网络探测(ping)。如果 Cloud Manager 至少 1 分钟未收到网络探测(ping),则会Atlas Triggers此警报。

仅当自动化正在管理 MongoDB 进程或代理模块时,Atlas Triggers 此警报。

监控已关闭

至少 7 分钟未检测到监控。 正常运行下,监控大约每分钟向 Cloud Manager 发送一次网络探测(ping)。如果 Cloud Manager 至少 7 分钟未收到网络探测(ping),则会Atlas Triggers此警报。但是,对于未配置主机的项目,永远不会Atlas Triggers此警报。

重要提示:当监控关闭时, Cloud Manager不会为任何托管触发其他警报。 示例:如果托管关闭,则无法监控向Cloud Manager发送可能trigger新警报的数据。

监控没有最新版本

监控未运行最新版本的软件。

备份已关闭

至少有一个活动副本集或集群的项目的备份停机时间超过 1 小时。

要解决此警报,请执行以下操作:

  1. 要查看哪个托管为备份提供服务,请执行以下操作:

    1. 在MongoDB Cloud Manager中, Go项目的 Deployment 页面。

      1. 如果尚未显示,请从导航栏的 Organizations 菜单中选择包含所需项目的组织。

      2. 如果尚未显示,请从导航栏的Projects菜单中选择所需的项目。

      3. 如果 Deployment(数据库部署)页面尚未出现,请单击侧边栏中的 Deployment(数据库)。

        显示“部署”页面。

    2. 单击部署的Servers标签页。

      显示“服务器”页面。

  2. 检查该主机上的备份日志文件。

备份没有最新版本

备份未运行最新版本的软件。

您可以为备份 oplog、重新同步和不一致设置警报。 备份条件包括:

条件
警报 trigger

备份 oplog 落后

Cloud Manager收到的最新oplog数据已超过75分钟。

要解决此警报,请参阅修复备份 Oplog 问题。

备份需要重新同步

备份的复制进程远远落后于oplog ,无法跟上。 当主机覆盖备份尚未复制的 oplog 条目时,会发生这种情况。 发生这种情况时,您必须重新同步备份,如重新同步备份过程中所述。

另外,请检查相应的备份日志。 如果看到“失败的共同点”测试,则可能发生了以下情况之一。

  • 备份副本集上发生重大回滚事件。

  • 已备份副本集的oplog已调整大小或已删除。

  • 高 oplog 流失导致代理丢失 oplog 尾部。

检测到备份配置不一致

Cloud Manager 检测到备份的配置与其备份的 MongoDB 部署的配置不匹配。

要解决此警报,请参阅修复不一致的备份。

不一致的集群快照计数是...

Cloud Manager 连续多次无法成功拍摄集群快照。 当尝试次数达到指定阈值时,会触发此警报。

警报文本可能包含问题的原因。 常见问题包括:

  • 没有可访问的mongos 。 要解决此问题,请确保Cloud Manager Deployment页面上至少显示一个mongos

  • 无法停止负载均衡器。 要解决此问题,请检查第一个配置服务器的日志文件,以确定负载均衡器不会停止的原因。

  • 无法在一个或多个分片中插入令牌。 要解决此问题,请确保备份和所有分片之间的连接。

这些警报条件适用于将 BI Connector 与 Cloud Manager 结合使用时。

条件
警报 trigger
BI Connector is down

自动化已至少 9 分钟未检测到 BI Connector 进程。

重要提示:当自动化关闭时, Cloud Manager无法trigger BI Connector的警报。

您可以为用户添加、删除和角色变更设置警报。 用户条件包括:

条件
警报 trigger

用户已加入项目

新用户加入项目。

用户离开项目

用户离开项目。

用户的角色已更改

用户的角色已更改。

您可以为用户批准和身份验证配置设置警报。 项目条件包括:

条件
警报 trigger

用户未启用双重身份验证

项目中有尚未设置双重身份验证的用户。

安全检查警报已更新

项目的安全检查警报已更改。

您可以设置信用警报到期和账单金额警报。计费条件包括:

条件
警报 trigger

信用卡即将到期

文件的信用卡即将过期。该警报在信用卡到期的月初触发。 Cloud Manager 会在首次添加信用卡时启用此警报配置。

每月待处理发票(美元)总额为

当月月底的发票达到指定的阈值。

每日账单金额(美元)为

当日的金额达到指定的阈值。

您可以为组织的IdP证书设置警报。

条件
警报 trigger

组织的 IdP 证书即将过期

与您拥有 角色的组织关联的 IdP 证书将在 14Organization Owner 天内过期。MongoDB Cloud Manager 会发送此警报,直到您确认为止。

当您将组织映射到 IdP 提供商时,MongoDB Cloud Manager 会自动创建此警报。如果删除映射,MongoDB Cloud Manager 将删除此警报的所有实例。

后退

配置和解决警报