查看警报条件
对于您创建的每个项目或全局警报,您必须设立一个目标以及一个条件或指标。 目标指向已更改的内容: MongoDB Ops Manager组件。 如果条件成立或指标达到设立的阈值, MongoDB Ops Manager将触发警报。 要学习;了解更多信息,请参阅警报工作流程。
要设置条件:
从列表中选择一个 Target 。
在condition/metric列表中选择一个条件。
当指定目标 MongoDB 实例上的条件为 true
时,Ops Manager 会触发 Atlas Triggers。
要设置指标,请执行以下操作:
从列表中选择Target类型。
筛选Target类型或选择Any 。
在condition/metric列表中选择一个指标。
选择此指标应为Below或Above阈值。
键入阈值。 所有阈值都是数字。
选择阈值的度量单位。
当指定的目标 MongoDB 实例达到指标阈值时,Ops Manager 会Atlas Triggers警报。
主机警报
为主机设置警报时,请选择适用于此警报的host type和触发此警报的condition 。
主机类型
对于host type ,为以下所有类型或其中一种类型的 MongoDB 进程设置警报:
将主机类型设置为: | 警报包括 |
---|---|
任何类型 | 此表中描述的所有类型。 |
独立运行的实例 | 任何 既不 属于副本集或分片集群 ,也不 用作配置服务器的 mongod 实例。 |
主节点 | 所有副本集主节点。 |
从节点 | 所有副本集从节点。 |
投票节点 | 所有副本集仲裁节点。 |
Mongos | 所有mongos实例。 |
Conf | 用作 配置服务器 的所有 mongod 实例。 |
主机警报条件
主机状态变更
您可以设置在 MongoDB 实例发生变化时发出警报。 主机状态条件包括:
条件 | 警报 trigger |
---|---|
已添加主机 | |
主机已删除 | |
主机已添加到副本集 | |
主机已从副本集中删除 | 已从 副本集 删除指定类型的 mongod 进程。 |
主机已重新启动 | Ops Manager 检测到主机已重新启动。 |
最后一小时重新启动次数为 | Ops Manager 检测到主机在前一小时内重新启动的次数超过指定阈值。 |
主机出现回滚 | |
主机正在恢复 | |
主机不是最新版本 | 主机上运行的 MongoDB 的修订版本比 MongoDB 当前稳定版本落后两个或多个修订版本。 示例,如果当前的稳定发布是MongoDB 4.0.9,则运行MongoDB 4.0.8 的托管不会trigger警报,但运行MongoDB 4.0.7 版本的托管会trigger警报。 要学习;了解有关MongoDB版本编号的更多信息,请参阅MongoDB手册中的MongoDB版本号。 |
主机的 SSL 证书将在 30 天内过期 | MongoDB 实例的 SSL 证书还有 30 天过期。 Ops Manager 每 24 小时重新发送一次警报,直到问题解决或得到确认。如果您未解决或确认警报且证书已过期,则 Ops Manager 会继续发送警报。如果证书过期,监控将无法再连接到 MongoDB 实例。 |
主机已关闭 | Ops Manager 未收到主机网络探测(ping)的时间超过 4 分钟。在正常操作下,监控大约每分钟连接到每个受监控主机一次。 Ops Manager 会等待 4 分钟,然后再触发警报,以最大限度地减少主机重启期间可能发生的误报。 如果主机仍然无法访问,监控最终会将 ping 频率降低到每5分钟mongod和每20分钟mongos 。 mongod如果一个或mongos 再次变得可访问,MongoDB Ops Manager 将在5 分钟内识别该进程。 如果MongoDB Ops Manager自动化不管理mongos进程,并且该进程在 30 天内仍然无法访问, MongoDB Ops Manager将从Deployment标签页中删除该进程。 但是,如果重新启动mongos进程, MongoDB Ops Manager会检测到它。 要解决此警报,请参阅修复主机故障。 |
顾问
您可以设置Host Has Index Suggestions警报,以便在性能优化顾问有针对主机的索引建议时接收警报。
如果主机的查询目标比率在 10 分钟内持续超过 10,000,Performance Advisor会检查主机是否存在低效查询,以及可能的索引以提高性能。如果性能优化顾问确定主机会从一个或多个索引中受益,则会触发此警报,并指导您创建建议的索引。
对于禁用了Performance Advisor的项目,不会trigger此警报。
断言
您可以设置针对实例每秒创建的断言错误数量的警报。
断言指标包括:
衡量标准 | 警报 trigger |
---|---|
断言:常规为 | 常规断言率达到指定阈值。 |
断言:警告为 | 警告率达到指定阈值。 |
断言:消息为 | 消息断言率达到指定阈值。 消息断言是内部服务器错误。 会记录这些操作的堆栈跟踪。 |
断言:用户是 | 用户创建的断言率达到指定阈值。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
平均执行时间
重要
仅适用于 MongoDB 3.4 或更高版本
以下指标仅适用于运行 MongoDB 3.4 或更高版本的部署。
您可以针对操作完成所需的时间设置警报。 执行时间指标包括:
衡量标准 | 警报 trigger |
---|---|
平均执行时间:命令为 | 命令操作的平均执行时间达到指定的阈值。 |
平均执行时间:读取次数为 | 读取操作的平均执行时间达到指定阈值。 |
平均执行时间:写入为 | 写入操作的平均执行时间达到指定的阈值。 |
文档指标
您可以针对每秒处理的 MongoDB 文档数量设置警报。 文档处理指标包括:
衡量标准 | 警报 trigger |
---|---|
文档指标:已删除的是 | 每秒删除文档的平均速率达到指定的阈值。 |
文档指标:Inserted is | 每秒插入文档的平均速率达到指定的阈值。 |
文档指标:返回的是 | 每秒返回文档的平均速率达到指定的阈值。 |
文档指标:更新为 | 每秒更新文档的平均速率达到指定的阈值。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
查询目标
您可以针对 MongoDB 在查询期间扫描项目的速度以及扫描的项目数与返回的文档数进行比较设置警报。 查询执行时间指标包括:
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
Opcounter
您可以设置每秒完成的数据库操作数警报。
操作指标包括:
条件 | 警报 trigger |
---|---|
Opcounter:Cmd 是 | 每秒执行命令的平均速率达到指定的阈值。 |
Opcounter:删除的是 | 每秒执行的平均删除速率达到指定的阈值。 |
Opcounter:Getmores 是 | 每秒执行 getMores 的平均速率达到指定的阈值。 在主节点上,即使查询计数较低,此数字也可能很高。 作为复制的一部分,从节点从主节点“获取更多”。 |
Opcounter:插入为 | 每秒执行插入的平均速率达到指定的阈值。 |
Opcounter:查询是 | 每秒执行查询的平均速率达到指定的阈值。 |
Opcounter:更新为 | 每秒执行的平均更新速率达到指定的阈值。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
Opcounter - Repl
您可以设立针对每秒复制到MongoDB从节点的数据库操作数量的警报。
复制操作指标包括:
衡量标准 | 警报 trigger |
---|---|
Opcounter:Repl Cmd 为 | 每秒应用的复制命令的平均速率达到阈值。 |
Opcounter:Repl Delete 为 | 每秒应用的复制删除平均速率达到阈值。 |
Opcounter:Repl 插入为 | 每秒应用的复制插入平均速率达到阈值。 |
Opcounter:Repl 更新为 | 每秒应用的复制更新平均速率达到阈值。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
内存
您可以为 MongoDB 实例使用的内存量设置警报。 以位、千位、兆位、千兆位、字节、千字节、兆字节、千兆字节、太字节或拍字节为单位设置此阈值。
内存指标包括:
衡量标准 | 警报 trigger |
---|---|
内存:常驻是 | mongod 进程的常驻内存大小达到指定的阈值。 随着时间的推移,在专用数据库托管上,常驻内存可能会接近托管上的RAM大小。 |
内存:虚拟内存 | mongod 进程的虚拟内存大小达到指定的阈值。 您可以使用此警报来标记内存映射之外的过多内存。 |
内存:已映射内存容量为 | mongod 进程的映射内存大小达到指定的阈值。 由于MongoDB所有数据文件进行内存映射,因此映射内存的大小应接近数据库总大小。 |
内存:计算出的是 | 内存映射未考虑的 mongod 进程的虚拟内存大小达到指定的阈值。 如果此数字非常高(多个 GB),则表示在内存映射之外使用了过多内存。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
安全性
安全指标包括:
衡量标准 | 警报 trigger |
---|---|
主机提供安全建议 | 身份验证或 TLS已禁用。 |
Swap
交换指标包括:
衡量标准 | 警报 trigger |
---|---|
交换使用情况:已使用 is | 正在使用的交换空间总量已达到指定阈值。 |
交换使用量:最大已使用值为 | 正在使用的最大交换空间总量达到指定阈值。 |
交换使用量:免费是 | 可用交换空间量已降至指定阈值以下。 |
交换使用量:最大可用空间为 | 最大可用交换空间量低于指定阈值。 |
WiredTiger 缓存
您可以为 MongoDB 实例使用的 WiredTiger 缓存量设置警报。以位、千位、兆位、千兆位、字节、千字节、兆字节、千兆字节、太字节或拍字节为单位设置此阈值。
WiredTiger 缓存指标包括:
衡量标准 | 警报 trigger |
---|---|
缓存:读入缓存的字节数为 | 每秒读入 WiredTiger 缓存的平均字节速率达到指定的阈值。 |
缓存:从缓存写入的字节数为 | 从 WiredTiger 缓存写入的平均字节每秒速率达到指定的阈值。 |
缓存:脏字节数为 | WiredTiger 缓存中当前跟踪的脏数据字节数。 |
缓存:已用字节数为 | WiredTiger 缓存中当前的字节数。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
B树
重要
仅适用于 MongoDB 2.2 至 2.6
这些指标仅对运行 MongoDB 2.2 至 2.6 版本的部署Atlas Triggers警报。
您可以设置针对 MongoDB 实例上每秒完成的 BTree 操作数量的警报。 B-Tree 指标包括:
衡量标准 | 警报 trigger |
---|---|
B-Tree:访问次数为 | 对 B-Tree 索引的访问次数达到指定阈值。 |
B-Tree:命中次数为 | B-Tree 页面在内存中的次数达到指定阈值的次数。 |
B-Tree:未命中次数是 | B-Tree 页面不在内存中的次数达到指定阈值。 |
B-Tree:失误率为 | 未命中与命中的比率达到指定的阈值。 |
有效锁百分比
重要
仅适用于 MongoDB 2.2 至 2.6
该指标仅对运行 MongoDB 2.2 至 2.6 版本的部署Atlas Triggers警报。
您可以针对MongoDB实例处于写入锁定状态的时间百分比设立警报。 有效锁定百分比指标包括:
衡量标准 | 警报 trigger |
---|---|
有效锁 % 为 | 如果实例处于写入锁定状态的总时间百分比达到指定的阈值。 |
背景刷新平均值
重要
仅适用于运行 MMAPv1 的数据库
该指标仅对针对 MongoDB 数据库运行 MMAPv1 存储引擎的部署 Atlas Triggers 警报。
您可以设置警报,了解 MongoDB 实例上的平均刷新需要多长时间(以毫秒为单位)。 刷新是将数据从内存写入磁盘。
背景刷新平均指标包括:
衡量标准 | 警报 trigger |
---|---|
后台刷新平均值为 | 背景刷新的平均时间达到指定的阈值。 |
连接
您可以为 MongoDB 实例的活动连接设置警报。
连接指标包括:
衡量标准 | 警报 trigger |
---|---|
连接数为 | 活动主机连接数达到指定阈值。 |
已配置限制的连接百分比为 | 活动主机连接数占可能连接总数的百分比达到指定阈值。 MongoDB 版本 2.6.0 和 3.0.0 的默认值为
|
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
Queues
您可以为等待锁的操作设置警报。
队列指标包括:
衡量标准 | 警报 trigger |
---|---|
队列:总计为 | 等待任何类型的锁的操作数量达到指定的阈值。 |
Queues: Readers 是 | 等待任何类型锁的读取器操作数量达到指定的阈值。 |
Queues: Writers 是 | 等待任何类型的锁的写入操作数达到指定的阈值。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
页面错误
重要
仅适用于 MongoDB 2.2 至 2.6
Accesses Not In Memory: Total is和Page Fault Exceptions Thrown: Total is指标仅对运行 MongoDB 版本 2.2 到 2.6 的部署触发警报。
您可以设置页面错误警报。
注意
如何衡量
MongoDB 使用serverStatus命令返回的extra_info.page_faults
文档报告内存情况。
MongoDB 2.2到2.6使用serverStatus命令返回的recordStats
文档报告Accesses Not In Memory: Total is和Page Fault Exceptions Thrown: Total is指标。
页面错误指标包括:
衡量标准 | 警报 trigger |
---|---|
不在内存中的访问数:总计为 | 磁盘访问速率达到指定的阈值。 如果内存放不下您的工作集, MongoDB必须访问权限磁盘上的数据。 该指标可在主机的 Record Stats 图表找到。 |
引发的页面错误异常:总数为 | 引发的页面错误异常率达到指定的阈值。 该指标可在主机的 Record Stats 图表上找到。 |
页面错误是 | 页面错误率(无论是否引发异常)达到指定的阈值。 该指标可在主机的 Page Faults 图表上找到。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
Cursors
您可以为MongoDB进程的打开游标和超时游标数量设立警报。
游标指标包括:
衡量标准 | 警报 trigger |
---|---|
游标:客户端游标大小为 | 主机用于维护游标的内存量达到指定的阈值。 |
游标:打开为 | 主机为客户端维护的游标数量达到指定阈值。 |
游标:超时是 | 主机为客户端维护的超时游标数量达到指定阈值。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
网络
您可以为 MongoDB 进程的网络吞吐量设置警报。
网络指标包括:
衡量标准 | 警报 trigger |
---|---|
网络:字节输入为 | 发送到数据库主机的字节数达到指定阈值。 |
网络:输出字节数为 | 从数据库主机发送的字节数达到指定阈值。 |
网络:请求数量为 | 发送到数据库主机的请求数量达到指定阈值。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
复制 Oplog
您可以为 MongoDB 进程的复制 oplog 设置警报。
复制 oplog 指标包括:
衡量标准 | 警报 trigger |
---|---|
复制空间为 | |
副本时间为 | 主节点的复制oplog中可用的大致时间量(以毫秒为单位)达到指定阈值。 |
每小时的 Oplog 数据为 | 主节点每小时生成千兆字节 oplog 的平均速率达到指定的阈值。 |
复制延迟为 | 在写入应用程序中,从 主节点 (primary node in the replica set) 从节点(secondary node from replica set) 的大致秒数。仅当延迟大于1 - 2秒时才准确,因为此统计数据的精度有限。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
操作扫描和排序
您可以为 MongoDB 进程的扫描和排序操作设置警报。
操作指标包括:
衡量标准 | 警报 trigger |
---|---|
操作:扫描和排序是 | 返回排序结果但无法使用索引执行排序操作的查询的每秒平均速率(超过指定阈值)。 |
数据库存储
您可以为已使用的数据存储量设置警报。 数据库存储指标包括:
衡量标准 | 警报 trigger |
---|---|
数据库存储是 | 扩展区使用的磁盘存储空间量达到指定的阈值。 |
数据库数据大小为 | 数据库中的实际数据大小达到指定的阈值。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
日记
您可以针对已使用的日志存储量设置警报。 日志指标包括:
衡量标准 | 警报 trigger |
---|---|
写锁中的日志记录提交是 | 数据库处于写锁状态时的提交速率达到指定的阈值。 |
日志记录大小 (MB) | Ops Manager 每秒写入恢复日志的平均数据量(以兆字节为单位)达到指定的阈值。 |
日志写入数据文件大小 (MB) 为 | Ops Manager 每秒写入数据库数据文件的平均数据速率(以兆字节为单位)达到指定的阈值。由于这些写入已记录日志,因此可以延迟发生,因此此处指示的数字可能低于物理写入磁盘的数量。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
WiredTiger 存储引擎
您可以为 WiredTiger 票证设置警报。
WiredTiger storage engine 的条件包括:
衡量标准 | 警报 trigger |
---|---|
可用票证:读取数为 | WiredTiger storage engine 可用的读取票证数量达到指定阈值。 |
可用票证:写入为 | WiredTiger storage engine 可用的写入票证数量达到指定阈值。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
系统和磁盘警报
您可以为计算和磁盘利用率设置警报。 系统资源条件包括:
衡量标准 | 警报 trigger |
---|---|
系统:CPU (Steal) % 为 | 当 EC2 实例信用余额耗尽时适用。 CPU 处于“非自愿等待”状态的时间百分比。 CPU 窃取百分比是 CPU 使用率超过保证基线 CPU 信用累积率的百分比。 |
系统:最大 CPU (窃取) % 为 | CPU 处于“非自愿等待”状态的最大时间百分比超过指定阈值。 |
系统:CPU(用户)百分比为 | MongoDB 进程的 CPU 使用率,通过除以 CPU 数量,范围为 0-100%。 |
系统:最大 CPU(用户)百分比为 | MongoDB 进程的最大 CPU 使用率(通过除以超过指定阈值的 CPU 数量,调整范围为 0-100%)。 |
系统内存:已使用 | ~bin 的系统内存使用情况。 mongod达到指定阈值。 |
系统内存:已使用的最大内存为 | 最大系统内存使用量值达到指定阈值。 |
系统内存:可用内存为 | ~bin 的可用系统内存。 mongod已降至指定阈值以下。 |
系统内存:最大可用内存为 | 最大可用系统内存量低于指定阈值。 |
系统内存:可用内存为 | mongod 的可用系统内存使用量已降至指定阈值以下。 |
系统内存:最大可用内存为 | 最大可用系统内存量降至指定阈值以下。 |
数据分区上使用的磁盘空间百分比为 | 包含 MongoDB 集合数据的任何分区上使用的磁盘空间百分比。 |
数据分区上使用的最大磁盘空间百分比为 | 包含 MongoDB 集合数据的任何分区上使用的磁盘空间的最大百分比超过指定阈值。 |
索引分区上使用的磁盘空间百分比为 | 包含 MongoDB 索引数据的任何分区上使用的磁盘空间的百分比。 |
索引分区上使用的最大磁盘空间百分比为 | 包含 MongoDB 索引数据的任何分区上使用的磁盘空间的最大百分比超过指定阈值。 |
日志分区上使用的磁盘空间百分比为 | 包含 MongoDB 日志的分区上使用的磁盘空间百分比(如果已启用日志功能)。 |
日志分区上使用的最大磁盘空间百分比为 | 包含 MongoDB 日志的分区上使用的最大磁盘空间百分比超过指定阈值。 |
系统网络输入 | 每秒发送到数据库主机的字节数达到指定阈值。 |
最大系统网络输入为 | 发送到MongoDB 的最大字节数达到指定阈值。 |
系统网络输出为 | 每秒从数据库主机发送的字节数达到指定阈值。 |
最大系统网络输出为 | 从MongoDB 发送的最大字节数达到指定阈值。 |
注意
您可以在 Ops Manager 中为一系列指标创建 Atlas Charts。
在 Ops Manager 项目的Deployment视图中,单击List标签页。
单击要监控的进程。
单击 Status 标签页。
向下滚动到可用指标列表,然后选择要绘制图表的所需指标。
要了解有关在 Ops Manager 中为主机指标创建Atlas Charts的更多信息,请参阅 查看部署指标MongoDB Process Metrics 并单击标签页。
副本集警报
您可以设置有关主节点状态和副本集中健康成员数量的警报。 副本集条件包括:
条件 | 警报 trigger |
---|---|
副本集选出新的主节点 | 设立选举出新的主节点 (primary node in the replica set)节点。 MongoDB Ops Manager每次收到网络探测(ping)时,都会检查副本集rs.status()方法的输出,了解每个副本集成员的状态。 根据此输出, MongoDB Ops Manager确定哪个副本集成员是主节点 (primary node in the replica set)。 如果网络探测(ping)数据中找到的主节点 (primary node in the replica set)节点与MongoDB Ops Manager已知的当前主节点 (primary node in the replica set)节点不同,则会触发此警报。 收到此警报并不总是平均值该副本集已选出新的主节点。当重新选举同一个主节点时也可能trigger此警报。当 Ops Manager 在选举期间处理网络探测(ping)时,可能会发生这种情况。 |
副本集没有主节点 | 副本集没有主节点。 具体来说,当副本集的所有节点都不具有状态 如果监控在主节点 (primary node in the replica set)节点选举期间收集数据,则此警报可能会发送误报。 为防止此类误报,请设立警报配置的after waiting时间间隔(在配置的Send to部分中)。 有关解决方案,请参阅修复丢失的主节点。 |
副本集指标包括:
衡量标准 | 警报 trigger |
---|---|
健康节点数为 | 副本集的健康节点数少于您指定的阈值。 |
不健康成员的数量为 | 副本集运行状况不佳的成员数量超过了您指定的阈值。 |
过去一小时内的选举次数 > X | 过去一小时内发生的选举数量超过了用户指定的 X 值。 X 的值是在您创建警报时设置的。 此警报可能表明集群的复制未处于健康状态,不断的选举即可证明。 |
注意
如果您为某个副本集运行rs.status()并且结果为该节点返回PRIMARY
或SECONDARY
,则该副本集节点处于正常运行状态。 隐藏的从节点和仲裁节点不计算在内。
分片集群警报
您可以为分片集群中缺少的mongos
设立警报。 分片集群条件包括:
条件 | 警报 trigger |
---|---|
集群缺少活动的 mongos | MongoDB Ops Manager无法访问集群的任何 mongos 。 |
代理警报
您可以为代理状态或版本控制设置警报。 代理条件包括:
条件 | 警报 trigger |
---|---|
自动化功能已关闭 | 至少 1 分钟未检测到自动化。 在正常操作下,自动化大约每 10 秒向 Ops Manager 发送一次网络探测(ping)。如果 Ops Manager 至少 1 分钟未收到网络探测(ping),则会Atlas Triggers此警报。 仅当自动化正在管理 MongoDB 进程或代理模块时,Atlas Triggers 此警报。 |
监控已关闭 | 至少 7 分钟未检测到监控。 在正常操作下,监控大约每分钟向 Ops Manager 发送一次网络探测(ping)。如果 Ops Manager 至少 7 分钟未收到网络探测(ping),则会Atlas Triggers此警报。但是,对于未配置主机的项目,永远不会Atlas Triggers此警报。 重要当监控关闭时,Ops Manager 不会为任何主机Atlas Triggers其他警报。例如:如果主机关闭,则监控无法向 Ops Manager 发送可能trigger新警报的数据。 |
监控没有最新版本 | 监控未运行最新版本的软件。 |
备份已关闭 | 至少有一个活动副本集或集群的项目的备份停机时间超过 1 小时。 要解决此警报,请执行以下操作:
|
备份没有最新版本 | 备份未运行最新版本的软件。 |
备份会议通话失败次数过多 |
备份警报
您可以为备份 oplog、重新同步和不一致设置警报。 备份条件包括:
条件 | 警报 trigger |
---|---|
备份 oplog 落后 | 收到的最新oplog 数据已超过MongoDB Ops Manager 75分钟。 要解决此警报,请参阅修复备份 Oplog 问题。 |
备份需要重新同步 | 备份的复制进程远远落后于oplog ,无法跟上。 当主机覆盖备份尚未复制的 oplog 条目时,会发生这种情况。 发生这种情况时,您必须重新同步备份,如重新同步备份过程中所述。 另外,请检查相应的备份日志。 如果看到“失败的共同点”测试,则可能发生了以下情况之一。
|
检测到备份配置不一致 | Ops Manager 检测到备份的配置与其备份的 MongoDB 部署的配置不匹配。 要解决此警报,请参阅修复不一致的备份。 |
不一致的集群快照计数是... |
无法将备份分配给备份守护程序 | 备份作业无法绑定到备份守护程序。 例子作业绑定失败的原因包括但不限于:
在这两种情况下,请解决问题,然后重新启动备份的初始同步。 作为替代方案,您可以通过Admin接口手动将作业绑定到守护进程。 有关更多信息,请参阅作业。 注意 |
备份重试次数已达到上限 | |
备份处于意外状态 | 发生意外情况,副本集的备份状态为 如果出现 注意 |
副本集有延迟快照 | 快照未能在下一个快照计划开始之前完成。 检查 Ops Manager 管理界面中的作业日志是否有任何错误。 注意 |
同步切片传输尚未取得进展... | |
备份作业正忙于... |
BI Connector 警报
这些警报条件适用于将 BI Connector 与 Ops Manager 结合使用的情况。
用户警报
您可以为用户添加、删除和角色变更设置警报。 用户条件包括:
条件 | 警报 trigger |
---|---|
用户已加入项目 | 新用户加入项目。 |
用户离开项目 | 用户离开项目。 |
用户的角色已更改 | 用户的角色已更改。 |
项目警报
您可以为用户批准和身份验证配置设置警报。 项目条件包括:
条件 | 警报 trigger |
---|---|
用户未启用双重身份验证 | 项目中有尚未设置双重身份验证的用户。 |
安全检查警报已更新 | 项目的安全检查警报已更改。 |