Docs 菜单
Docs 主页
/
MongoDB Ops Manager
/ / /

托管系统警报

在此页面上

  • 系统警报组件
  • 可用系统警报
  • 修改系统警报的通知设置
  • 禁用系统警报

系统警报是内部运行状况检查,用于监控MongoDB Ops Manager本身的运行状况,包括后端后端数据库、备份守护程序和备份的 部署的运行状况。 MongoDB Ops Manager每五分钟运行一次运行状况检查。

要查看系统警报列表:

  1. 单击 Ops Manager 用户界面顶部的 Admin链接。

  2. 单击 Alerts 标签页。

  3. 单击System Alerts下的Open Alerts链接。

已禁用的系统警报显示为灰色。

如果您具有 Global OwnerGlobal Monitoring Admin角色,则可以修改通知设置禁用系统警报。

每个系统警报由三个部分组成:

组件
示例
Atlas Triggers警报的条件
  • 块存储使用的磁盘空间过多。

  • Ops Manager 后端数据库出现初创企业警告。

警报接收者列表
  • Ops Manager 用户或角色:Ops Manager 管理员

  • 电子邮件地址: admin@example.com

  • Slack 渠道: #alerts

发送警报的方法
  • 电子邮件

  • Slack

  • 短信

当启用警报并满足其trigger条件时, MongoDB Ops Manager使用该警报的指定介质向指定收件人发送警报。 有关通知选项的列表,请参阅本页上“ 修改系统警报的通知设置” 过程中的“ 选择警报接收者和传递方法 ”步骤。

默认情况下,Ops Manager 启用 所有 警报,并将警报发送到在Admin Email Address Ops Manager 配置选项 的 字段中指定的 电子邮件 地址。

Ops Manager 提供以下系统警报:

警报类型
警报消息
说明
ORDINARY_ALERT_PROCESSING_DISABLED
Ordinary alert processing is disabled
ORDINARY_ALERT_PROCESSING_ENABLED
Ordinary alert processing is enabled
警报类型
警报消息
说明
OPLOG_TTL_RESIZE
Backup oplog TTL was resized

当备份守护程序在应用oplog条目方面远远落后以至于MongoDB Ops Manager延长了其存储oplog条目的时间段时发送。 默认, MongoDB Ops Manager将oplog条目在oplog存储中存储 24 小时。

如果守护进程在过期前一小时尚未应用 oplog 条目,Ops Manager 会将存储期再延长三个小时。 Ops Manager 可以继续将存储期延长最多 14 天。

如果您收到此警报:

  1. 检查备份守护程序是否正在运行。

  2. 检查你的备份守护进程是否在性能足够好的硬件上运行,以便及时应用 oplog 条目。

THEFT_FAILED
Backup was not moved successfully

当备份作业迁移到新的备份守护程序失败时发送。 备份作业继续在原始备份守护程序上运行。

有关移动作业的更多信息,请参阅作业。

警报类型
警报消息
说明
DAEMON_DOWN
Backup Daemon is down
当备份守护程序超过 15 分钟未对 Ops Manager 执行 ping 操作时发送。
DAEMON_UP
Backup Daemon is up
LOW_HEAD_FREE_SPACE
Backup Daemon has low free head space

当存储备份副本集本地副本的磁盘分区的剩余可用空间少于 1 GB 时发送。

按照修改系统警报的通知设置步骤更改此空间限制。

LOW_HEAD_FREE_SPACE_PERCENT
Backup Daemon has low free head space percentage

当存储备份副本集本地副本的磁盘分区的剩余可用空间少于 10% 时发送。

按照修改系统警报的通知设置步骤更改此百分比。

SUFFICIENT_HEAD_FREE_SPACE
Backup Daemon has sufficient free head space
警报类型
警报消息
说明
BALANCER_OFF
Blockstore does not have a running balancer
BALANCER_ON
Blockstore has a running balancer
当分片块存储运行分片集群负载均衡器时发送。 您应该禁用分片块存储上的负载均衡器。 要禁用负载均衡器,请参阅禁用负载均衡器。
INSIDE_SPACE_USED_THRESHOLD
Blockstore space used within threshold
OUTSIDE_SPACE_USED_THRESHOLD
Blockstore space used exceeds threshold
块存储使用的磁盘空间超过配置的threshold设置时发送。 默认阈值是存储块存储的磁盘总容量的85 %。 您可以在mms.alerts.OutsideSpaceUsedThreshold.maximumSpaceUsedPercent 配置中更改MongoDB Ops Manager 值。
警报类型
警报消息
说明
CRON_JOB_COMPLETED
Cron job has completed successfully
CRON_JOB_FAILED
Cron job has failed
警报类型
警报消息
说明
CRON_JOB_DISABLED
Cron job disabled
CRON_JOB_ENABLED
Cron job enabled
警报类型
警报消息
说明
BACKING_DATABASE_PROCESS_DOWN
Detected a problem connecting to a database backing the system
当 Ops Manager 无法连接到后端数据库并运行网络探测(ping)命令时发送。
BACKING_DATABASE_PROCESS_NO_STARTUP_WARNINGS
Detected no startup warnings on the databases backing the system
BACKING_DATABASE_PROCESS_STARTUP_WARNINGS
Detected startup warnings on a database backing the system
当托管 后端数据库 的MongoDB 进程startupWarnings 的日志文件中包含 时发送。
BACKING_DATABASE_PROCESS_UP
Successfully connected to a database backing the system
警报类型
警报消息
说明
LOG_DEBUG_OVERRIDE_ACTIVE
Production logger overridden with a DEBUG level
1

仅当您具有权限时,Ops Manager 才会显示Admin链接。

2
3
4

您可以编辑trigger某些系统警报的值。这些值可在以下警报的Alert If部分找到:

警报
字段
默认
Backup daemon free head space is below
1 GB
Backup daemon free head space percentage is below
10
5

Send to部分中,配置通知。 要添加通知或收件人,请单击Add并从下面列出的选项中进行选择。 要测试通知,请单击配置通知后显示的测试链接,并确保您正在测试的服务收到该消息。

可以设置哪些警报通知方法取决于警报的范围:

项目警报
仅适用于一个或多个单独的组织和项目。
全局警报
适用于所有组织和项目。
系统警报
适用于 Ops Manager 及其后端数据库的运行状况

警报通知方法如下:

通知方法
项目
全局
记录
说明
Ops Manager 项目

通过电子邮件或短信向项目中具有特定角色的用户发送该警报。

  1. Select Role(s)(选择角色)复选框中选择应接收警报的项目角色,或选择 All Roles(所有角色),这样项目中的所有用户都会接收到警报。

  2. 选择SMS以将这些警报发送到在“帐户”页面中为每个 Ops Manager 项目用户配置的手机号码。

  3. 选择Email以将这些警报发送到在“帐户”页面中为每个 Ops Manager 项目用户配置的电子邮件地址。 默认情况下, Email处于选中状态。

Ops Manager 组织

通过电子邮件或短信向组织中具有特定角色的用户发送该警报。

  1. Select Role(s) 复选框中选择应接收警报的组织角色,或为组织中的所有用户选择 All Roles 以接收警报。

  2. 选择SMS以将这些警报发送到在“帐户”页面中为每个 Ops Manager 组织用户配置的手机号码。

  3. Select Email to send these alerts to the email address configured for each Ops Manager Organization user in their Account page. 默认情况下, Email处于选中状态。

Ops Manager 用户

通过电子邮件或短信向 Ops Manager 用户发送警报。

  • 选择SMS以将这些警报发送到为 Ops Manager 用户帐户配置的手机号码。

  • 选择Email以将这些警报发送到为 Ops Manager 用户帐户配置的电子邮件地址。 默认情况下, Email处于选中状态。

Ops Manager 团队

通过电子邮件或短信向 Ops Manager 用户发送警报。

  • 选择SMS以将这些警报发送到为 Ops Manager 用户帐户配置的手机号码。

  • 选择Email以将这些警报发送到为 Ops Manager 用户帐户配置的电子邮件地址。 默认情况下, Email处于选中状态。

SNMP主机

指定将在标准端口162上接收 v 2 c 陷阱的主机名。 SNMP MIB 文件 可供下载

重要

MongoDB Ops Manager 6.0.0 弃用SNMP警报。 MongoDB Ops Manager 7.0.0 将不包含SNMP警报。 要学习;了解有关其他警报选项的更多信息,请参阅第三方服务集成。

电子邮件
将警报发送到指定的电子邮件地址。
短信

将警报发送到电话号码。 Ops Manager 会删除除+之外的所有字母和标点符号。

对于国际(非美国)电话号码, 请使用 E.164 标准 格式化电话号码 。示例,对于新西兰,请在电话号码前输入+64

MongoDB Ops Manager使用位于美国的 Twilio 发送短信。

如果您想使用非美国 电话号码,请尝试使用 Google 语音 电话号码。

配置MongoDB Ops Manager for Twilio集成以使用SMS

将警报发送到 HipChat 聊天室消息流。 输入 HipChat 房间名称和API令牌。

将警报发送到组织授权的 Slack 工作场所中的 Slack 渠道。

  • 输入通道名称以及 API 令牌或 Bot 令牌。

  • 要创建 API 令牌,请参阅 API Slack 帐户中的页面。

要了解有关 Slack 中 Bot 用户的更多信息,请参阅 Slack 文档

将警报发送到 PagerDuty 帐户。仅输入 PagerDuty 集成密钥。 直接在 PagerDuty 中定义升级规则和警报分配。

从 PagerDuty 仪表盘确认 PagerDuty 警报。

PagerDuty Decommissioned 他们在 110 月的 REST API v2018 密钥。如果您有 av1 密钥,则可以继续在MongoDB Ops Manager中使用该密钥。 所有新的 PagerDuty 密钥均使用其REST API v2 ,但MongoDB Ops Manager 不支持其 v2 密钥。如果您没有 REST API v1 密钥,请使用 PagerDuty Events API v1 相反。

Webhook

向端点发送HTTP 帖子 请求以进行编程处理。请求正文包含一个JSON文档,其格式与 Ops Manager API警报资源相同。

要配置此选项,请在“项目设置”页面上配置 Webhook 设置。

要在全局级别使用此方法,请执行以下操作:

  1. 导航至Ops Manager ConfigMiscellaneousAdministration console 标签页。

  2. 更新Webhook URLWebhook Secret设置。

Ops Manager 添加了一个名为X-MMS-Event的请求标头,以区分各种警报状态。此标头的可能值是:

alert.open
警报刚刚打开。
alert.close
警报已解决。
alert.update
先前打开的警报仍处于打开状态。
alert.acknowledge
警报已得到确认。
alert.cancel
警报无效并被取消。
alert.inform
表示信息警报,即时间点事件,例如“主节点当选”。

Webhook Secret如果您在字段中指定键,MongoDB Ops ManagerX-MMS-Signature 会添加请求标头。此标头包含请求正文的 base64 编码的HMAC -SHA-1 签名。 MongoDB Ops Manager 使用提供的密钥创建签名。

将警报发送到 Datadog 帐户作为 Datadog 事件。

首次打开警报时,Ops Manager 会将警报作为“错误”事件发送。 后续更新将作为“信息”事件发送。 当警报关闭时,Ops Manager 会发送“成功”事件。

出现提示时,在API Key下输入您的 DataDog API密钥,然后单击Validate Datadog API Key

查找 DataDog API 密钥 您的 Datadog 帐户中。

管理员
将警报发送到 Ops Manager 配置选项中Admin Email Address字段中指定的电子邮件地址。
全球警报摘要电子邮件
将所有全局警报的摘要电子邮件发送到指定的电子邮件地址。
6
1

仅当您具有权限时,Ops Manager 才会显示Admin链接。

2
3

在要禁用的系统警报所在的行,单击省略号图标并选择Disable

后退

管理全局警报