警报基础知识
Atlas提供内置工具、警报、图表、集成和日志来帮助您监控集群。 Atlas提供警报,通过以下方式帮助您监控集群并提高性能:
Atlas 会根据警报设置中配置的数据库和服务器条件发出警报。当某个条件触发警报时,Atlas 会在集群上显示警告符号并发送警报通知。警报设置决定了通知方法。Atlas 会继续定期发送通知,直到问题解决或你删除或禁用警报。
有用的指标和警报条件
配置警报时,需要指定警报条件和阈值。查看可以触发与集群相关的警报的可能警报条件。
注意
M0
免费集群和M2/M5
trigger共享集群仅触发与这些集群支持的指标相关的警报。有关 警报和指标限制的完整文档,请参阅Atlas M0 (免费集群)、M2 和 M5 M0/M2/M5
限制。
持续监控指标,帮助确保高效集群。
可用票证
这些警报条件可帮助您监控可能发生的并发读取或写入操作的数量。 当所有票证都被认领后,操作必须等待并进入队列。
您可以在Tickets Available图表上查看这些指标,可通过集群监控访问这些图表。
要了解更多信息,请参阅“可用票证”警报条件。
Queues
这些警报条件用于衡量等待锁的操作。
您可以在Queues图表上查看这些指标,可通过集群监控访问这些图表。
要了解更多信息,请参阅队列警报条件。
CPU 窃取
支持 突发性能 的Amazon Web Services EC 集群2 使用共享 CPU 核心时,可能会出现 CPU 被窃取的情况。此警报条件测量 CPU 使用率超过保证基线 CPU信用累积率的百分比。
CPU 信用是累积的 CPU 利用率单位。信用以恒定速率累积,以提供有保证的性能水平。这些信用可提高 CPU 性能。当信用余额耗尽时,仅提供 CPU 性能的保证基线,超出的量以窃取百分比显示。
您可以在Normalized System CPU图表上查看 CPU 使用率,可通过集群监控访问该图表。
要了解更多信息,请参阅System: CPU (Steal) % is
警报条件。
查询目标
正确配置的索引可以显着提高查询性能。 这些警报条件有助于识别低效查询。 索引过多会影响写入性能。
您可以在Query Targeting图表上查看这些指标,可通过集群监控访问这些图表。
要了解更多信息,请参阅查询目标警报条件。
连接限制
每个 Atlas 实例都有连接限制。 这些警报条件可帮助您主动解决扩展需求或与连接可用性相关的潜在问题。
您可以在Connections图表上查看这些指标,可通过集群监控访问这些图表。
要了解更多信息,请参阅连接警报条件。
配置警报
要设置哪些条件触发警报以及如何通知用户,请参阅配置警报设置。可以在组织或项目级别配置警报。Atlas 在项目级别提供默认警报。可以克隆现有警报并配置维护窗口警报。
根据您的特定要求试验警报条件值。 定期重新评估这些值以获得最佳性能。
可用票证
配置警报设置,以便在这些指标下降到 30 以下至少几分钟时发送警报。 您希望避免由相对无害的短期下降触发的误报,但在这些指标暂时保持较低水平时发现问题。
要配置这些警报条件,请参阅配置警报设置。
Queues
配置警报设置,以便在这些指标超过 100 并持续一分钟时发送警报。 您希望避免由相对无害的短期峰值触发的误报,但在这些指标暂时保持较高水平时发现问题。
要配置这些警报条件,请参阅配置警报设置。
CPU 窃取
配置警报设置,以便在该指标上升到 10% 以上时发送警报。
要配置此警报条件,请参阅配置警报设置。
查询目标
配置警报设置,以便在该指标超过 50 或 100 时发送警报。
要配置这些警报条件,请参阅配置警报设置。
连接限制
配置警报设置,以便在配置限制的连接百分比上升到 80% 或 90% 以上时发送警报。
要配置这些警报条件,请参阅配置警报设置。
解析警报
当某个条件触发警报时,Atlas 会在集群上显示警告符号并发送警报通知。解决这些警报并努力防止将来出现触发警报的情况。要了解如何解决眼前的问题、实施长期解决方案并监控进度,请参阅解决警报。
可用票证
票证可用警报可以帮助您检测由于负载而花费的时间比预期稍长的查询。
增加实例大小或有时增加磁盘速度可以帮助改善这些指标。
Queues
队列警报可以帮助您检测由于负载而花费的时间比预期稍长的查询。
增加实例大小或有时增加磁盘速度可以帮助改善这些指标。
CPU 窃取
当 CPU 使用率超过指定阈值的保证基线 CPU 信用累积率时,会出现System: CPU (Steal) % is
警报。
要了解更多信息,请参阅修复 CPU 使用率问题。
查询目标
查询目标警报通常表明查询效率低下。
要了解更多信息,请参阅修复查询问题。
连接限制
连接警报通常发生在超过 MongoDB 进程允许的最大连接数时。一旦超过限制,就不能打开新的连接,直到打开的连接数降到限制以下。
要了解更多信息,请参阅修复连接问题。
警报工作流程
满足警报条件时,警报生命周期开始。
要了解更多信息,请参阅警报工作流程。