修复丢失的主节点问题
在时间 T
,在副本集ABC
中未检测到主节点 (primary node in the replica set)节点。
警报条件
您可以在项目级警报设置页面配置触发警报的警报条件。
有关警报条件的更多信息,请参阅 Replica set has no primary
。
常见触发器
工作负载超过集群的吞吐量限制和计算资源。
云提供商的网络问题使副本集的票节点员无法相互通信,因此无法选举主节点。
解决眼前的问题
检查集群的指标,确定工作负载是否有足够的计算资源。
如果集群中的 CPU、磁盘 IOPS、连接或其他资源耗尽,请升级到支持您工作负载的集群。
如果集群的指标正常,则云提供商可能存在网络问题。 Atlas 会自动尝试修复这些问题。 如果问题仍然存在,请联系 MongoDB 支持部门。
实施长期解决方案
如果 Atlas 在选举期间收集数据,此警报可能会发送误报。 为防止此类误报,请设置警报配置的 after waiting时间间隔(在配置的Send to部分中)。
监控您的进度
查看以下图表,监控集群是否耗尽资源:
Normalized System CPU
监控 CPU 使用情况,以确定是否从磁盘而不是内存中检索数据。
如果您无法查看触发警报的使用情况,请单击相关时段并拖动鼠标,放大 Normalized System CPU 图表。通过更高分辨率的视图,您可能会发现在概述中看不到的 CPU 使用量尖峰。
Disk IOPs
监控磁盘 IOPS 是否接近预配的最大 IOPS。确定集群是否可以处理将来的工作负载。
Connections
监控连接以确定当前的连接限制是否足够。如有必要,请升级集群层。
要了解更多信息,请参阅查看集群指标。