修复丢失的主节点问题
在时间 T
,在副本集ABC
中未检测到主节点 (primary node in the replica set)节点。
警报条件
您可以在项目级 警报设置页面配置警报条件以trigger警报。
要了解有关警报条件的更多信息,请参阅副本集没有主节点。
常见触发器
网络分区导致副本集的所有成员无法相互通信。
副本集中没有足够的投票节点来保留主节点。需要简单多数才能设置主节点。 如果太多主机关闭(或无响应)副本集心跳,则可能会发生这种情况。
当主节点宕机时,就没有可选举成员了。
解决眼前的问题
确保副本集中有多数投票可用。如果主机已永久关闭,请确保将其从副本集配置中删除。
使用从一台主机到另一台主机的基本网络探测(ping)测试,确保它们可以相互通信。
实施长期解决方案
确保有多个承载数据的节点的优先级大于 0。
要了解更多信息,请参阅 MongoDB 手册中的副本集选举。
监控您的进度
查看以下Atlas Charts,监控部署是否耗尽资源:
Normalized System CPU
监控 CPU 使用情况,以确定是否从磁盘而不是内存中检索数据。
Disk IOPs
监控磁盘 IOPS 是否接近预配的最大 IOPS。 确定部署是否可以处理未来的工作负载。
Connections
监控连接以确定当前连接限制是否足够
要了解更多信息,请参阅查看部署指标。