/ /

Resolver alertas

Página inicial do Docs

/ /

Configurar e resolver alertas

Resolver alertas

Página inicial do Docs

Gestão

Monitorar clusters

Configurar e resolver alertas

Resolver alertas

Corrigir Problemas de Oplog

Alertas de oplog de replicação podem ser acionados quando a quantidade de oplog gerada em um nó primário do cluster é maior do que o tamanho do oplog configurado do cluster.

Condições de alerta

Você pode configurar as seguintes condições de alerta na página de configurações de alerta no nível de projeto para acionar alertas.

Replication Oplog Window is (X) ocorrerá se a quantidade aproximada de tempo disponível no oplog de replicação primária atender ou ficar abaixo do limite especificado. Isso se refere à quantidade de tempo em que o primário pode continuar fazendo registros, dada a taxa atual na qual os dados do oplog são gerados.

Oplog Data Per Hour is (X) ocorre se a quantidade de dados por hora gravados no registro de replicação de um primário atingir ou exceder o limite especificado.

Gatilhos comuns

Veja alguns eventos comuns que podem levar ao aumento da atividade de oplog:

Operações intensivas de escrita e atualização em um curto período.
O tamanho de oplog configurado do cluster é menor que o valor no gráfico Oplog GB / Hour observado na exibição de métricas do cluster.

Corrigir o problema imediato

Veja algumas ações possíveis a serem consideradas para ajudar a solucionar alertas de oplog de replicação:

Aumente o tamanho do oplog editando a configuração do cluster para garantir que ele seja maior que o valor de pico do gráfico Oplog GB / Hour na exibição de métricas do cluster.
Aumente o tamanho do oplog se você acredita que haverá operações intensas de gravação e atualização em um curto período de tempo.
Observação
Talvez seja necessário aumentar o armazenamento do cluster para liberar espaço suficiente para redimensionar o oplog.
Certifique-se de que todas as operações de gravação especifiquem uma write concern de majority para garantir que as gravações sejam replicadas em pelo menos um nó antes de passar para a próxima operação de gravação. Isso controla a taxa de tráfego do seu aplicativo, impedindo que o primário aceite gravações mais rapidamente do que os secundários conseguem gerenciar.

Implemente uma solução a longo prazo

Consulte Volumes de trabalho que podem exigir um tamanho de oplog maior para obter mais informações sobre os requisitos de tamanho oplog para seu caso de uso.

Monitore seu progresso

Os seguintes cenários podem ocorrer se esses alertas são acionados:

O gráfico Oplog GB / Hour na exibição de métricas aumenta.
O gráfico Replication Oplog Window na exibição de métricas está baixo.
O Atlas de Ver e baixar logs do MongoDB de nós secundários ou não íntegros exibe a seguinte mensagem:
```
We are too stale to use <node>:27017 as a sync source.
```
Um nó de Atlas está relatando um estado de STARTUP2 (inicialização) e RECOVERING (em recuperação) por um longo período.
Normalmente, isso indica que o nó "saiu do oplog" e não consegue acompanhar os dados do oplog que estão sendo gerados pelo nó primário. Nesse caso, o nó exigirá uma sincronização inicial para recuperar e garantir que os dados sejam consistentes em todos os nós. Você pode verificar o estado de um nó utilizando o método de shell rs.status().

Voltar

Primary perdida

Uso da CPU

Condições de alerta

Gatilhos comuns

Corrigir o problema imediato

Observação

Implemente uma solução a longo prazo

Monitore seu progresso