Corrigir Problemas de Oplog
Nesta página
Os alertas de Oplog de replicação podem ser acionados quando a quantidade de dados de oplog gerados em um membro do cluster primário é maior do que o tamanho do oplog configurado do cluster.
Condições de alerta
Você pode configurar as seguintes condições de alerta na página de configurações de alerta em nível de projeto para acionar alertas.
Replication Oplog Window is (X)
ocorrerá se a quantidade aproximada de tempo disponível no oplog de replicação primária atender ou ficar abaixo do limite especificado. Isso se refere à quantidade de tempo em que o primário pode continuar fazendo registros, dada a taxa atual na qual os dados do oplog são gerados.
Oplog Data Per Hour is (X)
ocorre se a quantidade de dados por hora gravados no registro de replicação de um primário atingir ou exceder o limite especificado.
Gatilhos comuns
Veja alguns eventos comuns que podem levar ao aumento da atividade de oplog:
Operações intensivas de escrita e atualização em um curto período.
O tamanho de oplog configurado do cluster é menor que o valor no gráfico Oplog GB / Hour observado na exibição de métricas do cluster.
Corrigir o problema imediato
Veja algumas ações possíveis a serem consideradas para ajudar a solucionar alertas de oplog de replicação:
Aumente o tamanho do oplog editando a configuração do cluster para garantir que ele seja maior que o valor de pico do gráfico Oplog GB / Hour na exibição de métricas do cluster.
Aumente o tamanho do oplog se você acredita que haverá operações intensas de gravação e atualização em um curto período de tempo.
Observação
Talvez seja necessário aumentar o armazenamento do cluster para liberar espaço suficiente para redimensionar o oplog.
Certifique-se de que todas as operações de gravação especifiquem uma write concern de
majority
para garantir que as gravações sejam replicadas em pelo menos um nó antes de passar para a próxima operação de gravação. Isso controla a taxa de tráfego do seu aplicativo, impedindo que o primário aceite gravações mais rapidamente do que os secundários conseguem gerenciar.
Implemente uma solução a longo prazo
Consulte Volumes de trabalho que podem exigir um tamanho de oplog maior para obter mais informações sobre os requisitos de tamanho oplog
para seu caso de uso.
Monitore seu progresso
Os seguintes cenários podem ocorrer se esses alertas são acionados:
O gráfico Oplog GB / Hour na exibição de métricas aumenta.
O gráfico Replication Oplog Window na exibição de métricas está baixo.
O Atlas de Ver e baixar logs do MongoDB de nós secundários ou não íntegros exibe a seguinte mensagem:
We are too stale to use <node>:27017 as a sync source. Um nó de Atlas está relatando um estado de STARTUP2 (inicialização) e RECOVERING (em recuperação) por um longo período.
Normalmente, isso indica que o nó "saiu do oplog" e não consegue acompanhar os dados do oplog que estão sendo gerados pelo nó primário. Nesse caso, o nó exigirá uma sincronização inicial para recuperar e garantir que os dados sejam consistentes em todos os nós. Você pode verificar o estado de um nó utilizando o método de shell
rs.status()
.