Simular interrupção regional
Nesta página
Observação
Este recurso não está disponível para nenhuma das seguintes implantações:
Instâncias sem servidor
M0
clustersM2/M5
clustersClusters flexíveis
Para saber mais,consulte Limites.
Você pode usar a interface do usuário e a API do Atlas para simular uma interrupção em seu cluster multirregional do Atlas e observar como seu aplicação lida com uma interrupção em uma ou mais regiões. Você também pode executar múltiplas simulações. Ao executar várias simulações, recomendamos um intervalo de cinco minutos entre as simulações.
Acesso necessário
Para iniciar uma simulação de interrupção, você deve ter acesso Organization Owner
ou Project Owner
ao projeto.
Simular processo de interrupção regional
Quando você envia uma solicitação para testar uma interrupção usando a UI ou API do Atlas, o Atlas simula um evento de interrupção. Durante uma interrupção simulada, o Atlas:
Remove a conectividade de rede com nós nas regiões selecionadas.
Não trigger um alerta de monitoramento para
Replica set has no primary
.
Se seu aplicativo levar mais de 15 minutos para notar a perda de conexão em alguns nós, recomendamos que você reduza os valores de tempo limite de retransmissão TCP . Para saber mais, consulte modificar o valor tcp_retry2 .
Simule uma interrupção regional usando a interface do usuário do Atlas
Para simular uma interrupção regional na interface do usuário do Atlas:
No Atlas, VáGo para a Clusters página do seu projeto.
Se ainda não tiver sido exibido, selecione a organização que contém seu projeto no menu Organizations na barra de navegação.
Se ainda não estiver exibido, selecione o projeto desejado no menu Projects na barra de navegação.
Se ainda não estiver exibido, clique em Clusters na barra lateral.
A página Clusters é exibida.
Vá para o Test Resilience modal.
Para o cluster no qual você deseja realizar o teste de interrupção, clique no botão ... .
Clique em Test Resilience.
Selecione Regional Outage. O Atlas exibe um modal Test Resilience com as etapas que o Atlas executa para simular um evento de interrupção . Para saber mais, consulte Simular processo de interrupção regional.
Inicie a simulação.
Clique em Select Regions.
Selecione a aba correspondente ao tipo de interrupção que deseja simular:
Selecione menos da metade dos nós elegíveis.
Selecione pelo menos um a mais da metade dos seus nós elegíveis e mantenha pelo menos um nó elegível restante.
Depois de selecionar a maioria dos nós elegíveis, o conjunto de réplicas não terá um nó primary. Isso significa que seu conjunto de réplicas não pode executar operações de gravação e operações de leitura que não estejam configuradas com um readPreference adequado.
Selecione Simulate Regional Outage para iniciar o teste.
O Atlas notifica você quando ocorre a interrupção .
Termine a simulação.
Selecione uma aba correspondente ao tipo de interrupção que você está executando:
Quando terminar de testar a interrupção, clique em End Simulation.
Quando terminar de testar a interrupção regional , execute uma das seguintes ações:
Restaure seu cluster multirregional adicionando nós elegíveis ao seu conjunto de réplicas. Para saber mais, consulte Reconfigurar um conjunto de réplicas durante uma interrupção regional.
Termine a simulação de interrupção regional clicando em End Simulation.
Simule uma interrupção regional usando a API
Você pode usar o endpoint da API Test Outage para simular um evento de interrupção . Para saber mais sobre o processo de interrupção , consulte Simular processo de interrupção regional.
Verificar a interrupção
Para verificar se a interrupção foi bem-sucedida, monitore seu aplicativo e verifique se suas operações de leitura e gravação estão funcionando conforme o esperado.
Solução de problemas de interrupção
Uma interrupção regional ou simulação de interrupção regional que afeta as regions de priority mais alta em um cluster fragmentado pode fazer com que o cluster se torne inoperável para priority de leitura. Para restaurar os servidores de configuração, faça o seguinte:
Configure uma preferência de leitura adequada para consultar nós secundários para leituras.
Reconfigure o cluster para recuperar os nós elegíveis.