Orientações para a recuperação de desastres do Atlas
Nesta página
- Recursos para o Atlas Disaster Recovery
- Recomendações para a recuperação de desastres do Atlas
- Interrupção de nó único
- Interrupção regional
- Interrupção do provedor de nuvem
- Interrupção do Atlas
- Problemas de Capacidade de Recursos
- Falha de recurso
- Exclusão de dados de produção
- Falha do driver
- Corrupção de dados
É fundamental que as empresas planejem a recuperação de desastres. É altamente recomendável que você prepare um plano abrangente de recuperação de desastres (DR) que inclua elementos como:
Seu objetivo de ponto de recuperação designado (RPO)
Seu objetivo de tempo de recuperação (RTO) designado
Processos automatizados que facilitam o alinhamento com esses objetivos
Utilize as recomendações desta página para se preparar e responder a desastres.
Para aprender mais sobre configurações proativas de alta disponibilidade que podem ajudar na recuperação de desastres, consulte Configurações recomendadas para alta disponibilidade e recuperação.
Recursos para o Atlas Disaster Recovery
Para aprender sobre os recursos do Atlas que oferecem suporte à recuperação de desastre, consulte as seguintes páginas no Centro de Arquitetura Atlas:
Recomendações para a recuperação de desastres do Atlas
Use as seguintes recomendações de recuperação de desastres para criar um plano de recuperação de desastres para sua organização. Estas recomendações fornecem informações sobre as etapas a serem seguidas em caso de evento de desastre.
É fundamental que você teste os planos nesta seção regularmente (idealmente trimestralmente, mas pelo menos semestralmente). Os testes geralmente ajudam a preparar a equipe de gerenciamento de banco de dados empresarial (EDM) para responder a desastres e, ao mesmo tempo, ajudar a manter as instruções atualizadas.
Alguns testes de recuperação de desastres podem exigir ações que não podem ser executadas por usuários do EDM. Nesses casos, abra um caso de suporte com o objetivo de realizar interrupções sintéticas pelo menos uma semana antes de quando você planeja executar um exercício de teste.
Esta seção aborda os seguintes procedimentos de recuperação de desastres:
Interrupção de nó único
Se um único nó no seu conjunto de réplicas falhar devido a uma interrupção regional, sua implantação ainda deve estar disponível, desde que você tenha seguido as melhores práticas. Se você estiver lendo de nós secundários, poderá experimentar um desempenho degradado porque terá um nó a menos para leitura.
Você pode testar uma interrupção de nó primary no Atlas usando a funcionalidade Testar Failover Primário da UI do Atlas ou o endpoint da API de Administração do Atlas de Failover de Teste.
Interrupção regional
Se uma única interrupção de região ou interrupção de multirregional degradar o estado do seu cluster, siga estas etapas:
Determine quais regiões provavelmente não serão afetadas pela interrupção atual
Dependendo da causa da interrupção, pode haver outras regiões em um futuro próximo que também sofrerão interrupções não programadas. Por exemplo, se as interrupções foram causadas por um desastre natural na costa leste dos Estados Unidos, você deverá evitar regiões na costa leste dos Estados Unidos caso haja problemas adicionais.
Adicione nós às regiões que você identificou.
Adicione o número necessário de nós para um estado normal em regiões que provavelmente não serão afetadas pela causa da interrupção.
Para reconfigurar um conjunto de réplicas durante uma interrupção adicionando regiões ou nós, consulte Reconfigurar um conjunto de réplicas durante uma interrupção regional.
Você pode testar uma interrupção de região no Atlas usando o recurso Simular Interrupção da UI do Atlas ou o ponto de extremidade da API de Administração do Atlas de Simulação de Interrupção.
Interrupção do provedor de nuvem
No caso altamente improvável de que um provedor de nuvem inteiro fique indisponível, siga estas etapas para restaurar sua implantação online:
Identifique o provedor de nuvem alternativo no qual você gostaria de implantar seu novo cluster
Para obter uma lista de fornecedores de nuvem e informações, consulte Fornecedores de nuvem.
Encontre o snapshot mais recente disponível do cluster antes que a interrupção começasse
Para saber como visualizar seus snapshots de backup, consulte Visualizar snapshots de backup M10+.
Restaure o snapshot mais recente da etapa anterior no novo cluster
Para saber como restaurar seu snapshot, consulte Restaurar seu cluster.
Alterne todos os aplicativos que se conectam ao cluster antigo para o cluster recém-criado
Para encontrar a nova string de conexão, consulte Conectar via Drivers. Revise sua pilha de aplicativos, pois provavelmente precisará redistribuí-la no novo provedor de nuvem.
Interrupção do Atlas
No evento altamente improvável de que o Plano de Controle do Atlas e a IU do Atlas estejam indisponíveis, seu cluster ainda estará disponível e acessível. Para saber mais, veja Confiabilidade da Plataforma. Abra um ticket de suporte de alta prioridade para investigar isso mais a fundo.
Problemas de Capacidade de Recursos
Problemas de capacidade de recursos computacionais (como espaço em disco, RAM ou CPU) podem resultar de planejamento inadequado ou tráfego inesperado no banco de dados. Esse comportamento pode não ser resultado de um desastre.
Se um recurso computacional atingir o limite alocado e causar um desastre, siga estas instruções:
Identifique qual recurso computacional está esgotando usando o Painel de Desempenho em Tempo Real ou as métricas do Atlas
Para visualizar sua utilização de recursos na UI do Atlas, consulte Monitorar o desempenho em tempo real.
Para visualizar métricas com a API de administração do Atlas, consulte Monitoramento e registros.
Alocar os recursos necessários
Observe que o Atlas executará essa alteração de forma contínua, portanto, ela não deve ter nenhum impacto grande em seus aplicativos.
Para saber como alocar mais recursos, consulte Editar um cluster.
Falha de recurso
Importante
Esta é uma solução temporária destinada a reduzir o tempo de inatividade geral do sistema. Quando o problema subjacente for resolvido, mescle os dados do cluster recém-criado ao cluster original e ponto todos os aplicativos de volta para o cluster original.
Se um recurso computacional falhar e tornar seu cluster indisponível, siga estas instruções:
Restaure o backup mais recente no cluster recém-criado
Para saber como restaurar seu snapshot, consulte Restaurar seu cluster.
Exclusão de dados de produção
Os dados de produção podem ser excluídos acidentalmente devido a erro humano ou a um bug no aplicativo criado sobre o banco de dados. Se o próprio cluster foi excluído acidentalmente, o Atlas pode reter o volume temporariamente.
Se o conteúdo de uma coleção ou banco de dados foi excluído, siga estas etapas para restaurar seus dados:
Criar uma cópia do estado atual da collection ou banco de dados, se ela contiver quaisquer dados
Você pode usar o mongoexport para criar uma cópia.
Restaurar seus dados
Se a exclusão ocorreu nas últimas 72 horas e você configurou o backup contínuo, use a restauração de Ponto no Tempo (PIT) para restaurar a partir do ponto no tempo imediatamente anterior à exclusão.
Se a exclusão não ocorreu nas últimas 72 horas, restaure o backup mais recente de antes da ocorrência da exclusão no cluster.
Para saber mais, consulte Restaurar Seu Cluster.
Se você criou uma cópia dos seus dados, importe os novos dados que você exportou
Você pode usar o mongoimport com o modo upsert para importar seus dados e garantir que quaisquer dados que tenham sido modificados ou adicionados estejam refletidos corretamente na coleção ou banco de dados.
Falha do driver
Se um driver falhar, siga estas etapas:
Corrupção de dados
Importante
Esta é uma solução temporária destinada a reduzir o tempo de inatividade geral do sistema. Quando o problema subjacente for resolvido, mescle os dados do cluster recém-criado ao cluster original e ponto todos os aplicativos de volta para o cluster original.
Se os seus dados subjacentes forem corrompidos, siga estas etapas:
Restaure o backup mais recente no cluster recém-criado
Para saber como restaurar seu snapshot, consulte Restaurar seu cluster.