Atlas 灾难恢复指导

在此页面上

Atlas 灾难恢复功能
Atlas 灾难恢复建议
单节点中断
区域中断
云提供商服务中断
Atlas中断
资源容量问题
资源故障
删除生产数据
驱动程序故障
数据损坏

企业制定灾难恢复计划至关重要。我们强烈建议您准备一份全面的灾难恢复 (DR) 计划，其中包括以下内容：

您指定的恢复点目标 (RPO)
您指定的恢复时间目标 (RTO)
促进实现这些目标的自动化流程

使用此页面上的建议来准备和应对灾难。

要详细学习；了解有助于灾难恢复的主动高可用性配置，请参阅高可用性和恢复的推荐配置。

Atlas 灾难恢复功能

要了解支持灾难恢复的 Atlas 功能，请参阅 Atlas 架构中心的以下页面：

Atlas 灾难恢复建议

使用以下灾难恢复建议为您的组织创建灾难恢复计划。这些建议提供了在发生灾难事件时应采取的步骤的信息。

您必须定期（最好每季度一次，但至少每半年一次）测试本节中的计划。测试通常有助于企业数据库管理 (EDM)团队做好应对灾难的准备，同时也有助于保持说明为最新。

某些灾难恢复测试可能要求执行 EDM 用户无法执行的操作。在这些情况下，请至少在计划运行测试练习之前一周打开支持案例，以便执行人为中断。

本节介绍以下灾难恢复过程：

单节点中断
区域中断
云提供商服务中断
Atlas中断
资源容量问题
资源故障
删除生产数据
驱动程序故障
数据损坏

单节点中断

如果您的副本集中的单个节点因区域性服务中断而发生故障，只要遵循最佳实践，您的部署仍应能够正常运行。如果您从从节点读取，可能会遇到性能下降，因为可以读取数据的节点减少了。

您可以使用Atlas用户界面的“测试主节点 (primary node in the replica set)节点故障转移”功能或“测试故障转移Atlas Administration API”端点在Atlas中测试主节点中断。

区域中断

如果单地区中断或多区域中断导致集群状态下降，请执行以下步骤：

确定出现问题的地区

确定有多少节点仍处于在线

您可以在Atlas 用户界面集群的 Overview标签页中找到有关集群运行状况的信息。

确定需要多少个节点

根据剩余在线节点的数量，确定您需要多少个新节点来将副本集恢复到正常状态。

正常状态是大多数节点可用的状态。

确定哪些地区不太可能受到当前停电的影响

根据中断的原因，在不久的将来，可能还有其他地区也会出现计划外中断。示例，如果中断是由美国东海岸的自然灾害造成的，则应避开美国东海岸地区，以防出现其他问题。

将节点添加到您识别的区域

在不太可能受到中断原因影响的区域中添加正常状态所需的节点数。

要在服务中断期间通过添加区域或节点重新配置副本集，请参阅在区域服务中断期间重新配置副本集。

（可选）添加其他节点

除了添加节点以将副本集恢复到正常状态外，您还可以添加其他节点以匹配灾难发生前副本集的拓扑结构。

您可以使用Atlas用户界面的模拟停电功能或启动停电模拟Atlas Administration API端点来测试Atlas中的地区停电。

云提供商服务中断

在极不可能发生的整个云提供商不可用的情况下，请按照以下步骤使部署重新上线：

确定云提供商中断开始的时间。

在本程序的稍后部分，您需要此信息来恢复您的部署。

确定要部署新集群的替代云提供商

有关云提供商列表和信息，请参阅云提供商。

查找在服务中断开始之前为集群拍摄的最新可用快照

要了解如何查看备份快照，请参阅查看 M10+ 备份快照。

使用替代云提供商创建新集群

新集群必须具有与原始集群相同的拓扑结构。

或者，您也可以向现有集群添加由替代云提供商托管的新节点，而不是创建全新的集群。

将上一步的最新快照恢复到新的集群中

要学习；了解如何恢复快照，请参阅恢复集群。

将连接到旧集群的所有应用程序切换到新创建的集群

要查找新的连接字符串，请参阅通过驱动程序连接。请查看应用程序堆栈，因为您可能需要将其重新部署到新的云提供商上。

Atlas中断

在极不可能发生的 Atlas 控制平面和 Atlas 用户界面不可用的情况下，您的 Atlas 集群仍然可用且可访问。要了解更多信息，请参阅平台可靠性。打开高优先级支持工单，进一步调查此问题。

资源容量问题

规划不善或意外的数据库流量可能会导致计算资源（如磁盘空间、RAM 或 CPU）容量问题。这种行为可能不是由灾难引起的。

如果计算资源达到最大分配量并导致灾难，请遵循以下步骤：

使用实时性能面板或Atlas指标确定哪些计算资源已用完

要在Atlas用户界面中查看资源利用率，请参阅监控实时性能。

要使用Atlas Administration API查看指标，请参阅监控和日志。

确定在已用尽的资源基础上还需要多少资源来缓解性能问题

分配所需的资源

请注意， Atlas将以滚动方式执行此更改，因此它不会对您的应用程序产生任何重大影响。

要学习；了解如何分配更多资源，请参阅编辑集群。

监控集群以确定更改后是否存在任何其他问题

资源故障

重要

这是一个临时解决方案，旨在缩短整个系统的停机时间。解决根本的问题后，将新创建集群中的数据合并到原始集群，并将所有应用程序点原始集群。

如果计算资源发生故障并导致您的集群不可用，请遵循以下步骤：

打开高优先级支持票证

创建一个与故障集群具有相同拓扑结构的新集群

将最新备份恢复到新创建的集群

要学习；了解如何恢复快照，请参阅恢复集群。

将所有使用故障集群的应用程序指向新创建的集群

删除生产数据

由于人为错误或在数据库上构建的应用程序中的漏洞，生产数据可能会被意外删除。如果集群本身被意外删除，Atlas可能会暂时保留该卷。

如果集合或数据库的内容已被删除，请按照以下步骤恢复您的数据：

确定数据被删除时的日期和时间或 oplog 时间戳

创建集合或数据库当前状态的副本（如果其中包含任何数据）

您可以使用mongoexport创建副本。

恢复您的数据

如果删除发生在过去 72 小时内，并且您已配置连续备份，请使用给定时间点 (PIT) 恢复，从删除发生之前的时间点进行恢复。

如果删除操作并非发生在过去 72 小时内，则将删除操作发生之前的最新备份恢复到集群中。

要学习；了解更多信息，请参阅恢复集群。

如果您创建了数据副本，请导入您导出的新数据

您可以使用 mongoimport 与更新或插入模式来导入数据，并确保在集合或数据库中正确反映任何已修改或添加的数据。

驱动程序故障

如果驱动程序出现故障，请按照以下步骤操作：

确定问题

在此步骤中，您可以与技术支持团队合作。

如果确定恢复到较早的驾驶员版本可以解决问题，请继续执行下一步。

确定问题何时出现以及最新可用的驾驶员版本

评估是否需要进行任何其他更改才能迁移到早期驾驶员版本

这可能包括应用程序代码或查询更改。例如，如果您在主要版本和次要版本之间移动，则可能会有破坏性变更。

在非生产环境中测试更改

如果您在测试时没有遇到问题，请降级到新的驱动程序版本

确保上一步的任何其他更改都反映在生产环境中。

数据损坏

重要

这是一个临时解决方案，旨在缩短整个系统的停机时间。解决根本的问题后，将新创建集群中的数据合并到原始集群，并将所有应用程序点原始集群。

如果底层数据损坏，请遵循以下步骤：

打开高优先级支持票证

创建一个与故障集群具有相同拓扑结构的新集群

将最新备份恢复到新创建的集群

要学习；了解如何恢复快照，请参阅恢复集群。

检查恢复的数据，确认不存在损坏

将所有使用故障集群的应用程序指向新创建的集群

后退

备份

来年

性能