レプリカセットが過半数を失った場合のアプリケーションデータベースの回復

項目一覧

Overview

強制された再構成によるアプリケーションデータベースの回復

Kubernetesノードクラスターに障害が発生し、アプリケーションデータベースがプライマリを選択するために使用できるレプリカセットのノードの大部分を失った場合、 Kubernetes演算子は強制的なレプリカセットの再構成を自動的にtriggerしません。レプリカセットの強制再構成を手動で開始し、アプリケーションデータベースのレプリカセットを正常な状態に復元する必要があります。

Overview

Kubernetes クラスターの特定の重大な停止時に、アプリケーションデータベースのレプリカセットの配置により、レプリカセットのノードの大部分が失われる可能性があります。たとえば、 cluster 1に 2 つのノードとcluster 2に 3 つのノードがあるアプリケーションデータベースの配置で、cluster 2 に 3 つのノードがあり、が停止した場合、アプリケーションデータベースのレプリカセットの配置は、選択するために必要なノードの過半数を失うことになります。プライマリ。プライマリがないと、MongoDB Agent はレプリカセットを再構成できません。

レプリカセットのノードの再スケジュールを有効にするには、Kubernetes Operator は MongoDB Agent のオートメーション構成を強制的に再構成して、残りの正常なノードクラスターにレプリカセットノードを配置できるようにする必要があります。これを実現するために、Kubernetes 演算子はreplicaSets[n]. forceを設定しますレプリカセット構成のフラグ。フラグは、レプリカセットに現在の（最新）オートメーション構成バージョンを使用するように MongoDB Agent を強制的に指示します。フラグを使用すると、プライマリノードが選択されない場合に Kubernetes Operator はレプリカセットを再構成できます。

重要

アプリケーションデータベースを強制的に再構成すると、"過半数" がコミットした書込みのロールバックなど、望ましくない動作が発生し、予期しないデータが失われる可能性があります。

強制された再構成によるアプリケーションデータベースの回復

アプリケーションデータベースのノードの強制的な再構成を実行するには、次の手順に従います。

spec.applicationDatabase.clusterSpecList構成設定を変更して、正常な Kubernetes クラスターへのアプリケーションデータベースの配置を再構成し、レプリカセットが正常なノードの大部分を構成できるようにします。
失敗した Kubernetes クラスターをspec.applicationDatabase.clusterSpecListから削除するか、失敗した Kubernetes メンバークラスターをスケールダウンします。この方法では、レプリカセットは、それらのクラスターでホストされているアプリケーションデータベースのノードをレプリカセットの投票ノードとしてカウントしません。たとえば、 cluster 1に正常なノードが 2 つと、 3ノードを含む失敗したcluster 2には、合計 5 つのレプリカセットノードから 2 つの正常なノードがあります（ 2 / 5正常）。 cluster 1に 1 つのノードを追加すると、レプリカセット内のノード数に対する正常なノードの3 / 6の比率になります。レプリカセットの過半数を形成するには、次のオプションがあります。
- 少なくとも 2 つの新しいレプリカセットノードをcluster 1または新しい正常な Kubernetes クラスターに追加します。これにより、7 ノードのレプリカセットに 4 つのノードが含まれるという過半数（ 4 / 7 ）が実現されます。
- 失敗した Kubernetes クラスターを 0 のノードにスケールダウンするか、クラスターをspec.applicationDatabase.clusterSpecListから完全に削除し、 cluster 1に少なくとも 1 つのノードを追加して、レプリカセットのステートメントに3 / 3の正常なノードを含めます。
MongoDBOpsManager カスタムリソースの最上位に注釈 "mongodb.com/v1.forceReconfigure": "true" を追加し、値 "true" が引用符で囲まれたstringであることを確認します。
この注釈に基づいて、Kubernetes Operator は次回の調整プロセスでレプリカセットの強制的な再構成を実行し、変更された配置構成に従ってアプリケーションデータベースのレプリカセットノードを増やします。
Kubernetes Operator は、失敗した Kubernetes クラスター内のノードが正常であるかどうかを判断するための手段を持ちません。したがって、Kubernetes Operator が障害ノードの Kubernetes クラスターの API サーバーに接続できない場合、Kubernetes Operator は、アプリケーションデータベースのレプリカセットノードの調整プロセス中にクラスターを無視します。
つまり、アプリケーションデータベースノードをスケールダウンすると、レプリカセット構成から失敗したプロセスが排除されます。 API サーバーのみがダウンしているが、レプリカセットのノードが実行中の場合、Kubernetes Operator は障害が発生した Kubernetes クラスターからポッドを削除しません。
強制的な再構成が完了したことを示すために、Kubernetes 演算子は、現在のタイムスタンプを値として持つ注釈キー"mongodb.com/v1.forceReconfigurePerformed"を追加します。
重要
Kubernetes Operator は、レプリカセットの強制再構成を 1 回だけ実行します。レプリカセットが実行中状態に達すると、 Kubernetes Operator は "mongodb.com/v1.forceReconfigurePerformed" アノテーションを追加して、将来再度再構成を強制しないようにします。したがって、新しい強制再構成イベントを再トリガーするには、メタデータ.annotations の次の注釈の 1 つまたは両方をリソースから削除します。: MongoDBOpsManager カスタムリソースの
- "mongodb.com/v1.forceReconfigurePerformed"
- "mongodb.com/v1.forceReconfigure"
Kubernetes Operator で変更されたMongoDBOpsManagerカスタムリソースの構成を再適用します。

戻る

失敗したクラスターの復元

データベースリソースの配置

Overview

重要

強制された再構成によるアプリケーション データベースの回復

重要

強制された再構成によるアプリケーションデータベースの回復