Docs Menu
Docs Home
/
MongoDB Atlas
/ /

Atlas Search インデックス パフォーマンス

項目一覧

  • リソース要件
  • インデックスのサイズと構成
  • Considerations
  • Atlas Search インデックスの作成と更新
  • 結果整合性とインデックス作成レイテンシ
  • ドキュメント マッピングの説明
  • ソース フィールドの保存
  • スケーリングに関する考慮事項
  • Atlas Search のアップグレード
  • インデックス作成パフォーマンスのスケールアップ
  • Atlas クラスター構成の変更

重要

2.1numPartitionsインデックスオブジェクトが2.1 または を超えるコレクションに対して Atlas Searchインデックスを作成する場合は、 または を使用して クラスターをシャード する必要があります。インデックス パーティションは、パーティションごとに オブジェクトに制限されています。

Atlas Search インデックスを作成すると、フィールドマッピングはデフォルトで動的になります。つまり、コレクション内の動的にインデックスを作成できるすべてのデータ型が、Atlas Search によって動的にインデックス化されます。 強調表示を有効にするなどの他のオプションも、インデックスがより多くのディスク領域を使用する可能性があります。 Atlas Search インデックスのサイズとパフォーマンス フットプリントは、次の方法で縮小できます。

  • カスタムインデックス定義を指定して、インデックスを作成するデータの量とタイプを絞り込みます。

  • インデックス定義でstring型を指定するときに、 storeオプションをfalseに設定します。

注意

M0M2 、およびM5クラスター上の Atlas Search にはのみ一部の制限が適用されます。 詳細については、「 Atlas Search の無料層と共有層の制限 」を参照してください。

一部のインデックス構成オプションは、ディスク領域の大部分を消費するインデックスにつながる可能性があります。 場合によっては、インデックスがデータのサイズの数倍になることもあります。 これは期待される動作ですが、次のインデックスを集中的に作成する機能に注意することが重要です。

Atlas Search のオートコンプリート演算子を使用して、アプリケーションに入力しながら検索するのと同様の機能を構築できます。 Atlas Search のオートコンプリートフィールド タイプは、特に次の場合に大規模なインデックスを生成する可能性があります。

  • nGramトークン化を使用しています。

  • minGramsからmaxGramsまでの幅広い範囲を設定します。

  • 数百万のドキュメントを含むコレクションで、 1minGram値を設定します。

次の操作を行うことで、 autocomplete型インデックスで使用されるスペースを削減できます。

  • minGramsmaxGramsの範囲を最小に縮小します。 一般的には、クエリするフィールド内の最も長い単語の文字数にmaxGramsを設定することをお勧めします。 不明な場合は、英語の言語フィールドの場合、 10maxGrams値から開始することをお勧めします。

  • Atlas Search は、特定の string に対して、 edgeGramまたはrightEdgeGramトークン化よりもnGram用のトークンを作成するため、 nGramトークン化戦略は避けます。

stringフィールドをオートコンプリートタイプとしてインデックスを作成する場合は、次の利点のために、フィールドを Atlas Search stringタイプとしてインデックスすることをお勧めします。

Atlas Search2 100000000は、レプリカセットまたは単一のシャードで、パーティションごとに 、 、 インデックスオブジェクトを超えるインデックスの変更の複製を停止します。ここでは、インデックス作成された各埋め込みドキュメントは 1 つのオブジェクトとしてカウントされます。embeddedDocuments Staleフィールド型を使用すると、この制限を超えるオブジェクトのインデックスが作成される可能性があり、そのためインデックスが クエリ可能な状態に移行し、古い結果が生じる可能性があります。インデックスオブジェクトが2.1 億を超えるコレクションに対して Atlas Searchインデックスを作成する場合は、numPartitions オプションを使用するか、クラスターをシャーディングする必要があります。

インデックス オブジェクトの正確な数は、ドキュメントの変更と削除の速度によって異なる可能性があります。 Lucene Docs の検索最大数メトリクスは、レプリカセットまたはシャードごとのすべてのインデックスにわたるインデックス オブジェクトの現在の数の上限を提供します。 次の手順を実行することで、単一のインデックス内のインデックス オブジェクトの予想数を概算できます。

  1. ドキュメントあたりのインデックス オブジェクトの数を計算します。 ネストの各レベルで、各埋め込みドキュメントは個別のインデックス オブジェクトとしてカウントされます。

    total number of index objects = 1 + number of nested embedded documents
  2. ドキュメントあたりのインデックス オブジェクト数に、コレクション内のドキュメントの総数を掛けます

    total number of index objects x total number of documents in collection

この近似値は下限があることに注意してください。

この チュートリアル で説明されている、 という名前の コレクション schoolsと、そのコレクションに次のような1000 ドキュメントが含まれているとします。

{
"_id": 0,
"name": "Springfield High",
"mascot": "Pumas",
"teachers": [
{
"first": "Jane",
"last": "Smith",
"classes": [
{
"subject": "art of science",
"grade": "12th"
},
... // 2 more embedded documents
]
},
... // 1 more embedded document
],
"clubs": {
"stem": [
{
"club_name": "chess",
"description": "provides students opportunity to play the board game of chess informally and competitively in tournaments."
},
... // 1 more embedded document
],
... // 1 more embedded document
}
}

次に、 schoolsコレクション内の次のフィールドのインデックス定義について考えてみましょう。

teachersという名前のドキュメントの配列は、動的マッピングが有効になっているembeddedDocumentsタイプとしてインデックス付けされます。 ただし、 classesフィールドは インデックスがありません。 以下を使用して、インデックス オブジェクトを計算します。

  1. ドキュメントあたりのインデックス オブジェクトの数を計算します。

    Number of ``teachers`` embedded documents = up to 2
    Total number of index objects per document = 1 + 2 = 3
  2. コレクション内のドキュメントの合計数を掛けます。

    Number of documents in the collection = 1000
    Number of index objects per document = 3
    Total number of index objects for collection = 1000 x 3 = 3000

teachersteachers.classesという名前のドキュメントの配列は、動的マッピングが有効になっているembeddedDocumentsタイプとしてインデックス付けされます。 以下を使用して、インデックス オブジェクトを計算します。

  1. ドキュメントあたりのインデックス オブジェクト数を計算します。

    Number of documents = 1
    Number of ``teachers`` embedded documents = up to 2
    Number of ``classes`` embedded documents = up to 3
    Number of index objects per document = 1 + ( 2 x 3 ) = 7
  2. コレクション内のドキュメントの合計数を掛けます。

    Number of documents in the collection = 1000
    Number of index objects per document = 7
    Total number of index objects: 1000 x 7 = 7000

コレクションに、 2 、 100 、 000 、 000インデックス オブジェクトを生成する可能性のある大きな配列がある場合は、 embeddedDocumentsタイプのインデックスを含むクラスターをシャードする必要があります。

同じフィールドを使用してデータをフィルタリングとファセットする場合は、次の Atlas Search タイプとしてフィールドをインデックスすることをお勧めします。

ファセットのために別のフィールドでデータをフィルタリングする例については、 「 Atlas Searchでファセットの使用方法 」チュートリアルを参照してください。

multiアナライザを使用して同じフィールドを複数の異なる方法で分析すると、特に非常に長い値を持つフィールドを分析する場合、インデックスが大きくなる可能性があります。

Atlas Search言語アナライザを使用して、多くの言語をインデックスできます。 Atlas Search が組み込みのアナライザを提供する言語のリストについては、言語アナライザを参照してください。 例については、 「 多言語 Atlas Search クエリの実行方法 」チュートリアルを参照してください。 現在組み込み言語アナライザのリストに含まれていない言語をインデックスしてクエリするには、カスタムアナライザを作成できます。 例については、「カスタム言語アナライザの例 」を参照してください。

コレクションに各言語のドキュメントが 1 つあるとします。 次の点を考慮してください。

  • 言語アナライザを使用して、同じインデックス内でフィールドを個別にインデックス化できます。 単一のインデックスで、同じクエリで複数の言語をサポートできます。

  • あるいは、言語ごとにインデックスを作成することもできます。これは、異なる言語のドキュメントを分離するのに役立ちます。 各インデックスは変更ストリーム カーソルであるため、維持するにはコストが高くなる可能性があることに注意してください。

  • 親ドキュメント内に言語ドキュメントがネストされている場合は、単一のインデックスを作成できます。 ただし、インデックス定義のペイロードが大きくなり、クエリが複雑になる場合があります。

これらのデータモデルとインデックス定義の詳細については、 MongoDB Blogを参照してください。

シノニム ソース コレクションへの挿入とアップデートは、シノニム ソース コレクションが小さい場合にのみ高速です。 最高のパフォーマンスを得るには、シノニム(同意語)ソース コレクションへの挿入とアップデートをバッチすることをお勧めします。

シノニム(同意語)マッピングの定義には、 データベース内のシノニム コレクションによって使用されるディスク領域とは別に、追加のディスク領域は必要ありません。 ただし、シノニム(同意語)マッピングではメモリにアーティファクトが作成されるため、多くのドキュメントを含むシノニム コレクションでは、Atlas Search によりより多くのメモリを占有するアーティファクトが作成されます。

Atlas Search インデックスの作成は、リソースを集中的に消費します。 インデックスの構築中に Atlas クラスターのパフォーマンスが影響を受ける可能性があります。

Atlas はコレクションに対するすべての書込み (write) を複製します。 つまり、Atlas Search インデックスを持つコレクションごとに、書込み (write) は、そのコレクションに定義されている Atlas Search インデックスの量に複製されます。

場合によっては、Atlas Search インデックスを再構築する必要がある場合があります。 Atlas Search インデックスの再ビルドもリソースを消費するため、データベースのパフォーマンスに影響を与える可能性があります。 Atlas Search は、次の場合にのみインデックスを自動的に再ビルドします。

  • インデックスの定義の変更

  • 重大な変更を含む Atlas Search のバージョン アップデート

  • インデックスの破損などのハードウェア関連の問題

注意

Atlas Search はダウンタイムなしのインデックス作成をサポートしているため、Atlas Search がインデックスを再構築している間も検索クエリを実行し続けることができます。 Atlas Search は、新しいインデックスの構築中も古いインデックスを最新状態に維持します。 この操作には、古いインデックスで使用されているディスク領域の 125% に相当する空きディスク領域を割り当てることをお勧めします。 インデックスによって現在使用されているディスク領域の量は、「 使用済みディスク領域の検索 」メトリクスで確認できます。

ディスク容量が不足していてインデックスの再構築が失敗した場合は、需要の増加に対応するためにクラスターの容量を一時的に拡張することをお勧めします。 「ストレージの問題の修正 」で説明されているように、オートスケーリングが有効になっているクラスターでも、この変更を手動で行うことができます。

別個の検索ノードを配置した場合、Java 21 アップグレード などの特定の変更に対して、Atlas はインデックスの再構築中に自動的に追加の検索ノードを配置するため、追加の空きディスク領域を割り当てる必要はありません。Atlas は、インデックス定義に変更が加えられたためにインデックスを再構築ことになっても、追加の検索ノードを配置しません。

Atlas Search がインデックスを再ビルドすると、ユーザー側から追加のアクションがなくても、古いインデックスが自動的に置き換えられます。

Atlas Search は 結果整合性 をサポートしており、より強力な整合性保証は提供しません。 つまり、MongoDB コレクションに挿入され、Atlas Search によってインデックスが作成されたデータは、 $searchクエリですぐに使用できなくなります。

Atlas Search は MongoDB Change Stream からデータを読み取り、そのデータを非同期プロセスでインデックスを作成します。 このプロセスは通常非常に高速ですが、レプリケーションのレイテンシ、システムリソースの可用性、インデックス定義の複雑さによって影響を受ける場合があるかもしれません。 Atlas Search インデックスの数が多いと、Atlas Search インデックスのレプリケーションラグとレイテンシにも影響する可能性があります。

Atlas Search が任意のキーを持つドキュメントをインデックス化し、動的マッピングがある場合、マッピングの急増が発生します。 mongotプロセスはメモリを消費する量が増加し、クラッシュする可能性があります。 インデックスにフィールドを追加しすぎると、マッピングが急増する可能性があります。 この問題に対処するには、クラスターをアップグレードするか、データ内のすべてのフィールドにインデックスを作成しない静的マッピングを使用します。

ワイルドカード パスを使用してフィールドを検索する場合は、チュートリアルのようなスキーマを使用するように検索を設計します。 キーと値のスキーマを使用するワイルドカード パス検索を実行すると、Atlas Search は各キーを独自のフィールドとしてインデックス化するため、マッピングが急増する可能性があります。

キーと値のスキーマの例は次のとおりです。

ruleBuilder: {
ruleName1: <data>,
ruleName2: <data>,
.....
ruleName1025: <data>
}

チュートリアルのようなスキーマを使用するように再構成された同じデータの例は、次のとおりです。

{
ruleBuilder: [
{name: ruleName1, data: <data>},
{name: ruleName2, data: <data>},
...
{name: ruleName1025, data: <data>}
]
}

Atlas Search に保存するフィールドを構成すると、 $sort$match$group$skipなど、後続の 集計パイプライン ステージ のパフォーマンスが向上します。 元のドキュメントと一致したデータセットが大きくなり、データ全体を検索するのが非効率的になる場合は、この最適化を使用します。 Atlas Search に特定のフィールドを保存し、保存されたフィールドのみを返す方法の詳細については、「 Atlas Search インデックスに保存されたソース フィールドの定義 」「 保存されたソース フィールドの返却 」を参照してください。

後続のステージに必要な最小限の数のフィールドのみを保存することをお勧めします。 必要に応じて、パイプライン ステージの最後に$lookupを使用して、に示すようにドキュメント全体を検索できます。 不要なフィールドを保存すると、ディスク使用率が向上し、インデックス作成やクエリ中に悪影響が及ぶ可能性があります。

Atlas Search は Atlas クラスターに配置されます。 Atlas Search の新しいバージョンを配置すると、Atlas クラスターで短時間のネットワーク障害が発生し、クエリ結果が返される可能性があります。 配置中に問題を軽減し、アプリケーションへの影響を最小限に抑えるには、次の点を考慮してください。

  • アプリケーションに再試行ロジックを実装します。

  • AtlasメンテナンスWindowsを構成します。

    注意

    Atlas Search のアップグレードは、メンテナンスウィンドウ中にのみ開始され、メンテナンスウィンドウ後に継続される可能性があります。

各リリースの変更の詳細については、「 Atlas Search の変更ログ 」を参照してください。

クラスターをより多くのコアを持つ上位階層にアップグレードすることで、Atlas Search インデックスの最初の同期と定常状態のインデックスをスケールアップできます。 Atlas Search は、使用可能な全コアの割合を使用して最初の同期と定常状態のインデックス作成の両方を実行し、クラスターをアップグレードすることで新しいコアが使用可能になるにつれてパフォーマンスが向上します。

ローカル NVMeストレージ タイプを使用するように配置を再構成するか、 NVMeベースのクラスターをアップスケールするように配置を再構成する場合、Atlas Search は、各ノードが基礎となる構成またはアップスケール アクションを完了した後に、構成されたすべての Atlas Search インデックスの最初の同期を実行します。 Atlas Search インデックスの最初の同期に、クラスター構成の変更を完了するのにかかる時間よりも長い時間がかかる場合、Atlas クラスター内のすべてのノードで最初の同期が完了するまで$searchクエリを実行することはできません。

Atlas クラスターと ワークロードを個別にスケーリングするには、$search 専用の検索ノード を配置することをお勧めします。専用検索ノードはmongotプロセスのみを実行するため、 mongotプロセスの可用性、パフォーマンス、ワークロードのバランスが向上します。

戻る

パフォーマンスの向上