/ /

/ /

$text（自己管理型配置）

注意

このページでは、自己管理型（Atlas以外）デプロイメントのテキストクエリ機能について説明します。MongoDBでホストされているデータに対して、 MongoDB は改良された全文クエリソリューションである MongoDB Search とベクトル検索ソリューションであるベクトル検索も提供します。

このページでは、自己管理型配置の $text演算子について説明します。

定義

$text: $text はテキストインデックスでインデックス付けされたフィールドの内容に対してテキストクエリを実行します。

互換性

次の環境でホストされる配置には $text を使用できます。

MongoDB Atlas はクラウドでの MongoDB 配置のためのフルマネージドサービスです

MongoDB Enterprise: サブスクリプションベースの自己管理型 MongoDB バージョン
MongoDB Community: ソースが利用可能で、無料で使用できる自己管理型の MongoDB のバージョン

構文

$text式の構文は次のとおりです。

{
  $text: {
    $search: <string>,
    $language: <string>,
    $caseSensitive: <boolean>,
    $diacriticSensitive: <boolean>
  }
}

$text演算子は、次のフィールドを含むテキストクエリドキュメントを受け入れます。

フィールド	タイプ	説明
`$search`	string	MongoDB が解析し、テキストインデックスをクエリするために使用するタームの文字列。タームを正確な文字列として指定しない限り、MongoDB はタームに対して論理的な `OR` クエリを実行します。フィールドの詳細については、「動作」を参照してください。
`$language`	string	任意。クエリのストップワードのリストと、ステマーとトークナイザのルールを決定する言語。指定されていない場合、MongoDB はインデックスのデフォルト言語を使用します。サポートされている言語については、「自己管理型配置のテキスト検索言語」を参照してください。 `none` の値に `default_language` を指定すると、テキストインデックスはストップワードを含むフィールド内の各単語を解析し、接尾辞の語幹を無視します。
`$caseSensitive`	ブール値	任意。大文字・小文字の区別を有効または無効にするブール値のフラグ。デフォルトは`false`です。指定しない場合、MongoDB ではテキストインデックスの大文字と小文字が区別されません。詳細については「大文字と小文字を区別する」を参照してください。
`$diacriticSensitive`	ブール値	任意。バージョン 3 のテキストインデックスに対する発音区別記号の区別を有効または無効にするブール値のフラグ。デフォルトの値は `false` です。指定しない場合、MongoDB ではテキストインデックスの発音区別記号が無視されます。過去のバージョンのテキストインデックスに対するテキストクエリでは、本質的に発音区別符号が区別され、区別なしでの検索はできません。そのため `$diacriticSensitive` オプションは、過去のバージョンの `text` インデックスでは効果がありません。詳細については「発音区別符号を区別しない」を参照してください。

$text 演算子は、デフォルトでは、結果のスコアでソートされた結果を返すことはありません。結果のスコアによる並べ替えの詳細については、テキストスコアのドキュメントを参照してください。

動作

制限事項

クエリで指定できるのは、最大でも 1 つの$text 式だけです。
$text は $nor 式には使用できません。
$text は $elemMatch クエリ式や $elemMatch プロジェクション式には使用できません。
$or式で$textを使用するには、 $or配列内のすべての句にインデックスを付ける必要があります。
クエリに$text式が含まれている場合、 hint()を使用してクエリに使用するインデックスを指定することはできません。
クエリに$text式が含まれている場合は、 $naturalの並べ替え順序は指定できません。
特殊なテキストインデックスを必要とする $text 式と、別のタイプの特殊インデックスを必要とするクエリ演算子を組み合わせることはできません。たとえば、 $text 式を $near 演算子と組み合わせることはできません。
ビューは$textをサポートしていません。
$text Stable API V 1を使用したインデックスの作成はサポートされていません。

集計で $text 演算子を使う場合、以下の制限も適用されます。

$textを含む$matchステージは、パイプラインの最初のステージである必要があります。
$text演算子はステージ内で 1 回のみ発生できます。
$text演算子式は、 $orまたは$not式には使用できません。
$textは、デフォルトでは、で一致したドキュメントを一致スコアの順序で返すことはありません。スコアの降順で並べ替えるには、$sort ステージで $meta 集計式を使用します。

`$search` フィールド

$searchフィールドに、 $text演算子が解析し、テキストインデックスをクエリするために使用する単語の string を指定します。

$text 演算子は、文字列内のほとんどの句読点を区切り文字として扱います。ただし、タームを除外するハイフンマイナス（-）や、正確な文字列を指定するエスケープされた二重引用符 \" は除きます。

注意

$text 式の $search フィールドは $search 集計ステージとは異なります。このステージはAtlas Search が提供するものです。$search 集計ステージは指定されたフィールドに対して全文検索を実行するもので、MongoDB Atlas でのみ使用できます。

正確な文字列

個々の用語ではなく、複数単語からなる正確な文字列を一致させるには、次のように文字列をエスケープされた二重引用符（\"）で囲みます。

"\"ssl certificate\""

$text 操作の $search 文字列に複数単語からなる文字列と個々の用語が含まれている場合、$text は複数単語からなる文字列を含むドキュメントのみと一致します。

例えば、次の $search 文字列は、完全な文字列である "ssl certificate" を含むドキュメントを返します。

"\"ssl certificate\" authority key"

除外

単語の前にハイフンマイナス ( - ) を付けると、その単語は除外されます。

単語を除外すると、除外対象の単語を含めたドキュメントを検索結果から除外します。
否定の単語のみを含む文字列が渡された場合、 $text はどのドキュメントとも一致しません。
pre-market のようなハイフン付きの単語は除外タームではありません。ハイフン付きの単語で使用した場合、$text 演算子はハイフンマイナス（-）を区切り文字として扱います。このインスタンスで market という単語を除外するには、 pre と -market の間にスペースを含め、たとえば pre -market とします。

$text 演算子は論理 AND 演算子を使用して、操作にすべての否定を追加します。

一致操作

ストップワード

$text演算子は、英語のtheやandなどの言語固有のストップワードを無視します。

語幹付き単語

大文字と小文字を区別せず、発音区別符号による区別がない設定にすると、$text 演算子は発音区別符号のある単語全体を照合します。ドキュメントフィールドに blueberry という単語が含まれている場合、$search タームが blue の $text 操作は一致しません。ただし、blueberry または blueberries は一致します。

大文字と小文字の区別と語幹のある単語

大文字と小文字の区別を使用する場合（$caseSensitive: true )、接尾辞の語幹に大文字が含まれている場合、 $text 演算子は正確な単語と一致します。

発音区別符号の区別と語幹のある単語

発音区別符号の区別 ($diacriticSensitive: true) を使用する場合、接尾辞の語幹に発音区別符号が含まれていると、 $text 演算子は正確な単語と一致します。

大文字と小文字の区別なし

$text演算子は、デフォルトではテキストインデックスの大文字と小文字を区別しない設定になります。

バージョン 3 のテキストインデックスでは、発音区別符号の有無にかかわらず、ラテン文字や、キリル文字など非ラテン文字では大文字と小文字が区別されません。詳細については、テキストインデックスを参照してください。
text インデックスの過去のバージョンでは、発音区別符号のないラテン文字、つまり [A-z] では大文字と小文字が区別されません。

`$caseSensitive` オプション

text インデックスが大文字と小文字を区別しない場合に大文字と小文字の区別をサポートするには、$caseSensitive: true を指定します。

大文字と小文字の区別プロセス

$caseSensitive: true であり、text インデックスで大文字と小文字が区別されない場合、$text 演算子は次のようになります。

最初に text インデックスのクエリで、大文字と小文字が区別されないか、発音区別符号による区別がないか調べます。
そして指定されたタームの大文字と小文字が一致するドキュメントのみを返すように、$text 操作には、一致しないドキュメントをフィルタリングで除外する追加のステージが含まれています。

$caseSensitive: true で接尾辞の語幹に大文字が含まれている場合、$text 演算子は正確な単語と一致します。

$caseSensitive: true を指定するとパフォーマンスに影響する可能性があります。

Tip

語幹付き単語

発音区別符号の区別なし

$text演算子はデフォルトでテキストインデックスの発音区別符号を区別しません。

バージョン 3 のテキストインデックスでは、発音区別符号は区別されません。つまりインデックスでは、é、ê、e など、発音区別符号を含む文字と含まない文字を区別しません。
textインデックスの以前のバージョンでは、発音区別記号が区別されます。

`$diacriticSensitive` オプション

text インデックスで発音区別符号の区別をサポートするには、 $diacriticSensitive: true を指定します。

text インデックスの以前のバージョンに対するテキストクエリは、本質的に発音区別符号が区別され、これを区別しないということはできません。そのため、$text 演算子の $diacriticSensitive オプションは、以前のバージョンの text インデックスでは効果がありません。

発音区別符号を区別するプロセス

text インデックスのバージョン 3 で発音区別符号を区別する ($diacriticSensitive: true) を使用するのが、$text 演算子です。

まず、発音区別符号を区別しない text インデックスをクエリします。
そして指定されたタームの発音区別符号が付いた文字と一致するドキュメントのみを返すために、$text 操作には、一致しないドキュメントをフィルタリングで除外する追加のステージが含まれています。

$diacriticSensitive: true を指定するとパフォーマンスに影響する可能性があります。

$diacriticSensitive: true を以前のバージョンの text インデックスで使用すると、$text 演算子は発音区別符号を区別する text インデックスをクエリします。

$diacriticSensitive: trueであり、接尾辞の語幹に発音区別符号が含まれている場合、 $text 演算子は正確な単語と一致します。

Tip

語幹付き単語

テキストスコア

$text 演算子は各結果ドキュメントにスコアを割り当てます。スコアは、特定のクエリに対するドキュメントの関連性を表します。スコアは、sort() メソッド仕様の一部だけでなく、プロジェクション式の一部にもなります。{ $meta: "textScore" } 式には $text 操作の処理に関する情報が含まれます。プロジェクションまたはソートのためのスコアへのアクセス方法の詳細については、$meta プロジェクション演算子を参照してください。

例

次の例では、フィールド subject にバージョン 3 のテキストインデックスを持つコレクション articles を想定しています。

db.articles.createIndex( { subject: "text" } )

コレクションに次のドキュメントを入力します。

db.articles.insertMany( [
     { _id: 1, subject: "coffee", author: "xyz", views: 50 },
     { _id: 2, subject: "Coffee Shopping", author: "efg", views: 5 },
     { _id: 3, subject: "Baking a cake", author: "abc", views: 90  },
     { _id: 4, subject: "baking", author: "xyz", views: 100 },
     { _id: 5, subject: "Café Con Leche", author: "abc", views: 200 },
     { _id: 6, subject: "Сырники", author: "jkl", views: 80 },
     { _id: 7, subject: "coffee and cream", author: "efg", views: 10 },
     { _id: 8, subject: "Cafe con Leche", author: "xyz", views: 10 }
] )

`$text` 1 つの単語で

次の例では、coffee の $search 文字列を指定しています。

db.articles.find( { $text: { $search: "coffee" } } )

この操作は、インデックスされた subject フィールドに coffee というタームを含むドキュメント、より正確に言うと語幹のあるバージョンの単語を返します。

{ _id: 1, subject: 'coffee', author: 'xyz', views: 50 },
{ _id: 7, subject: 'coffee and cream', author: 'efg', views: 10 },
{ _id: 2, subject: 'Coffee Shopping', author: 'efg', views: 5 }

`$search` タームのいずれかに一致する

$search 文字列がスペースで区切られた文字列の場合、$text は各タームに対して論理 OR 操作を実行し、いずれかのタームを含むドキュメントを返します。

次の例では、スペースで区切られた 3 つのタームの $search 文字列と "bake coffee cake"を指定します。

db.articles.find( { $text: { $search: "bake coffee cake" } } )

この操作は、インデックスされた subject フィールドにbake または coffee または cake のいずれかを含むドキュメント、より正確に言うと語幹のあるバージョンの単語を返します。

{ "_id" : 2, "subject" : "Coffee Shopping", "author" : "efg", "views" : 5 }
{ "_id" : 7, "subject" : "coffee and cream", "author" : "efg", "views" : 10 }
{ "_id" : 1, "subject" : "coffee", "author" : "xyz", "views" : 50 }
{ "_id" : 3, "subject" : "Baking a cake", "author" : "abc", "views" : 90 }
{ "_id" : 4, "subject" : "baking", "author" : "xyz", "views" : 100 }

Tip

大文字と小文字の区別なし
語幹付き単語

`$text` 正確な文字列を使用して

複数の単語からなる文字列を 1 つのタームとして一致させるには、引用符をエスケープします。

次の例では、正確な文字列 coffee shop と一致します。

db.articles.find( { $text: { $search: "\"coffee shop\"" } } )

この操作は coffee shop という文字列を含むドキュメントを返します。

{ "_id" : 2, "subject" : "Coffee Shopping", "author" : "efg", "views" : 5 }

次の例では、coffee shop および Cafe con Leche の文字列と一致します。これは 2 つの文字列の論理和です。

db.articles.find( { $text: { $search: "\'coffee shop\' \'Cafe con Leche\'" } } )

この操作では、両方の文字列を含むドキュメント（両方の文字列のタームを含むドキュメントを含む）が返されます。

[
  { _id: 8, subject: 'Cafe con Leche', author: 'xyz', views: 10 },
  { _id: 5, subject: 'Café Con Leche', author: 'abc', views: 200 },
  { _id: 1, subject: 'coffee', author: 'xyz', views: 50 },
  { _id: 7, subject: 'coffee and cream', author: 'efg', views: 10 },
  { _id: 2, subject: 'Coffee Shopping', author: 'efg', views: 5 }
]

Tip

正確な文字列

タームを含むドキュメントを除外する

否定タームはマイナス記号 - が前に付いたタームです。タームを否定すると、$text 演算子はそのタームを含むドキュメントを結果から除外します。

次の例えは coffee という単語を含むが shop というタームは含まないドキュメント、より正確に言うと語幹のあるバージョンの単語を検索します。

db.articles.find( { $text: { $search: "coffee -shop" } } )

この操作により、次のドキュメントが返されます。

{ "_id" : 7, "subject" : "coffee and cream", "author" : "efg", "views" : 10 }
{ "_id" : 1, "subject" : "coffee", "author" : "xyz", "views" : 50 }

Tip

除外
語幹付き単語

異なる言語のクエリ

任意である $text 式の $language フィールドを使用して、ストップワードのリストと、$search 文字列のステマーとトークナイザのルールを決定する言語を指定します。

none の値に default_language を指定すると、テキストインデックスはストップワードを含むフィールド内の各単語を解析し、接尾辞の語幹を無視します。

次の例えでは es を指定します。すなわち、トークン化、ステミング、ストップワードを決定する言語としてのスペイン語です。

db.articles.find(
   { $text: { $search: "leche", $language: "es" } }
)

この例えでは次のドキュメントが返されます。

{ "_id" : 5, "subject" : "Café Con Leche", "author" : "abc", "views" : 200 }
{ "_id" : 8, "subject" : "Cafe con Leche", "author" : "xyz", "views" : 10 }

$text式は、言語名spanishも受け入れることができます。サポートされている言語については、「自己管理型配置でのテキスト検索言語」を参照してください。

Tip

大文字と小文字の区別なし

大文字と小文字、発音区別符号を区別しない

$text演算子は、 textインデックスの大文字と小文字を区別せず、発音区別符号も区別しないことを前提としています。バージョン3 textインデックスは、発音区別符号を区別せず、大文字と小文字の不区別を拡大して、キリル文字と発音区別符号付き文字を含めます。詳細については、「テキストインデックスの大文字と小文字を区別しない」および「テキストインデックスを発音区別符号を区別しない」を参照してください。

次の例えでは сы́рники または CAFÉS というタームに対して、大文字と小文字を区別せず、発音区別符号も区別しないテキストクエリを実行します。

db.articles.find( { $text: { $search: "сы́рники CAFÉS" } } )

text インデックスのバージョン 3 を使用すると、オペレーションは次のドキュメントと一致します。

{ "_id" : 6, "subject" : "Сырники", "author" : "jkl", "views" : 80 }
{ "_id" : 5, "subject" : "Café Con Leche", "author" : "abc", "views" : 200 }
{ "_id" : 8, "subject" : "Cafe con Leche", "author" : "xyz", "views" : 10 }

以前のバージョンの text インデックスでは、クエリはどのドキュメントにも一致しませんでした。

Tip

大文字と小文字の区別なし
発音区別符号の区別なし
語幹付き単語
自己管理型配置のテキストインデックス

大文字と小文字の区別

大文字と小文字の区別を有効にするには $caseSensitive: true を指定します。$caseSensitive: true を指定するとパフォーマンスに影響する可能性があります。

タームによる大文字と小文字の区別

次の例えでは、Coffee というタームに対して大文字と小文字を区別したクエリを実行します。

db.articles.find( { $text: { $search: "Coffee", $caseSensitive: true } } )

この操作は次のドキュメントとのみ一致します。

{ "_id" : 2, "subject" : "Coffee Shopping", "author" : "efg", "views" : 5 }

Tip

大文字と小文字の区別なし
大文字と小文字の区別と語幹のある単語

正確な文字列の大文字と小文字の区別

次の例では、複数の単語からなる正確な文字列 Café Con Leche に対して大文字と小文字を区別したクエリを実行します。

db.articles.find( {
   $text: { $search: "\"Café Con Leche\"", $caseSensitive: true }
} )

この操作は次のドキュメントとのみ一致します。

{ "_id" : 5, "subject" : "Café Con Leche", "author" : "abc", "views" : 200 }

Tip

大文字と小文字の区別と語幹のある単語
大文字と小文字の区別なし

除外するタームの大文字と小文字の区別

否定タームはマイナス記号-が先頭に付いたタームです。タームを除外すると、 $text演算子は結果からそのタームを含むドキュメントを除外します。除外するタームの大文字と小文字の区別を指定することもできます。

次の例えでは、Coffee という単語を含み小文字のターム shop は含まない、より正確に言うと語幹のあるバージョンのドキュメントに対して、大文字と小文字を区別するクエリを実行します。

db.articles.find( { $text: { $search: "Coffee -shop", $caseSensitive: true } } )

この操作は次のドキュメントと一致します。

{ "_id" : 2, "subject" : "Coffee Shopping", "author" : "efg" }

Tip

大文字と小文字の区別と語幹のある単語
除外

発音区別符号の区別

バージョン 3 のテキストインデックスで発音区別符号の区別を有効にするには、$diacriticSensitive: true を指定します。$diacriticSensitive: true を指定するとパフォーマンスに影響する可能性があります。

タームによる発音区別符号の区別

次の例えでは CAFÉ というターム、より正確には語幹のあるバージョンの単語に対して、発音区別符号を区別するテキストクエリを実行します。

db.articles.find( { $text: { $search: "CAFÉ", $diacriticSensitive: true } } )

この操作は次のドキュメントにのみ一致します。

{ "_id" : 5, "subject" : "Café Con Leche", "author" : "abc" }

Tip

発音区別符号の区別と語幹のある単語
発音区別符号の区別なし
大文字と小文字の区別なし

除外するタームの発音区別符号の区別

$diacriticSensitive オプションは、除外するタームにも適用されます。除外するタームとは、マイナス記号 - を先頭に持つタームのことです。タームを除外すると、$text 演算子は結果からそのタームを含むドキュメントを除外します。

次の例えでは、leches というタームを含むが cafés というターム、より正確に言うと語幹のあるバージョンの単語は含まない文書に対して、発音区別符号を区別するテキストクエリを実行します。

db.articles.find(
  { $text: { $search: "leches -cafés", $diacriticSensitive: true } }
)

この操作は次のドキュメントと一致します。

{ "_id" : 8, "subject" : "Cafe con Leche", "author" : "xyz" }

Tip

発音区別符号の区別と語幹のある単語
発音区別符号の区別なし
大文字と小文字の区別なし

一致する上位 n 件のドキュメントを返すには、limit() メソッドを sort() と組み合わせて使用します。

次の例えでは、coffee というタームをクエリし、結果をスコアの降順でソートし、一致するドキュメントの上位 2 つに結果を限定しています。

db.articles.find(
   { $text: { $search: "coffee" } },
   { score: { $meta: "textScore" } }
).sort( { score: { $meta: "textScore" } } ).limit(2)

Tip

$meta

追加のクエリ式とソート式を使用した $text

次の例えは author が "xyz" と等しく、インデックスされたフィールド subject に coffee または bake というタームが含まれるドキュメントと一致します。この操作では date の昇順、その後に関連性スコアの降順というソート順序も指定されています。

db.articles.find(
   { author: "xyz", $text: { $search: "coffee bake" } },
   { score: { $meta: "textScore" } }
).sort( { date: 1, score: { $meta: "textScore" } } )

Tip

自己管理型配置の集計パイプラインの $text

戻る

テキスト検索演算子（自己管理型配置）

集計パイプラインでのテキスト検索

注意

定義

互換性

構文

動作

制限事項

$search フィールド

注意

正確な文字列

除外

一致操作

ストップワード

語幹付き単語

大文字と小文字の区別と語幹のある単語

発音区別符号の区別と語幹のある単語

大文字と小文字の区別なし

$caseSensitive オプション

大文字と小文字の区別プロセス

Tip

発音区別符号の区別なし

$diacriticSensitive オプション

発音区別符号を区別するプロセス

Tip

テキストスコア

例

$text 1 つの単語で

Tip

$search タームのいずれかに一致する

Tip

$text 正確な文字列を使用して

Tip

タームを含むドキュメントを除外する

Tip

異なる言語のクエリ

Tip

大文字と小文字、発音区別符号を区別しない

Tip

大文字と小文字の区別

タームによる大文字と小文字の区別

Tip

正確な文字列の大文字と小文字の区別

Tip

除外するタームの大文字と小文字の区別

Tip

発音区別符号の区別

タームによる発音区別符号の区別

Tip

除外するタームの発音区別符号の区別

Tip

関連性スコアの例え

関連性スコアを返す

Tip

関連性スコアによる並べ替え

Tip

一致するドキュメントの上位 2 件を返す

Tip

追加のクエリ式とソート式を使用した $text

Tip

`$search` フィールド

`$caseSensitive` オプション

`$diacriticSensitive` オプション

`$text` 1 つの単語で

`$search` タームのいずれかに一致する

`$text` 正確な文字列を使用して