$text（自己管理型配置）

項目一覧

定義
互換性
構文
動作
例

注意

このページでは、自己管理型（Atlas以外）デプロイメントのテキストクエリ機能について説明します。 MongoDB Atlasでホストされているデータに対して、 MongoDB は改良された全文クエリソリューションである Atlas Search とベクトル検索ソリューションである Atlas ベクトル検索を提供します。

このページでは、自己管理型配置の$text演算子について説明します。

定義

$text: $textテキストインデックスでインデックス付けされたフィールドのコンテンツに対してテキストクエリを実行します。

互換性

次の環境でホストされる配置には $text を使用できます。

MongoDB Atlas はクラウドでの MongoDB 配置のためのフルマネージドサービスです

MongoDB Enterprise: サブスクリプションベースの自己管理型 MongoDB バージョン
MongoDB Community: ソースが利用可能で、無料で使用できる自己管理型の MongoDB のバージョン

構文

$text式の構文は次のとおりです。

{
  $text: {
    $search: <string>,
    $language: <string>,
    $caseSensitive: <boolean>,
    $diacriticSensitive: <boolean>
  }
}

$text演算子は、次のフィールドを含むテキストクエリドキュメントを受け入れます。

フィールド	タイプ	説明
`$search`	string	A string of terms that MongoDB parses and uses to query the text index. MongoDB performs a logical `OR` query on the terms unless you specify the terms as an exact string. For more information on the field, see 動作.
`$language`	string	任意。クエリのストップワードのリストと、ステマーとトークナイザのルールを決定する言語。指定されていない場合、MongoDB はインデックスのデフォルト言語を使用します。サポートされている言語については、「自己管理型配置のテキスト検索言語」を参照してください。 `none` の値に `default_language` を指定すると、テキストインデックスはストップワードを含むフィールド内の各単語を解析し、接尾辞の語幹を無視します。
`$caseSensitive`	ブール値	任意。大文字・小文字の区別を有効または無効にするブール値のフラグ。デフォルトは`false`です。指定しない場合、MongoDB ではテキストインデックスの大文字と小文字が区別されません。詳細については「大文字と小文字を区別する」を参照してください。
`$diacriticSensitive`	ブール値	任意。バージョン 3 のテキストインデックスに対する発音区別記号の区別を有効または無効にするブール値のフラグ。デフォルトの値は `false` です。指定しない場合、MongoDB ではテキストインデックスの発音区別記号が無視されます。過去のバージョンのテキストインデックスに対するテキストクエリでは、本質的に発音区別符号が区別され、区別なしでの検索はできません。そのため `$diacriticSensitive` オプションは、過去のバージョンの `text` インデックスでは効果がありません。詳細については「発音区別符号を区別しない」を参照してください。

$text 演算子は、デフォルトでは、結果のスコアでソートされた結果を返すことはありません。結果のスコアによる並べ替えの詳細については、テキストスコアのドキュメントを参照してください。

動作

制限事項

クエリで指定できるのは、最大でも 1 つの$text 式だけです。
$text $nor式には使用できません。
$text は $elemMatch クエリ式または $elemMatch プロジェクション式には使用できません。
$or式で$textを使用するには、 $or配列内のすべての句にインデックスを付ける必要があります。
クエリに$text式が含まれている場合、 hint()を使用してクエリに使用するインデックスを指定することはできません。
クエリに$text式が含まれている場合は、 $naturalの並べ替え順序は指定できません。
特殊なテキストインデックスを必要とする $text 式と、別のタイプの特殊インデックスを必要とするクエリ演算子を組み合わせることはできません。たとえば、 $text 式を $near 演算子と組み合わせることはできません。
ビューは$textをサポートしていません。
$text は、 Stable API V 1 を使用してインデックスを作成する場合、サポートされていません。

集計で $text 演算子を使う場合、以下の制限も適用されます。

$textを含む$matchステージは、パイプラインの最初のステージである必要があります。
$text演算子はステージ内で 1 回のみ発生できます。
$text演算子式は、 $orまたは$not式には使用できません。
$text は、デフォルトでは、一致するスコアの順序で一致したドキュメントを返しません。スコアの降順で並べ替えるには、$sort ステージで $meta 集計式を使用します。

`$search` フィールド

$searchフィールドに、 $text演算子が解析し、テキストインデックスをクエリするために使用する単語の string を指定します。

The $text operator treats most punctuation in the string as delimiters, except a hyphen-minus (-) that negates term or an escaped double quotes \" that specifies an exact string.

注意

$text 式の $search フィールドは $search 集計ステージとは異なります。このステージはAtlas Search が提供するものです。$search 集計ステージは指定されたフィールドに対して全文検索を実行するもので、MongoDB Atlas でのみ使用できます。

Exact Strings

To match on an exact multi-word string, as opposed to individual terms, enclose the string in escaped double quotes (\"), as in:

"\"ssl certificate\""

If the $search string of a $text operation includes a multi-word string and individual terms, $text only matches the documents that include the multi-word string.

For example, the following $search string returns documents that include the exact string "ssl certificate":

"\"ssl certificate\" authority key"

除外

単語の前にハイフンマイナス ( - ) を付けると、その単語は除外されます。

単語を除外すると、除外対象の単語を含めたドキュメントを検索結果から除外します。
否定の単語のみを含む文字列が渡された場合、 $text はどのドキュメントとも一致しません。
pre-market のようなハイフン付きの単語は除外タームではありません。ハイフン付きの単語で使用した場合、$text 演算子はハイフンマイナス（-）を区切り文字として扱います。このインスタンスで market という単語を除外するには、 pre と -market の間にスペースを含め、たとえば pre -market とします。

$text 演算子は論理 AND 演算子を使用して、操作にすべての否定を追加します。

一致操作

ストップワード

$text演算子は、英語のtheやandなどの言語固有のストップワードを無視します。

語幹付き単語

大文字と小文字を区別せず、発音区別符号による区別がない設定にすると、$text 演算子は発音区別符号のある単語全体を照合します。ドキュメントフィールドに blueberry という単語が含まれている場合、$search タームが blue の $text 操作は一致しません。ただし、blueberry または blueberries は一致します。

大文字と小文字の区別と語幹のある単語

大文字と小文字の区別を使用する場合（$caseSensitive: true )、接尾辞の語幹に大文字が含まれている場合、 $text 演算子は正確な単語と一致します。

発音区別符号の区別と語幹のある単語

発音区別符号の区別 ($diacriticSensitive: true) を使用する場合、接尾辞の語幹に発音区別符号が含まれていると、 $text 演算子は正確な単語と一致します。

大文字と小文字の区別なし

$text演算子は、デフォルトではテキストインデックスの大文字と小文字を区別しない設定になります。

バージョン 3 のテキストインデックスでは、発音区別符号の有無にかかわらず、ラテン文字や、キリル文字など非ラテン文字では大文字と小文字が区別されません。詳細については、テキストインデックスを参照してください。
text インデックスの過去のバージョンでは、発音区別符号のないラテン文字、つまり [A-z] では大文字と小文字が区別されません。

`$caseSensitive` オプション

text インデックスが大文字と小文字を区別しない場合に大文字と小文字の区別をサポートするには、$caseSensitive: true を指定します。

大文字と小文字の区別プロセス

$caseSensitive: true であり、text インデックスで大文字と小文字が区別されない場合、$text 演算子は次のようになります。

最初に text インデックスのクエリで、大文字と小文字が区別されないか、発音区別符号による区別がないか調べます。
そして指定されたタームの大文字と小文字が一致するドキュメントのみを返すように、$text 操作には、一致しないドキュメントをフィルタリングで除外する追加のステージが含まれています。

$caseSensitive: true で接尾辞の語幹に大文字が含まれている場合、$text 演算子は正確な単語と一致します。

$caseSensitive: true を指定するとパフォーマンスに影響する可能性があります。

以下も参照してください。

語幹付き単語

発音区別符号の区別なし

$text演算子はデフォルトでテキストインデックスの発音区別符号を区別しません。

バージョン 3 のテキストインデックスでは、発音区別符号は区別されません。つまりインデックスでは、é、ê、e など、発音区別符号を含む文字と含まない文字を区別しません。
textインデックスの以前のバージョンでは、発音区別記号が区別されます。

`$diacriticSensitive` オプション

text インデックスで発音区別符号の区別をサポートするには、 $diacriticSensitive: true を指定します。

text インデックスの以前のバージョンに対するテキストクエリは、本質的に発音区別符号が区別され、これを区別しないということはできません。そのため、$text 演算子の $diacriticSensitive オプションは以前のバージョンの text インデックスでは効果がありません。

発音区別符号を区別するプロセス

text インデックスのバージョン 3 で発音区別符号を区別する ($diacriticSensitive: true) を使用するのが、$text 演算子です。

まず、発音区別符号を区別しない text インデックスをクエリします。
そして指定されたタームの発音区別符号が付いた文字と一致するドキュメントのみを返すために、$text 操作には、一致しないドキュメントをフィルタリングで除外する追加のステージが含まれています。

$diacriticSensitive: true を指定するとパフォーマンスに影響する可能性があります。

$diacriticSensitive: true を以前のバージョンの text インデックスで使用すると、$text 演算子は発音区別符号を区別する text インデックスをクエリします。

$diacriticSensitive: trueであり、接尾辞の語幹に発音区別符号が含まれている場合、 $text 演算子は正確な単語と一致します。

以下も参照してください。

語幹付き単語

テキストスコア

$text 演算子は各結果ドキュメントにスコアを割り当てます。スコアは、特定のクエリに対するドキュメントの関連性を表します。スコアは、sort() メソッド仕様の一部だけでなく、プロジェクション式の一部にもなります。{ $meta: "textScore" } 式には $text 操作の処理に関する情報が含まれます。プロジェクションまたはソートのためのスコアへのアクセス方法の詳細については、$meta プロジェクション演算子を参照してください。

例

次の例では、フィールド subject にバージョン 3 のテキストインデックスを持つコレクション articles を想定しています。

db.articles.createIndex( { subject: "text" } )

コレクションに次のドキュメントを入力します。

db.articles.insertMany( [
     { _id: 1, subject: "coffee", author: "xyz", views: 50 },
     { _id: 2, subject: "Coffee Shopping", author: "efg", views: 5 },
     { _id: 3, subject: "Baking a cake", author: "abc", views: 90  },
     { _id: 4, subject: "baking", author: "xyz", views: 100 },
     { _id: 5, subject: "Café Con Leche", author: "abc", views: 200 },
     { _id: 6, subject: "Сырники", author: "jkl", views: 80 },
     { _id: 7, subject: "coffee and cream", author: "efg", views: 10 },
     { _id: 8, subject: "Cafe con Leche", author: "xyz", views: 10 }
] )

`$text` 1 つの単語で

次の例では、coffee の $search 文字列を指定しています。

db.articles.find( { $text: { $search: "coffee" } } )

この操作は、インデックスされた subject フィールドに coffee というタームを含むドキュメント、より正確に言うと語幹のあるバージョンの単語を返します。

{ _id: 1, subject: 'coffee', author: 'xyz', views: 50 },
{ _id: 7, subject: 'coffee and cream', author: 'efg', views: 10 },
{ _id: 2, subject: 'Coffee Shopping', author: 'efg', views: 5 }

以下も参照してください。

大文字と小文字の区別なし
語幹付き単語

`$search` タームのいずれかに一致する

$search 文字列がスペースで区切られた文字列の場合、$text は各タームに対して論理 OR 操作を実行し、いずれかのタームを含むドキュメントを返します。

次の例では、スペースで区切られた 3 つのタームの $search 文字列と "bake coffee cake"を指定します。

db.articles.find( { $text: { $search: "bake coffee cake" } } )

この操作は、インデックスされた subject フィールドにbake または coffee または cake のいずれかを含むドキュメント、より正確に言うと語幹のあるバージョンの単語を返します。

{ "_id" : 2, "subject" : "Coffee Shopping", "author" : "efg", "views" : 5 }
{ "_id" : 7, "subject" : "coffee and cream", "author" : "efg", "views" : 10 }
{ "_id" : 1, "subject" : "coffee", "author" : "xyz", "views" : 50 }
{ "_id" : 3, "subject" : "Baking a cake", "author" : "abc", "views" : 90 }
{ "_id" : 4, "subject" : "baking", "author" : "xyz", "views" : 100 }

以下も参照してください。

大文字と小文字の区別なし
語幹付き単語

`$text` with an Exact String

To match an exact multi-word string as a single term, escape the quotes.

The following example matches the exact string coffee shop:

db.articles.find( { $text: { $search: "\"coffee shop\"" } } )

This operation returns documents that contain the string coffee shop:

{ "_id" : 2, "subject" : "Coffee Shopping", "author" : "efg", "views" : 5 }

The following example matches the strings coffee shop and Cafe con Leche. This is a logical OR of the two strings.

db.articles.find( { $text: { $search: "\'coffee shop\' \'Cafe con Leche\'" } } )

This operation returns documents that contain both the strings, including documents that contain terms from both the strings:

[
  { _id: 8, subject: 'Cafe con Leche', author: 'xyz', views: 10 },
  { _id: 5, subject: 'Café Con Leche', author: 'abc', views: 200 },
  { _id: 1, subject: 'coffee', author: 'xyz', views: 50 },
  { _id: 7, subject: 'coffee and cream', author: 'efg', views: 10 },
  { _id: 2, subject: 'Coffee Shopping', author: 'efg', views: 5 }
]

以下も参照してください。

Exact Strings

タームを含むドキュメントを除外する

否定タームはマイナス記号 - が前に付いたタームです。タームを否定すると、$text 演算子はそのタームを含むドキュメントを結果から除外します。

次の例えは coffee という単語を含むが shop というタームは含まないドキュメント、より正確に言うと語幹のあるバージョンの単語を検索します。

db.articles.find( { $text: { $search: "coffee -shop" } } )

この操作により、次のドキュメントが返されます。

{ "_id" : 7, "subject" : "coffee and cream", "author" : "efg", "views" : 10 }
{ "_id" : 1, "subject" : "coffee", "author" : "xyz", "views" : 50 }

以下も参照してください。

除外
語幹付き単語

異なる言語のクエリ

任意である $text 式の $language フィールドを使用して、ストップワードのリストと、$search 文字列のステマーとトークナイザのルールを決定する言語を指定します。

none の値に default_language を指定すると、テキストインデックスはストップワードを含むフィールド内の各単語を解析し、接尾辞の語幹を無視します。

次の例えでは es を指定します。すなわち、トークン化、ステミング、ストップワードを決定する言語としてのスペイン語です。

db.articles.find(
   { $text: { $search: "leche", $language: "es" } }
)

この例えでは次のドキュメントが返されます。

{ "_id" : 5, "subject" : "Café Con Leche", "author" : "abc", "views" : 200 }
{ "_id" : 8, "subject" : "Cafe con Leche", "author" : "xyz", "views" : 10 }

$text式は、言語名spanishも受け入れることができます。サポートされている言語については、「自己管理型配置でのテキスト検索言語」を参照してください。

以下も参照してください。

大文字と小文字の区別なし

大文字と小文字、発音区別符号を区別しない

$text演算子は、 textインデックスの大文字と小文字を区別せず、発音区別符号も区別しないことを前提としています。バージョン3 textインデックスは、発音区別符号を区別せず、大文字と小文字の不区別を拡大して、キリル文字と発音区別符号付き文字を含めます。詳細については、「テキストインデックスの大文字と小文字を区別しない」および「テキストインデックスを発音区別符号を区別しない」を参照してください。

次の例えでは сы́рники または CAFÉS というタームに対して、大文字と小文字を区別せず、発音区別符号も区別しないテキストクエリを実行します。

db.articles.find( { $text: { $search: "сы́рники CAFÉS" } } )

text インデックスのバージョン 3 を使用すると、オペレーションは次のドキュメントと一致します。

{ "_id" : 6, "subject" : "Сырники", "author" : "jkl", "views" : 80 }
{ "_id" : 5, "subject" : "Café Con Leche", "author" : "abc", "views" : 200 }
{ "_id" : 8, "subject" : "Cafe con Leche", "author" : "xyz", "views" : 10 }

以前のバージョンの text インデックスでは、クエリはどのドキュメントにも一致しませんでした。

以下も参照してください。

大文字と小文字の区別なし
発音区別符号の区別なし
語幹付き単語
自己管理型配置のテキストインデックス

大文字と小文字の区別

大文字と小文字の区別を有効にするには $caseSensitive: true を指定します。$caseSensitive: true を指定するとパフォーマンスに影響する可能性があります。

タームによる大文字と小文字の区別

次の例えでは、Coffee というタームに対して大文字と小文字を区別したクエリを実行します。

db.articles.find( { $text: { $search: "Coffee", $caseSensitive: true } } )

この操作は次のドキュメントとのみ一致します。

{ "_id" : 2, "subject" : "Coffee Shopping", "author" : "efg", "views" : 5 }

以下も参照してください。

大文字と小文字の区別なし
大文字と小文字の区別と語幹のある単語

Case Sensitivity with an Exact String

The following example performs a case sensitive query for the exact multi-word string Café Con Leche:

db.articles.find( {
   $text: { $search: "\"Café Con Leche\"", $caseSensitive: true }
} )

この操作は次のドキュメントとのみ一致します。

{ "_id" : 5, "subject" : "Café Con Leche", "author" : "abc", "views" : 200 }

以下も参照してください。

大文字と小文字の区別と語幹のある単語
大文字と小文字の区別なし

除外するタームの大文字と小文字の区別

否定タームはマイナス記号-が先頭に付いたタームです。タームを除外すると、 $text演算子は結果からそのタームを含むドキュメントを除外します。除外するタームの大文字と小文字の区別を指定することもできます。

次の例えでは、Coffee という単語を含み小文字のターム shop は含まない、より正確に言うと語幹のあるバージョンのドキュメントに対して、大文字と小文字を区別するクエリを実行します。

db.articles.find( { $text: { $search: "Coffee -shop", $caseSensitive: true } } )

この操作は次のドキュメントと一致します。

{ "_id" : 2, "subject" : "Coffee Shopping", "author" : "efg" }

以下も参照してください。

大文字と小文字の区別と語幹のある単語
除外

発音区別符号の区別

バージョン 3 のテキストインデックスで発音区別符号の区別を有効にするには、$diacriticSensitive: true を指定します。$diacriticSensitive: true を指定するとパフォーマンスに影響する可能性があります。

タームによる発音区別符号の区別

次の例えでは CAFÉ というターム、より正確には語幹のあるバージョンの単語に対して、発音区別符号を区別するテキストクエリを実行します。

db.articles.find( { $text: { $search: "CAFÉ", $diacriticSensitive: true } } )

この操作は次のドキュメントにのみ一致します。

{ "_id" : 5, "subject" : "Café Con Leche", "author" : "abc" }

以下も参照してください。

発音区別符号の区別と語幹のある単語
発音区別符号の区別なし
大文字と小文字の区別なし

除外するタームの発音区別符号の区別

$diacriticSensitive オプションは、除外するタームにも適用されます。除外するタームとは、マイナス記号 - を先頭に持つタームのことです。タームを除外すると、$text 演算子は結果からそのタームを含むドキュメントを除外します。

次の例えでは、leches というタームを含むが cafés というターム、より正確に言うと語幹のあるバージョンの単語は含まない文書に対して、発音区別符号を区別するテキストクエリを実行します。

db.articles.find(
  { $text: { $search: "leches -cafés", $diacriticSensitive: true } }
)

この操作は次のドキュメントと一致します。

{ "_id" : 8, "subject" : "Cafe con Leche", "author" : "xyz" }

以下も参照してください。

発音区別符号の区別と語幹のある単語
発音区別符号の区別なし
大文字と小文字の区別なし

$text（自己管理型配置）

注意

定義

互換性

構文

動作

制限事項

$search フィールド

注意

Exact Strings

除外

一致操作

ストップワード

語幹付き単語

大文字と小文字の区別と語幹のある単語

発音区別符号の区別と語幹のある単語

大文字と小文字の区別なし

$caseSensitive オプション

大文字と小文字の区別プロセス

発音区別符号の区別なし

$diacriticSensitive オプション

発音区別符号を区別するプロセス

テキストスコア

例

$text 1 つの単語で

$search タームのいずれかに一致する

$text with an Exact String

タームを含むドキュメントを除外する

異なる言語のクエリ

大文字と小文字、発音区別符号を区別しない

大文字と小文字の区別

タームによる大文字と小文字の区別

Case Sensitivity with an Exact String

除外するタームの大文字と小文字の区別

発音区別符号の区別

タームによる発音区別符号の区別

除外するタームの発音区別符号の区別

関連性スコアの例え

関連性スコアを返す

関連性スコアによる並べ替え

一致するドキュメントの上位 2 件を返す

追加のクエリ式とソート式を使用した $text

`$search` フィールド

`$caseSensitive` オプション

`$diacriticSensitive` オプション

`$text` 1 つの単語で

`$search` タームのいずれかに一致する

`$text` with an Exact String