Propriedades de índice de texto em sistemas autogerenciados

Nesta página

Insensibilidade a maiúsculas e minúsculas

Insensibilidade a diacríticos
Delimitadores de tokenização
entrada de índice
Idiomas suportados e palavras de parada
propriedade esparsa
Saiba mais

Esta página descreve o comportamento dos índices de texto versão 3 .

Insensibilidade a maiúsculas e minúsculas

Os índices de texto diferenciam maiúsculas de minúsculas. O índice de texto não faz distinção entre caracteres em maiúsculas e minúsculas, como e e E.

Os índices de texto suportam dobramentos de maiúsculas e minúsculas, conforme especificado em Unicode 8.0 Dobramento de maiúsculas e minúsculas do banco de dados:

C comum
S simples
T especial para idiomas Turcos
Caracteres com diacríticos, como é e É
Caracteres de alfabetos não latinos, como И e и no alfabeto cirílico.

As versões anteriores do índice de texto diferenciam maiúsculas de minúsculas apenas para caracteres latinos não diacríticos [A-z]. Versões anteriores do índice de texto tratam todos os outros caracteres como distintos.

Insensibilidade a diacríticos

Os índices de texto são insensíveis a diacríticos. O índice de texto não faz distinção entre caracteres que contêm diacríticos e suas contrapartes sem sinais, como é, ê e e. Mais especificamente, o índice de texto remove as marcações categorizadas como diacríticos na Lista de recursos do banco de dados de caracteres Unicode 8.0 .

As versões anteriores do índice de texto tratam caracteres com diacríticos como distintos.

Delimitadores de tokenização

Para tokenização, os índices de texto usam os delimitadores categorizados Dash emHyphen, Pattern_Syntax, Quotation_Mark, Terminal_Punctuation, e White_Space no Unicode 8.0 Lista de acessórios do banco de dados de caracteres.

Por exemplo, na frase Il a dit qu'il «était le meilleur joueur du monde», as aspas («, ») e os espaços são delimitadores.

Versões anteriores do índice tratam « como parte do termo «était e » como parte do termo monde».

entrada de índice

Os índices de texto tokenizam e lematizam os termos nos campos indexados das entradas do índice. O índice usa a lematização simples de sufixos específicos do idioma. Para cada documento na coleção, o índice de texto armazena uma entrada de índice para cada termo com haste exclusivo em cada field indexado.

Idiomas suportados e palavras de parada

O MongoDB suporta pesquisa de texto para vários idiomas. Os índices de texto usam derivação simples de sufixo específico do idioma. Os índices de texto também eliminam palavras vazias específicas do idioma, como the, an, a e and em inglês. Para obter uma lista dos idiomas suportados, consulte Idiomas de pesquisa de texto em implementações autogerenciadas.

Para especificar um idioma para o índice de texto, consulte Especificar o idioma padrão para um índice de texto em sistemas autogerenciados.

propriedade esparsa

Os índices de texto são sempre esparsos. Ao criar um índice de texto, o MongoDB ignora a opção sparse.

Se um documento existente ou recém-inserido não tiver um campo de índice de texto (ou o campo for nulo ou uma matriz vazia), o MongoDB não adicionará uma entrada de índice de texto para o documento.

Saiba mais

Para saber mais sobre as restrições de índice de texto, consulte Versões do índice de texto em sistemas autogerenciados.

Voltar

Limitar entradas

Restrições