Docs Menu
Docs Home
/
MongoDB Atlas
/ / / /

사용자 지정 분석기

이 페이지의 내용

  • 개요
  • 구문
  • 속성
  • 사용법
  • 컬렉션 예시
  • 사용자 지정 분석기 예시

Atlas Search 분석기는 문자 시퀀스를 변환, 필터링 및 그룹화하는 일련의 작업을 수행하여 인덱스로 설정할 문서를 준비합니다. Atlas UI에서 특정 인덱싱 요구 사항에 맞게 사용자 지정 분석기를 정의할 수 있습니다.

사용자 지정 분석기의 구문은 다음과 같습니다.

"analyzers": [
{
"name": "<name>",
"charFilters": [ <list-of-character-filters> ],
"tokenizer": {
"type": "<tokenizer-type>"
},
"tokenFilters": [ <list-of-token-filters> ]
}
]

사용자 지정 분석기에는 다음과 같은 속성이 있습니다.

속성
유형
설명
필수 사항입니다.
name
문자열

사용자 지정 분석기의 이름입니다. 이름은 인덱스 내에서 고유해야 하며 다음 문자열로 시작할 수 없습니다.

  • lucene.

  • builtin.

  • mongodb.

charFilters
객체 목록
0개 이상의 문자 필터가 포함된 배열입니다. 자세한 내용은 사용법을 참조하세요.
no
tokenizer
객체
토큰을 생성하는 데 사용할 토크나이저입니다. 자세한 내용은 사용법 을 참조하세요.
tokenFilters
객체 목록
토큰 필터가 0개 이상 포함된 배열입니다. 자세한 내용은 사용법 을 참조하세요.
no

컬렉션을 인덱싱할 때 사용자 지정 분석기를 사용하려면 인덱스 정의 analyzers 필드에 다음을 포함하세요.

  1. 선택 사항입니다. 문자 필터를 하나 이상 지정합니다. 문자 필터는 텍스트를 한 번에 한 문자씩 검사하고 필터링 작업을 수행합니다.

  2. 필수 사항입니다. 토크나이저를 지정합니다. 분석기는 토크나이저를 사용하여 인덱싱 목적으로 텍스트 청크를 그룹 또는 토큰으로 분할할 수 있습니다. 예를 들어, 공백 토크나이저는 공백이 발생하는 위치를 기반으로 텍스트 필드를 개별 단어로 분할합니다.

  3. 선택 사항입니다. 토큰 필터를 하나 이상 지정합니다. 토큰화 단계가 끝나면 결과 토큰은 하나 이상의 토큰 필터를 통과할 수 있습니다. 토큰 필터는 다음과 같은 작업을 수행합니다.

    • 어간 처리: "talking", "talked", "talks"와 같은 관련 단어를 어근인 "talk"로 줄입니다.

    • 편집: 공개 문서에서 민감한 정보를 제거합니다.

참고

텍스트는 먼저 문자 필터를 통과한 다음 토크나이저, 토큰 필터를 차례로 통과합니다.

문자 필터, 토크나이저 및 토큰 필터 페이지에는 문자 필터, 토크나이저 및 토큰 필터에 대한 샘플 인덱스 정의와 쿼리 예시가 포함되어 있습니다. 이 예에서는 다음 문서가 포함된 minutes 샘플 컬렉션을 사용합니다.

{
"_id": 1,
"page_updated_by": {
"last_name": "AUERBACH",
"first_name": "Siân",
"email": "auerbach@example.com",
"phone": "(123)-456-7890"
},
"title": "The team's weekly meeting",
"message": "try to siGn-In",
"text": {
"en_US": "<head> This page deals with department meetings.</head>",
"sv_FI": "Den här sidan behandlar avdelningsmöten",
"fr_CA": "Cette page traite des réunions de département"
}
}
{
"_id": 2,
"page_updated_by": {
"last_name": "OHRBACH",
"first_name": "Noël",
"email": "ohrbach@example.com",
"phone": "(123) 456 0987"
},
"title": "The check-in with sales team",
"message": "do not forget to SIGN-IN. See ① for details.",
"text" : {
"en_US": "The head of the sales department spoke first.",
"fa_IR": "ابتدا رئیس بخش فروش صحبت کرد",
"sv_FI": "Först talade chefen för försäljningsavdelningen"
}
}
{
"_id": 3,
"page_updated_by": {
"last_name": "LEWINSKY",
"first_name": "Brièle",
"email": "lewinsky@example.com",
"phone": "(123).456.9870"
},
"title": "The regular board meeting",
"message": "try to sign-in",
"text" : {
"en_US": "<body>We'll head out to the conference room by noon.</body>"
}
}
{
"_id": 4,
"page_updated_by": {
"last_name": "LEVINSKI",
"first_name": "François",
"email": "levinski@example.com",
"phone": "123-456-8907"
},
"title": "The daily huddle on tHe StandUpApp2",
"message": "write down your signature or phone №",
"text" : {
"en_US": "<body>This page has been updated with the items on the agenda.</body>" ,
"es_MX": "La página ha sido actualizada con los puntos de la agenda.",
"pl_PL": "Strona została zaktualizowana o punkty porządku obrad."
}
}

Atlas Search 비주얼 편집기에는 시작하는 데 도움이 되는 일반적인 사용 템플릿을 기반으로 하는 다음과 같은 기본 제공 사용자 지정 분석기가 포함되어 있습니다.

  • 이메일 구문 분석기 - 이메일 주소를 최대 200자까지 토큰화하는 데 사용합니다. 예를 들어 예시 컬렉션page_updated_by.email 필드에 이 분석기를 적용할 수 있습니다.

  • 전화번호 - 미국 형식의 전화번호에서 단일 토큰을 생성하는 데 사용합니다. 예를 들어 예제 컬렉션의 page_updated_by.phone 필드에 이 분석기를 적용할 수 있습니다 .

  • 대시로 구분된 ID - 하이픈으로 구분된 텍스트로 토큰을 만들 때 사용합니다. 예를 들어 예제 컬렉션의 message 필드에 이 분석기를 적용할 수 있습니다 .

이러한 내장 사용자 지정 분석기를 사용할 수도 있고, 또는 Atlas Search 비주얼 편집기 또는 JSON 편집기를 사용하여 사용자 지정 분석기를 만들 수 있습니다. 사용자 지정 분석기를 만드는 방법에 대해 자세히 알아보려면 다음 페이지를 참조하세요.

참고

Atlas UI에서 Visual Editor을(를) 사용하여 사용자 지정 분석기를 추가하는 경우 Atlas UI는 Custom Analyzers 섹션에 분석기에 대한 다음 세부 정보를 표시합니다.

이름
사용자 지정 분석기를 식별하는 레이블입니다.
사용 분야
사용자 지정 분석기를 사용하는 필드입니다. 사용자 지정 분석기를 사용하여 필드를 분석하지 않는 경우 값은 없음입니다.
문자 필터
사용자 지정 분석기에 구성된 Atlas Search 문자 필터 입니다.
토크나이저
사용자 지정 분석기에 구성된 Atlas Search 토크나이저.
토큰 필터
사용자 지정 분석기에서 구성된 Atlas Search 토큰 필터입니다.
작업

사용자 지정 분석기에서 수행할 수 있는 작업을 나타내는 클릭 가능한 아이콘입니다.

  • 사용자 지정 분석기를 편집하려면 을(를) 클릭합니다.

  • 사용자 지정 분석기를 삭제하려면 을(를) 클릭합니다.

돌아가기

멀티