워드 클라우드

이 페이지의 내용

워드 클라우드 인코딩 채널
사용 사례
예시
제한 사항

워드 cloud는 텍스트 데이터를 시각적으로 표현하여 널리 사용되는 키워드와 구문을 강조 표시합니다. 각 단어가 표시되는 빈도는 단어의 크기에 따라 반영됩니다.

워드 클라우드 인코딩 채널

인코딩 채널	채널 유형	설명
Text	카테고리	워드 cloud에 추가할 텍스트 값입니다. Atlas Charts는 이 채널에 적용된 필드의 각 고유 값을 워드 cloud에 추가합니다. 워드 cloud는 최대 100개의 값을 표시할 수 있습니다. 이 채널에 적용된 필드에 100개 이상의 고유 값이 포함되어 있는 경우 차트에는 100개 값의 무작위 샘플이 표시됩니다. 차트에 가장 일반적인 단어만 표시하려면 제한 을 적용하고 Value 를 기준으로 정렬해야 합니다.
size	집계	애그리게이션할 필드와 수행할 애그리게이션 유형을 지정합니다. 애그리게이션 결과는 각 Text 값의 크기를 정의하며, 애그리게이션된 값이 클수록 텍스트 크기도 커집니다. 예를 예시 `Sample Data: Movies` 컬렉션 의 Text 및 Size 채널을 `genres` 필드 로 설정하다 하면 Charts 는 가장 빈번하게 발생하는 장르가 가장 큰 워드 cloud 를 생성합니다. Text 채널을 `genres` 필드로 설정하고 Size 채널을 `runtime` 필드로 설정하면 Atlas Charts는 집계 런타임이 가장 긴 장르가 가장 큰 워드 cloud를 생성합니다.
색상	카테고리	(선택 사항) 적용된 필드의 해당 데이터 값을 나타내도록 각 텍스트 값에 색상을 지정합니다. 예를 예시 Text, Size 및 Color 채널을 `Sample Data: Movies` 컬렉션 의 `genres` 필드 에 설정하다 하면 Charts 는 가장 빈번하게 발생하는 장르가 가장 크고 각 장르가 다음과 같은 워드 cloud 를 생성합니다. 다른 색상입니다. Text 및 Size 채널을 `genres` 필드에 설정하고 Color 채널을 `rated` 필드에 설정하면 Charts는 가장 자주 발생하는 장르 및 등급 조합이 가장 큰 워드 클라우드를 생성합니다. 각 장르와 등급 조합은 색상이 다르므로 R 등급 드라마의 녹색 텍스트 값은 G 등급 드라마의 파란색 텍스트 값보다 크게 표시됩니다.

사용 사례

워드 cloud를 사용하여 텍스트 필드에 특정 단어나 구의 빈도를 표시합니다. 워드 cloud는 일련의 텍스트 데이터에서 일반적인 단어와 주제에 대한 높은 수준의 보기를 제공합니다. 또한 제품 카테고리나 태그와 같이 알려진 문자열 집합에서 가장 일반적인 문구를 강조 표시할 수도 있습니다.

다음과 같은 경우에는 워드 cloud를 사용하는 것이 좋습니다.

제품 리뷰에 사용되는 일반적인 단어와 구문을 표시합니다.
기존 콘텐츠에서 공통된 텀을 식별하여 검색 엔진 최적화( SEO)를 개선합니다.
집계된 사용자 설문조사에서 특정 고객의 문제점을 강조합니다.

예시

워드 cloud는 일반적으로 긴 텍스트 필드에 단어가 나타나는 빈도를 표시하는 데 사용됩니다. 기본적으로 워드 cloud는 텍스트 필드를 단어로 split하지 않고 대신 전체 텍스트 필드를 단일 값으로 시각화하려고 시도합니다. 집계 파이프라인 을 사용하여 텍스트 필드를 개별 단어로 분할할 수 있습니다.

참고

이 튜토리얼에 사용된 데이터 세트는 Atlas 에서 제공하는 sample_airbnb.listingsAndReviews 데이터 세트에 포함되어 있습니다.

다음 예시에서는 AirBnB 임대 속성에 대한 정보가 포함된 데이터 세트에서 워드 cloud를 생성합니다. 각 속성 목록에는 description 필드가 포함되어 있습니다. 속성을 설명하는 텍스트 필드입니다.

먼저 집계 파이프라인을 실행하여 description 필드를 전처리합니다. 다음 집계 파이프라인:

Splits description 필드를 각 개별 단어가 배열 요소인 배열로 변환합니다.
이 배열을 Unwinds 하여 각 description 필드의 각 개별 단어에 대해 새 문서를 만듭니다.
Adds a new field 은 words 를 컬렉션 으로 호출하고, 여기서 description 에서 풀린 각 단어는 words 값이 됩니다.
중요하지 않은 단어만 단어 cloud 에 추가되도록 $match 쿼리 를 수행합니다.

절차

다음 집계 파이프라인을 차트 빌더 상단의 Query 표시줄에 붙여넣습니다.

[
  {
    $addFields: {
      words: {
        $map: {
          input: { $split: ['$description', ' '] },
          as: 'str',
          in: {
            $trim: {
              input: { $toLower: ['$$str'] },
              chars: " ,|(){}-<>.;"
            }
          }
        }
      }
    }
  },
  { $unwind: '$words' },
  {
    $match: {
      words: {
        $nin: ["", "also", "i", "me", "my", "myself", "we", "us",
               "our", "ours", "ourselves", "you", "your", "yours",
               "yourself", "yourselves", "he", "him", "his",
               "himself", "she", "her", "hers", "herself", "it",
               "its", "itself", "they", "them", "their", "theirs",
               "themselves", "what", "which", "who", "whom", "whose",
               "this", "that", "these", "those", "am", "is", "are",
               "was", "were", "be", "been", "being", "have", "has",
               "had", "having", "do", "does", "did", "doing", "will",
               "would", "should", "can", "could", "ought", "i'm",
               "you're", "he's", "she's", "it's", "we're", "they're",
               "i've", "you've", "we've", "they've", "i'd", "you'd",
               "he'd", "she'd", "we'd", "they'd", "i'll", "you'll",
               "he'll", "she'll", "we'll", "they'll", "isn't",
               "aren't", "wasn't", "weren't", "hasn't", "haven't",
               "hadn't", "doesn't", "don't", "didn't", "won't",
               "wouldn't", "shan't", "shouldn't", "can't", "cannot",
               "couldn't", "mustn't", "let's", "that's", "who's",
               "what's", "here's", "there's", "when's", "where's",
               "why's", "how's", "a", "an", "the", "and", "but",
               "if", "or", "because", "as", "until", "while", "of",
               "at", "by", "for", "with", "about", "against",
               "between", "into", "through", "during", "before",
               "after", "above", "below", "to", "from", "up", "upon",
               "down", "in", "out", "on", "off", "over", "under",
               "again", "further", "then", "once", "here", "there", "when",
               "where", "why", "how", "all", "any", "both", "each",
               "few", "more", "most", "other", "some", "such", "no",
               "nor", "not", "only", "own", "same", "so", "than",
               "too", "very", "say", "says", "said", "shall"]
      }
    }
  }
]

파이프라인을 실행하려면 Apply 을(를) 클릭합니다.
이제 각 리뷰의 개별 단어를 포함하는 새 필드가 생겼으므로 해당 단어를 워드 cloud에 시각화할 수 있습니다.
새로 만든 words 필드를 Text 인코딩 채널에 적용하여 각 개별 단어를 워드 cloud에 추가합니다.
리뷰에서 가장 일반적인 80개의 단어만 표시하려면 80자 제한 을 적용합니다.
words 필드를 Size 인코딩 채널에 적용하고 각 개별 단어의 개수를 기준으로 집계합니다.

워드 cloud는 다음과 같이 표시되어야 합니다.

클릭하여 확대

cloud에 있는 단어의 크기는 해당 단어의 상대적 빈도를 나타냅니다.

제한 사항

word cloud의 최대 쿼리 응답 크기는 문서 5,000개입니다.

돌아가기

숫자 차트

상위 항목 차트