Nuvem de Palavras

Nesta página

Canais de codificação do Word cloud
Casos de uso
Exemplos
Limitações

As cloud de palavras representam visualmente dados de texto, destacando palavras-chave e frases predominantes. A frequência com que cada palavra aparece é refletida pelo tamanho da palavra.

Canais de codificação do Word cloud

As cloud de palavras fornecem os seguintes canais de codificação:

Canal de codificação	Tipo de canal	Descrição
Text	categoria	Os valores de texto a serem adicionados à cloud de palavras. Charts adiciona cada valor único do campo aplicado a este canal ao cloud. As cloud de palavras podem exibir um máximo de 100 valores. Se o campo aplicado a este canal contiver mais de 100 valores únicos, o gráfico mostrará uma amostra aleatória de 100 valores. Para garantir que o gráfico mostre apenas as palavras mais comuns, você deve aplicar um limite e classificar por Value.
Tamanho	Agregação	Dita o campo a ser agregado e o tipo de agregação a ser executada. Os resultados da agregação definem o tamanho de cada valor Text , com valores agregados maiores resultando em tamanhos de texto maiores. Por exemplo, se você definir os Text Size canais e para o `genres` campo da `Sample Data: Movies` coleção , o Charts criará uma nuvem de palavras na qual os gêneros que ocorrem com mais frequência são maiores. Se você definir o canal Text para o campo `genres` e o canal Size para o campo `runtime`, o Charts criará uma cloud de palavras onde os gêneros com os tempos de execução agregados mais longos serão maiores.
Cor	categoria	(Opcional) Cores cada valor de texto para indicar um valor de dados correspondente do campo aplicado. Por exemplo, se você definir os canais Text Size, e Color para o `genres` campo da `Sample Data: Movies` coleção , o Charts criará uma nuvem de palavras em que os gêneros que ocorrem com mais frequência são os maiores e cada gênero é uma cor diferente. Se você definir os canais Text e Size para o campo `genres` e definir o canal Color para o campo `rated`, o Charts criará uma cloud onde as combinações de gênero e classificação que ocorrem com mais frequência são maiores. Cada combinação de gênero e classificação é uma cor diferente, de modo que o valor de texto verde para domas com classificação R é exibido maior que o valor de texto em azul para domas com classificação G.

Casos de uso

Use cloud de palavras para mostrar a frequência de palavras ou frases específicas em campo de texto. As cloud de palavras fornecem uma visão de alto nível de palavras e temas comuns em uma série de dados de texto. Eles também podem destacar as frases mais comuns de um conjunto conhecido de strings, como categorias de produtos ou tags.

Considere usar uma cloud de palavras para:

Mostrar palavras e frases comuns usadas em avaliações de um produto.
Identifique termos comuns no conteúdo existente para melhorar o Seo.
Destaque pontos específicos de preocupação do cliente a partir de pesquisas agregadas do usuário.

Exemplos

As cloud de palavras são comumente usadas para mostrar a frequência de palavras que aparecem em campo de texto longos. Por padrão, as cloud de palavras não fazem a divisão dos campo de texto em palavras e, em vez disso, tentam visualizar todo o campo de texto como um único valor. Você pode usar um pipeline de agregação para fazer a divisão de um campo de texto em palavras individuais.

Observação

O conjunto de dados utilizado neste tutorial está incluído no conjunto de dados do sample_airbnb.listingsAndReviews fornecido pelo Atlas.

O exemplo a seguir cria uma cloud de palavras a partir de um conjunto de dados que contém informações sobre propriedade de aluguel AirBnB. Cada listagem de propriedade contém um campo description ; um campo de texto descrevendo a propriedade.

Primeiro, executamos um aggregation pipeline para pré-processar o campo description . O seguinte pipeline de agregação:

Splits o campo description em uma array onde cada palavra individual é um elemento de array.
Unwinds esta array, criando um novo documento para cada palavra individual de cada campo description .
Adds a new field chamou words para a collection, onde cada palavra desenrolada do description se torna um valor de words.
Executa uma query $match forma que somente palavras não triviais sejam adicionadas à nuvem de palavras.

Procedimento

Cole o seguinte pipeline de agregação na barra Query na parte superior do Construtor de Gráficos:

[
  {
    $addFields: {
      words: {
        $map: {
          input: { $split: ['$description', ' '] },
          as: 'str',
          in: {
            $trim: {
              input: { $toLower: ['$$str'] },
              chars: " ,|(){}-<>.;"
            }
          }
        }
      }
    }
  },
  { $unwind: '$words' },
  {
    $match: {
      words: {
        $nin: ["", "also", "i", "me", "my", "myself", "we", "us",
               "our", "ours", "ourselves", "you", "your", "yours",
               "yourself", "yourselves", "he", "him", "his",
               "himself", "she", "her", "hers", "herself", "it",
               "its", "itself", "they", "them", "their", "theirs",
               "themselves", "what", "which", "who", "whom", "whose",
               "this", "that", "these", "those", "am", "is", "are",
               "was", "were", "be", "been", "being", "have", "has",
               "had", "having", "do", "does", "did", "doing", "will",
               "would", "should", "can", "could", "ought", "i'm",
               "you're", "he's", "she's", "it's", "we're", "they're",
               "i've", "you've", "we've", "they've", "i'd", "you'd",
               "he'd", "she'd", "we'd", "they'd", "i'll", "you'll",
               "he'll", "she'll", "we'll", "they'll", "isn't",
               "aren't", "wasn't", "weren't", "hasn't", "haven't",
               "hadn't", "doesn't", "don't", "didn't", "won't",
               "wouldn't", "shan't", "shouldn't", "can't", "cannot",
               "couldn't", "mustn't", "let's", "that's", "who's",
               "what's", "here's", "there's", "when's", "where's",
               "why's", "how's", "a", "an", "the", "and", "but",
               "if", "or", "because", "as", "until", "while", "of",
               "at", "by", "for", "with", "about", "against",
               "between", "into", "through", "during", "before",
               "after", "above", "below", "to", "from", "up", "upon",
               "down", "in", "out", "on", "off", "over", "under",
               "again", "further", "then", "once", "here", "there", "when",
               "where", "why", "how", "all", "any", "both", "each",
               "few", "more", "most", "other", "some", "such", "no",
               "nor", "not", "only", "own", "same", "so", "than",
               "too", "very", "say", "says", "said", "shall"]
      }
    }
  }
]

Clique em Apply para executar o pipeline.
Agora que temos um novo campo contendo as palavras individuais de cada revisão, podemos visualizar essas palavras em uma cloud de palavras.
Aplique o campo words recém-criado ao canal de codificação Text para adicionar cada palavra individual à cloud de palavras.
Aplique um limite de 80 para mostrar apenas as 80 palavras mais comuns das avaliações.
Aplique o campo words ao canal de codificação Size e agregue com base na contagem de cada palavra individual.

Sua cloud de palavras deve ter a seguinte aparência:

clique para ampliar

O tamanho das palavras na nuvem representa sua frequência relativa.

Limitações

O tamanho máximo da resposta da query para uma cloud de palavras é de 5.000 documento.

Voltar

Gráfico de números

Gráfico de itens principais