Nuvem de Palavras
As cloud de palavras representam visualmente dados de texto, destacando palavras-chave e frases predominantes. A frequência com que cada palavra aparece é refletida pelo tamanho da palavra.
Canais de codificação do Word cloud
As nuvens de palavras fornecem os seguintescanais de codificação :
Canal de codificação | Tipo de canal | Descrição |
---|---|---|
Text | categoria | Os valores de texto a serem adicionados à cloud de palavras. Charts adiciona cada valor único do campo aplicado a este canal ao cloud. As cloud de palavras podem exibir um máximo de 100 valores. Se o campo aplicado a este canal contiver mais de 100 valores únicos, o gráfico mostrará uma amostra aleatória de 100 valores. Para garantir que o gráfico mostre apenas as palavras mais comuns, você deve aplicar um limite e classificar por Value. |
Tamanho | Agregação | Dita o campo a ser agregado e o tipo de agregação a ser executada. Os resultados da agregação definem o tamanho de cada valor Text , com valores agregados maiores resultando em tamanhos de texto maiores. Por exemplo, se você definir os canais Text e Size para o campo Se você definir o canal Text para o campo |
Cor | categoria | (Opcional) Cores cada valor de texto para indicar um valor de dados correspondente do campo aplicado. Por exemplo, se você definir os canais Text Size, e Color para o Se você definir os canais Text e Size para o campo |
Casos de uso
Use cloud de palavras para mostrar a frequência de palavras ou frases específicas em campo de texto. As cloud de palavras fornecem uma visão de alto nível de palavras e temas comuns em uma série de dados de texto. Eles também podem destacar as frases mais comuns de um conjunto conhecido de strings, como categorias de produtos ou tags.
Considere usar uma cloud de palavras para:
Mostrar palavras e frases comuns usadas em avaliações de um produto.
Identifique termos comuns no conteúdo existente para melhorar oSeo do .
Destaque pontos específicos de preocupação do cliente a partir de pesquisas agregadas do usuário.
Exemplos
As cloud de palavras são comumente usadas para mostrar a frequência de palavras que aparecem em campo de texto longos. Por padrão, as cloud de palavras não fazem a divisão dos campo de texto em palavras e, em vez disso, tentam visualizar todo o campo de texto como um único valor. Você pode usar um pipeline de agregação para fazer a divisão de um campo de texto em palavras individuais.
Observação
O conjunto de dados utilizado neste tutorial está incluído no conjunto de dados do sample_airbnb.listingsAndReviews
fornecido pelo Atlas.
O exemplo a seguir cria uma cloud de palavras a partir de um conjunto de dados que contém informações sobre propriedade de aluguel AirBnB. Cada listagem de propriedade contém um campo description
; um campo de texto descrevendo a propriedade.
Primeiro, executamos um aggregation pipeline para pré-processar o campo description
. O seguinte pipeline de agregação:
Splits
o campodescription
em uma array onde cada palavra individual é um elemento de array.Unwinds
esta array, criando um novo documento para cada palavra individual de cada campodescription
.Adds a new field
chamouwords
para a collection, onde cada palavra desenrolada dodescription
se torna um valor dewords
.Executa uma query
$match
forma que somente palavras não triviais sejam adicionadas à nuvem de palavras.
Procedimento
Cole o seguinte pipeline de agregação na barra Query na parte superior do Construtor de Gráficos:
[ { $addFields: { words: { $map: { input: { $split: ['$description', ' '] }, as: 'str', in: { $trim: { input: { $toLower: ['$$str'] }, chars: " ,|(){}-<>.;" } } } } } }, { $unwind: '$words' }, { $match: { words: { $nin: ["", "also", "i", "me", "my", "myself", "we", "us", "our", "ours", "ourselves", "you", "your", "yours", "yourself", "yourselves", "he", "him", "his", "himself", "she", "her", "hers", "herself", "it", "its", "itself", "they", "them", "their", "theirs", "themselves", "what", "which", "who", "whom", "whose", "this", "that", "these", "those", "am", "is", "are", "was", "were", "be", "been", "being", "have", "has", "had", "having", "do", "does", "did", "doing", "will", "would", "should", "can", "could", "ought", "i'm", "you're", "he's", "she's", "it's", "we're", "they're", "i've", "you've", "we've", "they've", "i'd", "you'd", "he'd", "she'd", "we'd", "they'd", "i'll", "you'll", "he'll", "she'll", "we'll", "they'll", "isn't", "aren't", "wasn't", "weren't", "hasn't", "haven't", "hadn't", "doesn't", "don't", "didn't", "won't", "wouldn't", "shan't", "shouldn't", "can't", "cannot", "couldn't", "mustn't", "let's", "that's", "who's", "what's", "here's", "there's", "when's", "where's", "why's", "how's", "a", "an", "the", "and", "but", "if", "or", "because", "as", "until", "while", "of", "at", "by", "for", "with", "about", "against", "between", "into", "through", "during", "before", "after", "above", "below", "to", "from", "up", "upon", "down", "in", "out", "on", "off", "over", "under", "again", "further", "then", "once", "here", "there", "when", "where", "why", "how", "all", "any", "both", "each", "few", "more", "most", "other", "some", "such", "no", "nor", "not", "only", "own", "same", "so", "than", "too", "very", "say", "says", "said", "shall"] } } } ] Clique em Apply para executar o pipeline.
Agora que temos um novo campo contendo as palavras individuais de cada revisão, podemos visualizar essas palavras em uma cloud de palavras.
Aplique o campo
words
recém-criado ao canal de codificação Text para adicionar cada palavra individual à cloud de palavras.Aplique um limite de 80 para mostrar apenas as 80 palavras mais comuns das avaliações.
Aplique o campo
words
ao canal de codificação Size e agregue com base na contagem de cada palavra individual.
Sua cloud de palavras deve ter a seguinte aparência:
O tamanho das palavras na nuvem representa sua frequência relativa.
Limitações
O tamanho máximo da resposta da query para uma cloud de palavras é de 5.000 documento.