Bin, classifique e limite seus dados
Nesta página
Você pode armazenar, classificar e limitar dados em seus gráficos para destacar aspectos importantes em seus dados.
Dados do compartimento
O Atlas Charts é compatível com campos de data de categorização, numéricos e de string em seus dados. O cluster divide os dados contínuos em grupos discretos chamados compartimentos, com cada compartimento contendo um subconjunto contíguo dos valores originais. Por exemplo, você pode agrupar usuários em compartimentos pela década em que nasceram ou agrupar eventos do calendário com registro de data e hora pelo mês da data de início.
Exemplo
Dados contínuos versus dados discretos
Os dados contínuos podem ocupar qualquer valor em uma faixa contínua. Alguns exemplos de dados contínuos incluem altura, temperatura ou a hora em que uma pessoa nasceu.
Alternativamente, dados discretos são dados que podem somente utilizar determinados valores, categorizados em uma classificação. Exemplos de dados discretos incluem a cor dos olhos e o número de alunos em uma turma.
Ao gerenciar datas, os dados normalmente vêm de forma contínua. Recomendamos dividir esses dados em uma janela específica de tempo para revelar outras tendências e padrões. O Atlas Charts aceita os seguintes compartimentos para datas:
|
|
Para usar a categorização para datas:
Arraste um campo de data (representado por um ícone de calendário na seção Fields do Construtor de Gráficos de gráficos) para umcanal de codificação category .
Por padrão, o binning é ativado conforme indicado pelo botão Binning On.
Use o menu suspenso para selecionar o tamanho da caixa de categorização para suas datas.
Alterne a configuração Periodic conforme desejado.
Se habilitado, o Atlas Charts cria compartimentos relativos ao próximo período de tempo mais alto e repete cada compartimento para cobrir o período de tempo estendido no campo de dados.
Se desativados, os compartimentos criados por gráficos não se repetem.
Exemplo
Considere um campo de data contendo dados que abrangem cinco anos e uma seleção de caixa de categorização de Month. Se o Periodic estiver desabilitado, o Charts adicionará os 60 meses no conjunto de dados à visualização.
Como alternativa, se Periodic estiver habilitado, os Gráficos plotarão apenas os 12 meses do calendário e visualizarão os resultados agregados totais de cada mês do calendário.
Observação
A configuração Periodic está sempre habilitada ao selecionar um tamanho de caixa de Day of the Week.
A configuração Periodic é sempre desabilitada ao selecionar um tamanho de caixa de categorização de Year, porque o ano é o maior período de tempo disponível no Charts.
Para desativar o binning, desative a configuração Binning. Nesse caso, cada data do campo é adicionada à visualização sem nenhum agrupamento.
Exemplo
O gráfico abaixo visualiza dados históricos de vendas de uma loja de materiais de escritório. Cada venda é representada por um documento na collection supplySales
. Cada documento na collection inclui a data da venda como salesDate
, e uma lista de itens incluídos na venda como a array items
.
O campo saleDate
contém dados de registro de data/horacontínuos . O campo é categorizado por Date of the Month com a configuração Periodic habilitada. Isso significa que, ao longo dos vários anos que os dados abrangem, o Atlas Charts organiza o valor mean das vendas de cada data individual do mês:
Comparar períodos
Ao usar dados de categorização de data, você tem a opção de comparar dados entre diferentes períodos de tempo. Você pode exibir totais cumulativos ou alterações no valor.
Para usar o recurso de comparação de períodos, um gráfico deve ter:
Um canal de categoria com um campo de data não periódico e categorizado codificado.
Um canal de aggregation.
Se as condições forem atendidas, o cartão de aggregation terá um interruptor com etiqueta Compare Periods. Quando ativado, um menu suspenso aparece com opções para Cumulative Total e Change in Value.
Em um gráfico Cumulative Total, cada ponto de dados sucessivo é calculado acrescentando seu próprio valor adicionado ao ponto de dados cronológico anterior. Você também pode especificar um valor de linha de base para ser o valor inicial do total cumulativo. O valor de linha de base padrão é 0
.
Em um gráfico Change in Value, cada ponto de dados sucessivo mostra a diferença entre ele e o ponto de dados cronológico anterior. O primeiro ponto de dados no gráfico estará sempre em branco, porque não há período anterior para comparação.
Os seguintes tipos de gráficos podem usar a funcionalidade de comparação de períodos de tempo:
Observação
A opção de dados cumulativos não está disponível com gráficos multissérie.
Exemplo
O gráfico de colunas abaixo visualiza as vendas anuais de uma loja de material de escritório como um total cumulativo durante cinco anos. Cada documento na collection inclui a data da venda como salesDate
e um campo quantity
com uma contagem de itens incluídos na venda.
O campo saleDate
é categorizado por ano. O campo items
é uma array na qual cada item tem um campo quantity
, que é adicionado ao total acumulado com uma operação de aggregation SUM
.
Caixas de categorização vazias
Quando a categorização é habilitada, o Charts exibe entradas para caixas de categorização vazias dentro do intervalo mínimo e máximo de dados que um gráfico exibe.
Observação
Exceção
O Charts não exibe caixas de categorização vazias se incluí-las resultar em mais de 5.000 caixas de categorização únicas em um gráfico.
O valor que os gráficos usam para caixas vazias depende da função de agregação escolhida:
Função de aggregation | Valor inferido |
---|---|
count ou distinct | 0 |
Todas as outras funções | null |
O Charts exibe caixas de categorização com valores de null
de forma diferente com base no tipo de gráfico:
Tipo de gráfico | Como o Charts exibe null caixas de categorização |
---|---|
Barras com altura de 0 . Os gráficos não exibem etiquetas de dados para null compartimentos, mesmo que estejam ativados. | |
Interpolação linear, sem marcador de dados nas caixas de categorização null . O Charts não exibe etiquetas de dados para null caixas de categorização, mesmo que estejam habilitados. |
Os Atlas Charts podem agrupar campos numéricos de um conjunto contínuo em grupos de um tamanho especificado.
Para usar a categorização para campos numéricos:
Arraste um campo numérico (representado pelo ícone de sinal numérico na seção Fields do Construtor de Gráficos de gráficos) para um canal de codificação category .
Por padrão, o binning é ativado conforme indicado pelo botão que indica Binning On.
Insira o tamanho desejado do compartimento na entrada Bin Size .
Para desativar o binning, desative a configuração Binning . Nesse caso, cada valor individual do campo é adicionado à visualização, em vez de ser agrupado em compartimentos.
Exemplo
O gráfico abaixo visualiza dados históricos de vendas de uma loja de materiais de escritório. Cada venda é representada por um documento na collection supplySales
. Cada documento de venda contém um objeto customer
, que contém informações sobre o cliente que compra o(s) item(s).
O gráfico a seguir aplica o binning ao campo customer.age
. O campo age
contém dados numéricos contínuos e é categorizado por década. Cada valor age
é colocado na caixa apropriada e os Charts contam o número de idades em cada caixa para fornecer uma visão geral de alto nível da distribuição etária dos clientes da loja.
Caixas de categorização vazias
Quando a categorização é habilitada, o Charts exibe entradas para caixas de categorização vazias dentro do intervalo mínimo e máximo de dados que um gráfico exibe.
Observação
Exceção
O Charts não exibe caixas de categorização vazias se incluí-las resultar em mais de 5.000 caixas de categorização únicas em um gráfico.
O valor que os gráficos usam para caixas vazias depende da função de agregação escolhida:
Função de aggregation | Valor inferido |
---|---|
count ou distinct | 0 |
Todas as outras funções | null |
O Charts exibe caixas de categorização com valores de null
de forma diferente com base no tipo de gráfico:
Tipo de gráfico | Como o Charts exibe null caixas de categorização |
---|---|
Barras com altura de 0 . Os gráficos não exibem etiquetas de dados para null compartimentos, mesmo que estejam ativados. | |
Interpolação linear, sem marcador de dados nas caixas de categorização null . O Charts não exibe etiquetas de dados para null caixas de categorização, mesmo que estejam habilitados. |
Você pode selecionar e armazenar categorias de string para maior flexibilidade sobre como os dados são agrupados em seu gráfico. Quando você adiciona categorias a uma lixeira, o Atlas Charts agrega dados de cada categoria selecionada para renderizar os dados para essa lixeira.
Casos de uso
Ao agrupar strings categóricas selecionadas, você pode agrupar itens com um tema comum sem precisar alterar os dados subjacentes. Você pode consolidar um conjunto de valores fixo e grande em um conjunto menor e mais gerenciável.
Considere:
Um conjunto de dados com informações referentes a países de todo o mundo e você deseja agrupar países por continente.
Um conjunto de dados sobre vários intérpretes ao longo da história que você deseja agrupar por período de criação (por exemplo, Renovação, Automação, Modernidade).
Um conjunto de dados contendo números de versão refinados (por exemplo
2.3.0
,2.3.1
,2.3.2-rc1
,2.4.0
) que você gostaria de analisar em grupos de maior granularidade (por exemplo2.3
,2.4
).
Criar um Bin a partir de valores de string
Arraste um campo de string para um canal de codificação Category .
Alterne Binning para o campo para On.
Clique em Add Bin.
Na janela Add Bin , forneça um título ao seu compartimento.
Neste ponto, você pode criar um compartimento a partir de uma lista de strings de categoria ou definir uma expressão regular para corresponder aos valores de string. Você pode usar a lista de strings de categoria se quiser escolher os valores exatos para cada compartimento. Uma expressão regular é uma escolha melhor se você deseja corresponder a um intervalo maior de valores em potencial.
Para criar um compartimento a partir de strings de categoria selecionadas:
Clique no botão de opção Select .
Selecione as categorias para incluir na sua lixeira.
Clique Save. A janela Bins mostra as caixas de categorização que você criou e quantas categorias pertencem a cada caixa de categorização.
Observação
Cada valor só pode ser adicionado a uma caixa. Todos os valores que já foram adicionados a outros compartimentos são exibidos como desabilitados e anexados ao nome do compartimento ao qual foram adicionados.
A lista de caixas de seleção e valores vem de uma amostra dos dados e pode não incluir todos os valores existentes nos dados. Você pode adicionar valores adicionais manualmente à lista.
Para criar um compartimento a partir de uma expressão regular:
Clique no botão de opção Regex .
Insira uma expressão regular na caixa de texto Insert regex .
Selecione os sinalizadores desejados no menu suspenso à direita da caixa de texto. Você pode usar qualquer combinação dos quatro sinalizadores disponíveis:
bandeiraDescriçãoi
pesquisa sem distinção entre maiúsculas e minúsculasm
modo multilinhax
modo estendidos
modo de linha únicaUma amostra de documentos correspondentes é exibida. Se não houver documentos correspondentes, você ainda poderá salvar o compartimento.
Clique Save. A janela Bins mostra as caixas de categorização que você criou. As caixas de categorização criadas a partir de uma expressão regular são indicadas com um ícone .* .
Você pode adicionar outro compartimento clicando no link Add Bin ou fechar a janela Bins clicando em X no canto superior direito.
Editar e remover caixas de categorização existentes
Para editar caixas de categorização existentes, clique no botão Edit ao lado do botão Binning . A janela Bins será exibida. O selo ao lado de cada lixeira mostra quantas categorias pertencem a essa lixeira.
Para editar um compartimento, clique em Pencil Icon. Você pode renomear o compartimento e alterar as categorias pertencentes a esse compartimento.
Para remover uma lixeira, clique no ícone Trash .
Exemplos
O gráfico a seguir agrupa os gêneros dos Dados de Amostra de Filmes em compartimentos mais amplos:
Historical Movies, que inclui os gêneros Documentário, Biografia, História eGuerra.
Light-Hearted Movies, que inclui os gêneros Comédia, Novidade e família.
Scary Movies, que inclui os gêneros Série, Suspense,Horror eMistério.
Filmes de um gênero não incluído nessas caixas de categorização são agrupados na lixeira Other Values .
O gráfico mostra a classificação média imdb.rating
para filmes pertencentes a cada compartimento. O gráfico é classificado alfabeticamente por nome da categoria.
O gráfico a seguir examina o campo description
da collection sample_airbnb.listingsAndReviews
para determinadas palavras e compara os preços média . Ele usa compartimentos para agrupar documentos com base no fato de o campo description
conter uma string correspondente ao padrão especificado pela expressão regular .
Comportamento
Os valores só podem pertencer a apenas uma caixa de categorização, mas podem pertencer a qualquer número de caixas de categorização regex.
Quaisquer valores mostrados no gráfico que não foram adicionados a nenhuma lixeira são automaticamente adicionados a uma lixeira padrão chamado Other Values.
A ordem em que as caixas de categorização aparecem na janela Bins é significativa. Cada valor é renderizado no gráfico como parte da caixa de categorização mais alta em que aparece.
Observação
Você pode reordenar suas caixas arrastando e soltando-as na janela Bins .
Sort Data
Use o menu suspenso Sort By no Construtor de gráficos para classificar os dados do gráfico por:
categoria
Valor
Campo de série (para gráficos de várias séries)
Se você classificar um gráfico de múltiplas séries genericamente pelo Value sem classificar por uma série específica, o Atlas Charts classificará seus dados baseado na soma de todos os valores na série.
Para alternar entre um ordem de classificação crescente ou decrescente, clique no botão a-z
à direita do menu suspenso Sort By.
Por padrão, os gráficos classificam os dados com base no Value em ordem decrescente.
Classificar gráficos de múltiplas séries por valor de série
Se você criar um gráfico de múltiplas séries utilizando um campo diferente por série, você poderá classificar o gráfico por um campo de série específico.
Exemplo
Os gráficos a seguir usam a fonte de dados Sample Data: Movies para comparar o número médio de fresh
e rotten
de classificações do Rotten Tomato para filmes em cada gênero.
Este gráfico é classificado pelo valor médio de fresh
em ordem decrescente:
Este gráfico é classificado pelo valor médio de rotten
em ordem crescente:
Limit Data
Você pode aplicar um limite ao canal de codificação Category para incluir somente um número específico de categorias em sua visualização. As categorias incluídas são as primeiras categorias correspondentes com base na ordem de classificação especificada. Recomendamos limitar dados se, ao visualizar dados com tantas categorias, fica difícil criar um gráfico significativo.
Ao limitar seus dados, você também pode ativar Show "All Others" para criar uma nova categoria chamada "Todos os outros" que combina os valores das categorias omitidas pelo seu limite.
Exemplo
O gráfico a seguir mostra a média de IMDb classificação de filmes de um determinado país:
O conjunto de dados contém filmes de muitos países diferentes, mas seria mais interessante ver quais países produzem os filmes mais bem avaliados. Podemos conseguir isso aplicando um limite para mostrar apenas países com as 10 maiores classificações médias de filmes.
Alterne o botão Limit Results para On
e deixe a entrada Show no valor padrão de 10.
Marque Show "All Others" para criar uma 11ª coluna representando a classificação média de filmes de países que não estão no top 10.
O gráfico agora é muito mais fácil de entender, e temos uma visão clara dos países com os filmes mais bem avaliados: