Criar um Pipeline do Atlas Data Lake - Visualizar
Nesta página
Você pode criar pipelines de ingestão de dados usando aUI do Atlas , a API do ingestão de dados e a Atlas CLI. Esta página orienta você nas etapas de criação de uma pipeline do ingestão de dados Atlas.
Pré-requisitos
Antes de começar, você deve ter o seguinte:
Habilitado para backup
M10
ou Atlas cluster superior.Project Owner
role para o projeto para o qual você deseja implantar uma ingestão de dados.Dados de amostra carregados em seu cluster (se você quiser tentar o exemplo no Procedimento a seguir).
Procedimento
Para criar uma nova pipeline de ingestão de dados usando o Atlas CLI, execute o seguinte comando:
atlas dataLakePipelines create <pipelineName> [options]
Para saber mais sobre a sintaxe e os parâmetros do comando, consulte a documentação do Atlas CLI para criar Atlas dataLakePipelines.
Fique atento para que um pipeline seja concluído
Para observar se o pipeline do data lake especificado é concluído usando o Atlas CLI, execute o seguinte comando:
atlas dataLakePipelines watch <pipelineName> [options]
Para saber mais sobre a sintaxe e os parâmetros do comando, consulte a documentação do Atlas CLI para o Atlas CLI Atlas watch.
Para criar um pipeline do Atlas Data Lake por meio da API, envie uma solicitação POST
para o endpoint pipelines
do Data Lake . Para saber mais sobre a sintaxe e os parâmetros do endpoint pipelines
para criar um pipeline, consulte Criar um pipeline do Data Lake.
Dica
Você pode enviar uma GET
solicitação de para o endpoint availableSchedules do Data Lake para recuperar a lista de itens da política de agendamento de backup que você pode usar para criar seu pipeline do Data Lake do tipo PERIODIC_DPS
.
Faça login no MongoDB Atlas.
Go na Atlas Data Lake Atlas UI do .
Se ainda não estiver exibido, selecione a organização que contém seu projeto no menu Organizations na barra de navegação.
Se ainda não estiver exibido, selecione seu projeto no menu Projects na barra de navegação.
Na barra lateral, clique em Data Lake sob o título Deployment.
Defina a fonte de dados para o pipeline.
Você pode criar uma cópia dos dados em seu cluster do Atlas no armazenamento de objeto em nuvem gerenciado pelo MongoDB , otimizado para consultas analíticas com isolamento do volume de trabalho.
Para configurar um pipeline, especifique o seguinte na página Setup Pipeline :
Selecione o Atlas cluster no menu suspenso.
Exemplo
Se você carregou os dados de amostra em seu cluster, selecione o cluster Atlas onde você carregou os dados de amostra.
Selecione o banco de dados de dados no cluster especificado no menu suspenso ou digite o nome do banco de dados de dados no campo se o banco de dados de dados não estiver listado no menu suspenso.
O Atlas Data Lake não exibirá o banco de dados de dados se não conseguir buscar os nomes dos bancos de dados para o cluster especificado.
Exemplo
Se você selecionou o cluster onde os dados de amostra serão carregados, selecione
sample_mflix
.Selecione a coleção no banco de banco de dados especificado no menu suspenso ou digite o nome da coleção no campo se a coleção não estiver disponível.
O Atlas Data Lake não exibirá a coleção se não conseguir buscar o namespace da coleção para o cluster especificado.
O Atlas Data Lake não suporta Visualizações como fonte de dados para pipelines. Você deve selecionar uma collection do seu cluster.
Exemplo
Se você selecionou o banco de banco de dados
sample_mflix
, selecione a coleçãomovies
no banco de banco de dadossample_mflix
.Insira um nome para o pipeline.
Os nomes de pipeline do Atlas Data Lake não podem exceder 64 caracteres e não podem conter:
Barras (
/
),Barras invertidas (
\
)Espaços vazios
Assinaturas em dólares (
$
)
Exemplo
Se você estiver seguindo os exemplos deste tutorial, insira
sample_mflix.movies
no campo Pipeline Name .Clique em Continue.
Especifique um agendamento de ingestão para seus dados de cluster.
Você pode especificar com que frequência os dados do cluster são extraídos dos Atlas Backup Snapshots e ingeridos nos conjuntos de dados do Data Lake. Cada snapshot representa seus dados naquele ponto , que são armazenados em um armazenamento analítico isolado de carga de trabalho. Você pode executar query de quaisquer dados de snapshot nos conjuntos de dados do Data Lake.
Você pode escolher Basic Schedule ou On Demand.
Basic Schedule permite definir a frequência da ingestão automática de dados dos snapshots disponíveis. Você deve escolher entre os seguintes agendamentos. Escolha o Snapshot Schedule semelhante ao seu agendamento de backup:
Todos os dias
Todos os sábados
Último dia do mês
Por exemplo, se você selecionar Every day
, deverá ter um agendamento de backup Daily
configurado em sua política. Ou, se você quiser selecionar um agendamento de uma vez por semana, deverá ter um agendamento de backup Weekly
configurado em sua política. Para saber mais, consulte Agendamento de backup. Você pode enviar uma GET
solicitação de para o endpoint availableSchedules do Data Lake para recuperar a lista de itens da política de agendamento de backup que você pode usar em seu pipeline do Data Lake.
Exemplo
Para este tutorial, selecione Daily no menu suspenso Snapshot Schedule se você ainda não tiver um agendamento de backup. Se você tiver um agendamento de backup, as opções disponíveis serão baseadas no agendamento que você definiu para seu agendamento de backup.
On Demand permite que você trigger manualmente a ingestão de dados a partir de snapshots disponíveis sempre que desejar.
Exemplo
Para este tutorial, se você selecionar On Demand, deverá trigger manualmente a ingestão de dados do snapshot após criar o pipeline. Para saber mais, consulte trigger de ingestão de dados sob demanda - Visualização.
Selecione a região do para armazenar os dados Amazon Web Services extraídos.
O Atlas Data Lake oferece armazenamento otimizado nas seguintes regiões da AWS:
Regiões do Data Lake | Regiões da AWS |
---|---|
Virginia, USA | us-east-1 |
Oregon, EUA | us-west-2 |
São Paulo, Brasil | sa-east-1 |
Irlanda | eu-west-1 |
Londres, Inglaterra | eu-west-2 |
Frankfurt, Alemanha | eu-central-1 |
Mumbai, Índia | ap-south-1 |
Cingapura | ap-southeast-1 |
Sydney, Austrália | ap-southeast-2 |
Por padrão, o Atlas Data Lake seleciona automaticamente a região mais próxima do seu cluster do Atlas para armazenar dados extraídos. Se o Atlas Data Lake não conseguir determinar a região, o padrão será us-east-1
.
Especifique campos em sua coleção para criar partições.
Insira os campos de queries mais comuns da collection na seção Partition Attributes . Para especificar campos aninhados, utilize a notação de ponto de ponto. Não inclua aspas (""
) em torno de campos aninhados que você especifica usando a notação de ponto. Você não pode especificar campos dentro de uma array. Os campos especificados são usados para dividir seus dados.
Aviso
Não é possível especificar os nomes de campo que contêm pontos (.
) para particionamento.
Os campos consultados com mais frequência devem ser listados no topo porque terão um impacto maior no desempenho e no custo do que os campos listados na parte inferior da lista. A ordem dos campos é importante da mesma forma que é para Índices compostos. Os dados são otimizados para queries pelo primeiro campo, seguidos pelo segundo campo e assim por diante.
Exemplo
Insira year
no campo Most commonly queried field e title
no campo Second most commonly
queried field .
O Atlas Data Lake otimiza o desempenho para o campo year
, seguido pelo campo title
. Se você configurar uma Instância de Banco de Dados Federado para seu conjunto de dados do Data Lake, o Atlas Data Federation otimizará o desempenho para consultas nos seguintes campos:
o campo
year
eo campo
year
e o campotitle
.
O Atlas Data Federation também pode suportar uma query somente no campo title
. No entanto, nesse caso, o Atlas Data Federation não seria tão eficiente no suporte à consulta quanto seria se a consulta estivesse apenas no campo title
. O desempenho é otimizado em ordem; se uma query omitir uma partição específica, o Atlas Data Federation será menos eficiente ao utilizar quaisquer partições que se seguem a isso.
Você pode executar queries do Atlas Data Federation em campos não especificados aqui, mas o Atlas Data Lake é menos eficiente no processamento dessas queries.
(Opcional) Especifique campos dentro de seus documentos a serem excluídos.
Por padrão, o Atlas Data Lake extrai e armazena todos os campos dentro dos documentos em sua coleção. Para especificar campos a serem excluídos:
Clique em Add Field.
Insira o nome do campo na janela Add Transformation Field Name .
Exemplo
(Opcional) Insira
fullplot
para excluir o campo denominadofullplot
na coleçãomovies
.Clique em Done.
Repita as etapas para cada campo que deseja excluir. Para remover um campo desta lista, clique em .
Próximos passos
Agora que você criou seu pipeline do Data Lake, prossiga para Configurar uma instância do banco de dados federado para seu conjunto de dados - Visualização.