Criar um Pipeline do Atlas Data Lake - Visualizar

Nesta página

Pré-requisitos
Procedimento
Próximos passos

O Data Lake está obsoleto. A partir de 2024 de setembro , o Data Lake está obsoleto e chegará ao fim da vida útil. Ele será removido em 30 de setembro de 2025. Se você usa o Data Lake, deve migrar para soluções alternativas antes que o serviço seja removido. Para saber mais, consulte Guia de Descontinuação do Atlas Data Lake.

Você pode criar pipelines de ingestão de dados usando aUI do Atlas , a API do ingestão de dados e a Atlas CLI. Esta página orienta você nas etapas de criação de uma pipeline do ingestão de dados Atlas.

Pré-requisitos

Antes de começar, você deve ter o seguinte:

Habilitado para backup M10 ou Atlas cluster superior.
Project Owner role para o projeto para o qual você deseja implantar uma ingestão de dados.
Dados de amostra carregados em seu cluster (se você quiser tentar o exemplo no Procedimento a seguir).

Procedimento

Para criar uma nova pipeline de ingestão de dados usando o Atlas CLI, execute o seguinte comando:

atlas dataLakePipelines create <pipelineName> [options]

Para saber mais sobre a sintaxe e os parâmetros do comando, consulte a documentação do Atlas CLI para criar Atlas dataLakePipelines.

Dica

Veja: links relacionados

Fique atento para que um pipeline seja concluído

Para observar se o pipeline do data lake especificado é concluído usando o Atlas CLI, execute o seguinte comando:

atlas dataLakePipelines watch <pipelineName> [options]

Para saber mais sobre a sintaxe e os parâmetros do comando, consulte a documentação do Atlas CLI para o Atlas CLI Atlas watch.

Dica

Veja: links relacionados

Para criar um pipeline do Atlas Data Lake por meio da API, envie uma solicitação POST para o endpoint pipelines do Data Lake . Para saber mais sobre a sintaxe e os parâmetros do endpoint pipelines para criar um pipeline, consulte Criar um pipeline do Data Lake.

Dica

Você pode enviar uma GET solicitação de para o endpoint availableSchedules do Data Lake para recuperar a lista de itens da política de agendamento de backup que você pode usar para criar seu pipeline do Data Lake do tipo PERIODIC_DPS.

Faça login no MongoDB Atlas.

Go na Atlas Data Lake Atlas UI do .

Se ainda não estiver exibido, selecione a organização que contém seu projeto no menu Organizations na barra de navegação.
Se ainda não estiver exibido, selecione seu projeto no menu Projects na barra de navegação.
Na barra lateral, clique em Data Lake sob o título Deployment.

Clique em Add Data Lake Pipeline.

Defina a fonte de dados para o pipeline.

Você pode criar uma cópia dos dados em seu cluster do Atlas no armazenamento de objeto em nuvem gerenciado pelo MongoDB , otimizado para consultas analíticas com isolamento do volume de trabalho.

Para configurar um pipeline, especifique o seguinte na página Setup Pipeline :

Selecione o Atlas cluster no menu suspenso.
Exemplo
Se você carregou os dados de amostra em seu cluster, selecione o cluster Atlas onde você carregou os dados de amostra.
Selecione o banco de dados de dados no cluster especificado no menu suspenso ou digite o nome do banco de dados de dados no campo se o banco de dados de dados não estiver listado no menu suspenso.
O Atlas Data Lake não exibirá o banco de dados de dados se não conseguir buscar os nomes dos bancos de dados para o cluster especificado.
Exemplo
Se você selecionou o cluster onde os dados de amostra serão carregados, selecione sample_mflix.
Selecione a coleção no banco de banco de dados especificado no menu suspenso ou digite o nome da coleção no campo se a coleção não estiver disponível.
O Atlas Data Lake não exibirá a coleção se não conseguir buscar o namespace da coleção para o cluster especificado.
O Atlas Data Lake não suporta Visualizações como fonte de dados para pipelines. Você deve selecionar uma collection do seu cluster.
Exemplo
Se você selecionou o banco de banco de dados sample_mflix , selecione a coleção movies no banco de banco de dados sample_mflix .
Insira um nome para o pipeline.
Os nomes de pipeline do Atlas Data Lake não podem exceder 64 caracteres e não podem conter:
- Barras (/),
- Barras invertidas (\)
- Espaços vazios
- Assinaturas em dólares ($)
Exemplo
Se você estiver seguindo os exemplos deste tutorial, insira sample_mflix.movies no campo Pipeline Name .
Clique em Continue.

Especifique um agendamento de ingestão para seus dados de cluster.

Você pode especificar com que frequência os dados do cluster são extraídos dos Atlas Backup Snapshots e ingeridos nos conjuntos de dados do Data Lake. Cada snapshot representa seus dados naquele ponto , que são armazenados em um armazenamento analítico isolado de carga de trabalho. Você pode executar query de quaisquer dados de snapshot nos conjuntos de dados do Data Lake.

Você pode escolher Basic Schedule ou On Demand.

Basic Schedule permite definir a frequência da ingestão automática de dados dos snapshots disponíveis. Você deve escolher entre os seguintes agendamentos. Escolha o Snapshot Schedule semelhante ao seu agendamento de backup:

Todos os dias
Todos os sábados
Último dia do mês

Por exemplo, se você selecionar Every day, deverá ter um agendamento de backup Daily configurado em sua política. Ou, se você quiser selecionar um agendamento de uma vez por semana, deverá ter um agendamento de backup Weekly configurado em sua política. Para saber mais, consulte Agendamento de backup. Você pode enviar uma GET solicitação de para o endpoint availableSchedules do Data Lake para recuperar a lista de itens da política de agendamento de backup que você pode usar em seu pipeline do Data Lake.

Exemplo

Para este tutorial, selecione Daily no menu suspenso Snapshot Schedule se você ainda não tiver um agendamento de backup. Se você tiver um agendamento de backup, as opções disponíveis serão baseadas no agendamento que você definiu para seu agendamento de backup.

On Demand permite que você trigger manualmente a ingestão de dados a partir de snapshots disponíveis sempre que desejar.

Exemplo

Para este tutorial, se você selecionar On Demand, deverá trigger manualmente a ingestão de dados do snapshot após criar o pipeline. Para saber mais, consulte trigger de ingestão de dados sob demanda - Visualização.

Selecione a região do para armazenar os dados Amazon Web Services extraídos.

O Atlas Data Lake oferece armazenamento otimizado nas seguintes regiões da AWS:

Regiões do Data Lake	Regiões da AWS
Virginia, USA	us-east-1
Oregon, EUA	us-west-2
São Paulo, Brasil	sa-east-1
Irlanda	eu-west-1
Londres, Inglaterra	eu-west-2
Frankfurt, Alemanha	eu-central-1
Mumbai, Índia	ap-south-1
Cingapura	ap-southeast-1
Sydney, Austrália	ap-southeast-2

Por padrão, o Atlas Data Lake seleciona automaticamente a região mais próxima do seu cluster do Atlas para armazenar dados extraídos. Se o Atlas Data Lake não conseguir determinar a região, o padrão será us-east-1.

Especifique campos em sua coleção para criar partições.

Insira os campos de queries mais comuns da collection na seção Partition Attributes . Para especificar campos aninhados, utilize a notação de ponto de ponto. Não inclua aspas ("") em torno de campos aninhados que você especifica usando a notação de ponto. Você não pode especificar campos dentro de uma array. Os campos especificados são usados para dividir seus dados.

Aviso

Não é possível especificar os nomes de campo que contêm pontos (.) para particionamento.

Os campos consultados com mais frequência devem ser listados no topo porque terão um impacto maior no desempenho e no custo do que os campos listados na parte inferior da lista. A ordem dos campos é importante da mesma forma que é para Índices compostos. Os dados são otimizados para queries pelo primeiro campo, seguidos pelo segundo campo e assim por diante.

Exemplo

Insira year no campo Most commonly queried field e title no campo Second most commonly queried field .

O Atlas Data Lake otimiza o desempenho para o campo year , seguido pelo campo title . Se você configurar uma Instância de Banco de Dados Federado para seu conjunto de dados do Data Lake, o Atlas Data Federation otimizará o desempenho para consultas nos seguintes campos:

o campo year e
o campo year e o campo title .

O Atlas Data Federation também pode suportar uma query somente no campo title . No entanto, nesse caso, o Atlas Data Federation não seria tão eficiente no suporte à consulta quanto seria se a consulta estivesse apenas no campo title . O desempenho é otimizado em ordem; se uma query omitir uma partição específica, o Atlas Data Federation será menos eficiente ao utilizar quaisquer partições que se seguem a isso.

Você pode executar queries do Atlas Data Federation em campos não especificados aqui, mas o Atlas Data Lake é menos eficiente no processamento dessas queries.

(Opcional) Especifique campos dentro de seus documentos a serem excluídos.

Por padrão, o Atlas Data Lake extrai e armazena todos os campos dentro dos documentos em sua coleção. Para especificar campos a serem excluídos:

Clique em Add Field.
Insira o nome do campo na janela Add Transformation Field Name .
Exemplo
(Opcional) Insira fullplot para excluir o campo denominado fullplot na coleção movies .
Clique em Done.
Repita as etapas para cada campo que deseja excluir. Para remover um campo desta lista, clique em .

Clique em Finish para criar o Data Lake.

Próximos passos

Agora que você criou seu pipeline do Data Lake, prossiga para Configurar uma instância do banco de dados federado para seu conjunto de dados - Visualização.

Voltar

Começar

Etapa 2: Configurar uma instância do banco de dados federado