Menu Docs
Página inicial do Docs
/ /
MongoDB Atlas Data Lake
/

Criar um Pipeline do Atlas Data Lake - Visualizar

Nesta página

  • Pré-requisitos
  • Procedimento
  • Próximos passos

Você pode criar pipelines de ingestão de dados usando aUI do Atlas , a API do ingestão de dados e a Atlas CLI. Esta página orienta você nas etapas de criação de uma pipeline do ingestão de dados Atlas.

Antes de começar, você deve ter o seguinte:

  • Habilitado para backup M10 ou Atlas cluster superior.

  • Project Owner role para o projeto para o qual você deseja implantar uma ingestão de dados.

  • Dados de amostra carregados em seu cluster (se você quiser tentar o exemplo no Procedimento a seguir).

Para criar uma nova pipeline de ingestão de dados usando o Atlas CLI, execute o seguinte comando:

atlas dataLakePipelines create <pipelineName> [options]

Para saber mais sobre a sintaxe e os parâmetros do comando, consulte a documentação do Atlas CLI para criar Atlas dataLakePipelines.

Dica

Veja: links relacionados

Para observar se o pipeline do data lake especificado é concluído usando o Atlas CLI, execute o seguinte comando:

atlas dataLakePipelines watch <pipelineName> [options]

Para saber mais sobre a sintaxe e os parâmetros do comando, consulte a documentação do Atlas CLI para o Atlas CLI Atlas watch.

Dica

Veja: links relacionados

Para criar um pipeline do Atlas Data Lake por meio da API, envie uma solicitação POST para o endpoint pipelines do Data Lake . Para saber mais sobre a sintaxe e os parâmetros do endpoint pipelines para criar um pipeline, consulte Criar um pipeline do Data Lake.

Dica

Você pode enviar uma GET solicitação de para o endpoint availableSchedules do Data Lake para recuperar a lista de itens da política de agendamento de backup que você pode usar para criar seu pipeline do Data Lake do tipo PERIODIC_DPS.

1
2
  1. Se ainda não estiver exibido, selecione a organização que contém seu projeto no menu Organizations na barra de navegação.

  2. Se ainda não estiver exibido, selecione seu projeto no menu Projects na barra de navegação.

  3. Na barra lateral, clique em Data Lake sob o título Deployment.

3
4

Você pode criar uma cópia dos dados em seu cluster do Atlas no armazenamento de objeto em nuvem gerenciado pelo MongoDB , otimizado para consultas analíticas com isolamento do volume de trabalho.

Para configurar um pipeline, especifique o seguinte na página Setup Pipeline :

  1. Selecione o Atlas cluster no menu suspenso.

    Exemplo

    Se você carregou os dados de amostra em seu cluster, selecione o cluster Atlas onde você carregou os dados de amostra.

  2. Selecione o banco de dados de dados no cluster especificado no menu suspenso ou digite o nome do banco de dados de dados no campo se o banco de dados de dados não estiver listado no menu suspenso.

    O Atlas Data Lake não exibirá o banco de dados de dados se não conseguir buscar os nomes dos bancos de dados para o cluster especificado.

    Exemplo

    Se você selecionou o cluster onde os dados de amostra serão carregados, selecione sample_mflix.

  3. Selecione a coleção no banco de banco de dados especificado no menu suspenso ou digite o nome da coleção no campo se a coleção não estiver disponível.

    O Atlas Data Lake não exibirá a coleção se não conseguir buscar o namespace da coleção para o cluster especificado.

    O Atlas Data Lake não suporta Visualizações como fonte de dados para pipelines. Você deve selecionar uma collection do seu cluster.

    Exemplo

    Se você selecionou o banco de banco de dados sample_mflix , selecione a coleção movies no banco de banco de dados sample_mflix .

  4. Insira um nome para o pipeline.

    Os nomes de pipeline do Atlas Data Lake não podem exceder 64 caracteres e não podem conter:

    • Barras (/),

    • Barras invertidas (\)

    • Espaços vazios

    • Assinaturas em dólares ($)

    Exemplo

    Se você estiver seguindo os exemplos deste tutorial, insira sample_mflix.movies no campo Pipeline Name .

  5. Clique em Continue.

5

Você pode especificar com que frequência os dados do cluster são extraídos dos Atlas Backup Snapshots e ingeridos nos conjuntos de dados do Data Lake. Cada snapshot representa seus dados naquele ponto , que são armazenados em um armazenamento analítico isolado de carga de trabalho. Você pode executar query de quaisquer dados de snapshot nos conjuntos de dados do Data Lake.

Você pode escolher Basic Schedule ou On Demand.

Basic Schedule permite definir a frequência da ingestão automática de dados dos snapshots disponíveis. Você deve escolher entre os seguintes agendamentos. Escolha o Snapshot Schedule semelhante ao seu agendamento de backup:

  • Todos os dias

  • Todos os sábados

  • Último dia do mês

Por exemplo, se você selecionar Every day, deverá ter um agendamento de backup Daily configurado em sua política. Ou, se você quiser selecionar um agendamento de uma vez por semana, deverá ter um agendamento de backup Weekly configurado em sua política. Para saber mais, consulte Agendamento de backup. Você pode enviar uma GET solicitação de para o endpoint availableSchedules do Data Lake para recuperar a lista de itens da política de agendamento de backup que você pode usar em seu pipeline do Data Lake.

Exemplo

Para este tutorial, selecione Daily no menu suspenso Snapshot Schedule se você ainda não tiver um agendamento de backup. Se você tiver um agendamento de backup, as opções disponíveis serão baseadas no agendamento que você definiu para seu agendamento de backup.

On Demand permite que você trigger manualmente a ingestão de dados a partir de snapshots disponíveis sempre que desejar.

Exemplo

Para este tutorial, se você selecionar On Demand, deverá trigger manualmente a ingestão de dados do snapshot após criar o pipeline. Para saber mais, consulte trigger de ingestão de dados sob demanda - Visualização.

6

O Atlas Data Lake oferece armazenamento otimizado nas seguintes regiões da AWS:

Regiões do Data Lake
Regiões da AWS
Virginia, USA
us-east-1
Oregon, EUA
us-west-2
São Paulo, Brasil
sa-east-1
Irlanda
eu-west-1
Londres, Inglaterra
eu-west-2
Frankfurt, Alemanha
eu-central-1
Mumbai, Índia
ap-south-1
Cingapura
ap-southeast-1
Sydney, Austrália
ap-southeast-2

Por padrão, o Atlas Data Lake seleciona automaticamente a região mais próxima do seu cluster do Atlas para armazenar dados extraídos. Se o Atlas Data Lake não conseguir determinar a região, o padrão será us-east-1.

7

Insira os campos de queries mais comuns da collection na seção Partition Attributes . Para especificar campos aninhados, utilize a notação de ponto de ponto. Não inclua aspas ("") em torno de campos aninhados que você especifica usando a notação de ponto. Você não pode especificar campos dentro de uma array. Os campos especificados são usados para dividir seus dados.

Aviso

Não é possível especificar os nomes de campo que contêm pontos (.) para particionamento.

Os campos consultados com mais frequência devem ser listados no topo porque terão um impacto maior no desempenho e no custo do que os campos listados na parte inferior da lista. A ordem dos campos é importante da mesma forma que é para Índices compostos. Os dados são otimizados para queries pelo primeiro campo, seguidos pelo segundo campo e assim por diante.

Exemplo

Insira year no campo Most commonly queried field e title no campo Second most commonly queried field .

O Atlas Data Lake otimiza o desempenho para o campo year , seguido pelo campo title . Se você configurar uma Instância de Banco de Dados Federado para seu conjunto de dados do Data Lake, o Atlas Data Federation otimizará o desempenho para consultas nos seguintes campos:

  • o campo year e

  • o campo year e o campo title .

O Atlas Data Federation também pode suportar uma query somente no campo title . No entanto, nesse caso, o Atlas Data Federation não seria tão eficiente no suporte à consulta quanto seria se a consulta estivesse apenas no campo title . O desempenho é otimizado em ordem; se uma query omitir uma partição específica, o Atlas Data Federation será menos eficiente ao utilizar quaisquer partições que se seguem a isso.

Você pode executar queries do Atlas Data Federation em campos não especificados aqui, mas o Atlas Data Lake é menos eficiente no processamento dessas queries.

8

Por padrão, o Atlas Data Lake extrai e armazena todos os campos dentro dos documentos em sua coleção. Para especificar campos a serem excluídos:

  1. Clique em Add Field.

  2. Insira o nome do campo na janela Add Transformation Field Name .

    Exemplo

    (Opcional) Insira fullplot para excluir o campo denominado fullplot na coleção movies .

  3. Clique em Done.

  4. Repita as etapas para cada campo que deseja excluir. Para remover um campo desta lista, clique em .

9

Agora que você criou seu pipeline do Data Lake, prossiga para Configurar uma instância do banco de dados federado para seu conjunto de dados - Visualização.

Voltar

Começar