Dados do MongoDB ELT usando o Airbyte
Avalie esse Tutorial
O Airbyte é uma plataforma de integração de dados de código aberto que oferece uma maneira fácil e rápida de ELT (Extrair, Carregar e Transformar) seus dados entre uma variedade de fontes de dados. O AirByte pode ser usado como parte de uma solução de orquestração de fluxo de trabalho como o Apache Airflow para lidar com a movimentação de dados. Neste post, instalaremos o Airbyte e replicaremos o banco de dados de amostra, "sample_restaurants, " encontrado no MongoDB Atlas em um arquivo CSV.
O Airbyte está disponível como um serviço de nuvem ou pode ser instalado de formaauto-hospedada usando contêineres Docker. Neste post, implantaremos o Airbyte localmente usando o Docker.
1 git clone https://github.com/airbytehq/airbyte.git 2 cd airbyte 3 docker-compose up
Quando os containers estiverem prontos, você verá o logo impresso nos logs compostos da seguinte maneira:
Navegue até http://localhost:8000 para iniciar o portal da Airbyte. Observe que o nome de usuário padrão é "admin " e a senha é "password. "
Para criar um connector de origem, clique no item de menu Fontes no lado esquerdo do portal e, em seguida, no botão "Connect to your first source". Isso iniciará a página Nova fonte da seguinte maneira:
Digite "mongodb " e selecione "MongoDb. "
O MongoDB Connector pode ser usado com clusters auto-hospedados e MongoDB Atlas.
Selecione o tipo de instância MongoDB apropriado e preencha o restante das informações de configuração. Neste post, usaremos o MongoDB Atlas e definimos nossa configuração da seguinte forma:
Tipo de instância do MongoDB | MongoDB Atlas |
Cluster URL | demo.ikyil.mongodb.net |
Nome do Banco de Dados | sample_restaurants |
Nome de usuário | ab_user |
Senha | ********** |
Fonte de autenticação | admin |
Observação: Se você estiver usando o MongoDB Atlas, certifique-se de criar o usuário e permitir o acesso à rede. Por padrão, o MongoDB Atlas não acessa conexões remotas.
Clique em “Setup source” e o Airbyte testará a conexão. Se for bem-sucedido, você será enviado para a página Adicionar destino. Clique no botão “Add destination” e selecione “Local CSV” no menu suspenso.
Em seguida, forneça um nome de destino, "restaurant-samples, " e um caminho de destino, "/local. ". O portal da Airbyte fornece um guia de configuração para o connector CSV local no lado direito da página. Isso é útil para uma referência rápida sobre a configuração do connector.
Clique em “Set up destination” e a Airbyte testará a conexão com o destino. Após o sucesso, você será redirecionado para uma página na qual poderá definir os detalhes do stream que deseja sincronizar.
O Airbyte oferece uma variedade de opções de sincronização, incluindo atualização completa e incremental.
Selecione “Full Refresh | Overwrite” e clique em “Set up sync.”
O Airbyte iniciará o processo de sincronização e, se for bem-sucedido, você verá a mensagem Sincronização bem-sucedida.
Vamos dar uma olhada nos arquivos CSV criados. O connector CSV grava no suporte Docker /local no servidor airbyte. Por padrão, essa montagem é definida como /tmp/airbyte_local e pode ser alterada definindo a variável de ambiente Docker LOCAL_ROOT.
Para visualizar os arquivos CSV, inicie o bash a partir do comando docker exec da seguinte maneira:
docker exec -it airbyte-server bash
Depois de conectado, navegue até a pasta /local e visualize os arquivos CSV:
bash-4.2# cd /tmp/airbyte_local/ bash-4.2 #ls _airbyte_raw_neighborhoods.csv _airbyte_raw_restaurants.csv
No mundo rico em dados de hoje, a criação de pipelines de dados para coletar e transformar dados heterogêneos é uma parte essencial de muitos processos de negócios. Se o objetivo é obter insights de negócios por meio de análises ou criar uma visão única do cliente, a Airbyte facilita a movimentação de dados entre o MongoDB e muitas outras fontes de dados.