Anúncio UDF do MongoDB para modelos do BigQuery Dataflow

Venkatesh Shanbhag, Diana Annie Jenosh4 min read • Published Jan 26, 2023 • Updated Apr 02, 2024

IA Atlas JavaScript

Avalie esse Tutorial

Muitos clientes corporativos que usam o MongoDB Atlas como seu principal banco de dados operacional também usam o BigQuery para suas análises baseadas em Batch e AI/ML, tornando-o fundamental para a transferência perfeita de dados entre essas entidades. Desde o anúncio dos modelos de fluxo de dados (em outubro de 2022) sobre a movimentação de dados entre o MongoDB e o BigQuery, vimos muito interesse dos clientes, pois isso facilitou uma migração de dados somente para um anexo. Embora os três modelos do Dataflow fornecidos atendam à maioria dos casos de uso comuns, também havia uma demanda para poder fazer transformações como parte desses modelos.

Estamos muito satisfeitos em anunciar a adição da capacidade de escrever suas próprias funções definidas pelo usuário (UDFs) nesses pipelines do Dataflow! Este novo recurso permite usar UDFs no JavaScript para transformar e analisar dados no BigQuery. Com as UDFs, você pode definir lógica personalizada e regras de negócios que podem ser aplicadas aos seus dados durante o processamento pelo Dataflow. Isso permite que você realize transformações complexas, como transformar campos, concatenar campos, excluir campos, converter documentos incorporados em documentos separados etc. Essas UDFs aceitam documentos não processados como parâmetros de entrada e retornam os documentos processados como saída.

Para usar UDFs com o BigQuery Dataflow, basta escrever sua função JavaScript e armazená-la no bucket de armazenamento na nuvem do GCP. Use o parâmetro opcional dos modelos de fluxo de dados para ler esses UDFs durante a execução dos modelos. A função será executada nos dados conforme estiver sendo processado, permitindo que você aplique lógica e transformações personalizadas aos seus dados durante a transferência.

Como configurá-lo

Vamos dar uma rápida olhada em como configurar uma amostra de UDF para processar (transformar um campo, nivelar um documento incorporado e excluir um campo) de um documento de entrada antes de gravar os dados processados no BigQuery.

Configure o MongoDB

Configuração do MongoDB Atlas por meio de registro.
Configuração do MongoDB Atlas por meio do GCP Marketplace. (O MongoDB Atlas está disponível para pagamento conforme o uso no marketplace da GCP).
Crie seu cluster MongoDB .
Clique em Procurar coleções e clique em +Criar banco de dados.

5: Dê um nome a seu banco de dados Sample_Company e à coleção Sample_Employee.: 6 Clique em Inserir documento. Copie e cole o documento abaixo e clique em Inserir .

1 {
2   "Name":"Venkatesh",
3   "Address":{"Phone":{"$numberLong":"123455"},"City":"Honnavar"},
4   "Department":"Solutions Consulting",
5   "Direct_reporting": "PS"
6 }

7: para ter acesso autenticado no cluster MongoDB Sandbox a partir do console do Google, precisamos criar usuários de banco de dados.

Clique em Database Access no painel esquerdo do Atlas Dashboard.

Escolha Adicionar novo usuário usando o botão verde à esquerda. Insira o nome appUser de usuário e a appUser123 senha. Usaremos funções embutidas; clique em Adicionar privilégios padrão e, na seçãoPrivilégios padrão, adicione os roles readWriteAnyDatabase.Em seguida, pressione o botão verde Adicionar usuário para criar o usuário.

8: lista os IPs na lista de permissões.

Para fins desta demonstração, permitiremos o acesso de qualquer ip, ou seja, 0.0.0.0/0. No entanto, isso não é recomendado para uma configuração de produção, onde a recomendações será usar o VPC Peering e IP privados.

Configurar o Google Cloud

Criar um bucket de armazenamento em nuvem.
Em sua máquina local, crie um arquivo JavaScript transforma.js e adicione abaixo o código de amostra.

1 function transform(inputDoc) {
2    var outputDoc = new Object();
3    inputDoc["City"] = inputDoc["Address"]["City"];
4    delete doc.Address;
5    outputDoc = doc;
6    return returnObj;
7 }

Essa função lerá o documento lido do MongoDB usando o connector IO do MongoDB do Apache stream. Nivelar o documento incorporado Endereço/Cidade a Cidade. Exclua o campo Endereço e devolva o documento atualizado.

3: Carregue o arquivo JavaScript no bucket de armazenamento do GCP .

4: crie um conjunto de dados do BigQuery no seu projeto na região próxima ao seu local físico.

5: Crie um pipeline de fluxo de dados.

a. Clique no botão Criar tarefa a partir do modelo na parte superior.

b. Nome do trabalho: mongodb-udf.

c. Região: igual à região do conjunto de dados do BigQuery.

d. URI de conexão do MongoDB: Copie o URI de conexão para conectar aplicativos do MongoDB Atlas.

e. Banco de dados MongoDB : Sample_Company.

f. Collection do MongoDB : Sample_Employee.

g. Tabela de destino do BigQuery: copie o link da tabela de destino do BigQuery

h. Página de detalhes do conjunto de dados no formato: bigquery-project:sample_dataset.sample_company.

eu. Opção do usuário: FLATTEN.

j. Clique em mostrar parâmetros opcionais.

k. Local de armazenamento na cloud do seu JavaScript UDF: navegue pelo arquivo UDF carregado no local do bucket. Este é o novo recurso que permite executar o UDF e aplicar as transformações antes de inserir no BigQuery.

l. Nome da sua função JavaScript: transformar.

6: Clique em RUN JOB para começar a executar o pipeline. Quando o pipeline terminar de ser executado, seu gráfico deverá mostrar Bem-sucedido em cada estágio, conforme mostrado abaixo.

7: Após a conclusão do trabalho, você poderá ver o documento transformado inserido no BigQuery.

Conclusão

Neste blog, apresentamos UDFs ao MongoDB aos modelos de fluxo de dados do BigQuery e seus recursos para transformar os documentos lidos do MongoDB usando funções Javascript personalizadas definidas pelo usuário armazenadas em buckets de armazenamento do Google Cloud. Este blog também inclui um tutorial simples sobre como configurar o MongoDB Atlas, o Google Cloud e os UDFs.

Leitura adicional

Um pipeline de dados para MongoDB Atlas e BigQuery usando Dataflow.
Um pipeline de dados para MongoDB Atlas e BigQuery usando o connector Confluent.
Execute análises usando o BigQuery com o BigQuery ML.
Configure seu primeiro MongoDB cluster usando o Google Marketplace.

Avalie esse Tutorial

Relacionado

Artigo

Como trabalhar com os dados da Johns Hopkins University sobre COVID-19 no MongoDB Atlas

Sep 09, 2024 | 8 min read

Tutorial

Descubra seu Airbnb ideal: implementando um Spring Boot e Atlas Search com o driver Kotlin Sync

Oct 02, 2024 | 8 min read

Tutorial

Combinando seu banco de dados com o Azure Blob Storage usando o Data Federation

Oct 08, 2024 | 7 min read

Tutorial

Introdução ao Azure Spring Apps e ao MongoDB Atlas: um guia passo a passo

Jan 27, 2024 | 5 min read

1	{
2	"Name":"Venkatesh",
3	"Address":{"Phone":{"$numberLong":"123455"},"City":"Honnavar"},
4	"Department":"Solutions Consulting",
5	"Direct_reporting": "PS"
6	}

1	function transform(inputDoc) {
2	var outputDoc = new Object();
3	inputDoc["City"] = inputDoc["Address"]["City"];
4	delete doc.Address;
5	outputDoc = doc;
6	return returnObj;
7	}