Distribua uma instância de banco de dados federado
Nesta página
Tempo estimado para conclusão: 15 minutos
Esta parte do tutorial mostra como implantar uma instância do banco de dados federado usando os seguintes assistentes de início rápido na UI do Atlas :
O assistente de Alimentação de Sistemas Downstream do ajuda você a configurar uma instância do banco de dados federado que exporta dados do seu Atlas agrupamento do , transforma os dados em Parquet, CSV, BSON ou MongoDB Extended JSON e copia os dados para seus buckets Amazon Web Services do S em3 Atlas Triggers intervalos especificados usando .
O assistente de Explorar com Dados de Amostra ajuda você a configurar uma instância do banco de dados federado carregado com dados de exemplo para demonstrar como se conectar à instância do banco de dados federado e executar queries.
O assistente de Query de Dados Across Clusters ajuda você a configurar uma instância do banco de dados federado que acessa dados de vários clusters do Atlas para que você possa executar queries federadas em coleções de todos eles.
Para saber mais sobre as opções de configuração de armazenamento, consulte Definir armazenamentos de dados para uma instância de banco de dados federado.
Acesso necessário
Para implantar uma instância do banco de dados federado, você deve ter acesso do Project Owner
ao projeto. Os usuários com acesso Organization Owner
devem se adicionar como Project Owner
ao projeto antes de distribuir uma instância do banco de dados federado.
Pré-requisitos
Para concluir esta parte do tutorial, certifique-se de atender aos seguintes pré-requisitos:
Crie uma conta MongoDB Atlas , se você ainda não tiver uma.
Para o assistente de Alimentação de Sistemas Downstream, você precisa de:
O Amazon Web Services CLI, configurado para acessar sua Amazon Web Services conta do . Como alternativa, você deve ter acesso ao Amazon Web Services Console de gerenciamento do com permissão para criar funções do IAM.
Um bucket S3 para armazenar dados extraídos.
Pelo menos um Atlas cluster com um banco de dados.
Para o assistente de Query de Dados em Clusters, você precisa de:
Pelo menos um Atlas cluster implantado no mesmo projeto que você usará para sua instância do banco de dados federado.
Pelo menos uma collection de banco de dados de dados. Você pode carregar dados de amostra se ainda não tiver coleções.
Use o Assistente de Alimentação de Sistemas Downstream
O assistente Feed Downstream Sistemas ajuda você a configurar uma instância do banco de dados federado que grava dados do seu Atlas cluster no seu bucket do AWS S3 continuamente em um cronograma.
Especifique suas fontes de dados.
Selecione um Atlas cluster para usar como fonte de dados no menu suspenso. Por padrão, o Atlas Data Federation adiciona todas as coleções neste cluster. Para utilizar um subconjunto dos dados, clique em Specific Collections, expanda os bancos de dados e selecione as coleções que você deseja adicionar à sua instância do banco de dados federado.
Dica
Para filtrar os bancos de dados e as coleções, insira texto no campo Specific Collections . A caixa de diálogo exibe somente bancos de dados e collections com nomes que correspondem aos seus critérios de pesquisa.
Clique em Continue.
Selecione um papel AWS IAM para Atlas.
Você pode selecionar uma função existente do AWS IAM para a qual o Atlas está autorizado na lista suspensa de seleção de funções ou escolher Authorize an AWS IAM Role para autorizar uma nova função.
Se você selecionou uma role existente para a qual o Atlas está autorizado, prossiga para a próxima etapa para listar seus buckets do Amazon Web Services S3 .
Se você estiver autorizando o Atlas para um papel existente ou estiver criando um novo papel, complete as seguintes etapas antes de prosseguir para a próxima etapa:
Na lista suspensa, selecione Authorize an AWS IAM Role para autorizar uma nova função ou selecionar uma função existente.
Use o Amazon Web Services ARN e o ID externo exclusivo na seção Role Authorization para adicionar o Atlas ao relacionamento de uma função nova ou existente do Amazon Web Services IAM.
Na interface do usuário do Atlas , clique em uma das seguintes opções:
O Create new AWS IAM role mostra como usar o ARN e o ID externo exclusivo para adicionar Atlas às relações de confiança de uma nova função do Amazon Web Services IAM . Siga as etapas na UI do Atlas para criar um novo papel. Para saber mais, consulte Criar nova função com CLI do Amazon Web Services.
Ao autorizar uma nova função, se você sair do fluxo de trabalho:
Antes de validar a função, o Atlas não criará a instância do banco de dados federado. Você pode Go a Atlas Integrations página do para autorizar uma nova função e, em seguida, iniciar o procedimento para implantar uma instância do banco Amazon Web Services de dados federado novamente quando tiver o ARN da função do IAM .
Após validar a função, o Atlas não criará a instância do banco de dados federado. No entanto, o papel está disponível no menu suspenso de seleção de papel e pode ser utilizado para criar uma instância do banco de dados federado. Você não precisa autorizar a role novamente.
O Use existing AWS IAM role mostra como usar o ARN e o ID externo exclusivo para adicionar o Atlas ao relacionamento de confiança de uma função existente do Amazon Web Services IAM. Siga as etapas na IU do Atlas para adicionar o Atlas ao relacionamento de confiança para uma função existente. Para saber mais, consulte Adicionar relacionamentos de confiança a uma função existente.
Importante
Se você modificar o ARN da função personalizada da Amazon Web Services no futuro, verifique se a política de acesso da função inclui o acesso apropriado aos recursos do S3 para a instância do banco de dados federado.
Para saber mais, consulte Configurar o acesso unificado ao Amazon Web Services e criar uma função de acesso de fornecedor de nuvem.
Clique em Validate AWS IAM role.
Agende suas extrações de dados.
Agende um trigger para copiar continuamente dados do seu Atlas cluster para o seu bucket S3 usando $out na seção Schedule Queries .
Especifique com que frequência você deseja extrair dados do seu Atlas cluster usando os menus suspensos Repeat Once By .
Opcional. Especifique se o Atlas Data Federation deve executar novamente a mesma query se a tiver perdido por algum motivo. Por padrão, isso está desabilitado para permitir que o Atlas Data Federation execute novamente queries perdidas. Como alternativa, para ignorar as queries perdidas e não recuperar o atraso, ative Skip Catch Up Events.
Opcional. Escolha o formato que você deseja para seus dados quando o Atlas Data Federation gravar no seu bucket S3 . O Atlas Data Federation oferece suporte ao Parquet, CSV , BSON e MongoDB Extended JSON.
Especifique o Max File Size para limitar o tamanho que cada arquivo que o Atlas Data Federation grava no seu bucket do S3 pode ser. Por exemplo, se você configurar o Max File Size para 100 MB e uma query retornar 1 GB de dados, o Atlas Data Federation gravará a query em seu bucket S3 em 10 arquivos, cada 100 MBs.
Insira o prefixo do Amazon Web Services para o bucket S destino.3
Insira o nome do campo de data indexada em Date Field e especifique o formato de seu valor usando o menu suspenso. Cada coleção que você deseja copiar para jusante deve ter um campo indexado que armazene um carimbo de data/hora como seu valor.
Clique em Continue.
Usar o Assistente de Exploração com Dados de Amostra
O assistente Explorar com Dados de Amostra ajuda você a configurar uma instância do banco de dados federado carregado com dados de amostra.
Essa instância do banco de dados federado inclui os seguintes conjuntos de dados de exemplo que você pode usar para prática a execução de queries:
/airbnb/listingsAndReviews/{bedrooms int}/{review_scores.review_scores_rating int}/
Esse caminho faz referência ao conjunto de dados
airbnb
, que contém os detalhes do classificador da casa de férias e as avaliações dos clientes. Para saber mais sobre esse conjunto de dados, consulte Amostra de conjunto de dados de listagens AirBnB.Para este caminho, a instância do banco de dados federado utiliza partições otimizadas para queries no campo
bedrooms
e camposreview_scores.review_score_ratings
./analytics/accounts/{limit int}/
Esse caminho faz referência ao conjunto de dados
analytics
, que contém dados para um aplicativo típico de serviços financeiros. Para saber mais sobre esse conjunto de dados, consulte Conjunto de dados analíticos de amostra.Para este caminho, a instância do banco de dados federado utiliza partições otimizadas para queries no campo
limit
./analytics/customers/{birthdate isodate}/
Esses dados fazem referência ao conjunto de dados
analytics
, que contém coleções para um aplicação típico de serviços financeiros. Para saber mais sobre esse conjunto de dados, consulte Conjunto de dados analíticos de amostra.Para este caminho, a instância do banco de dados federado utiliza partições otimizadas para queries no campo
birthdate
./analytics/transactions/{account_id int}/
Esse caminho faz referência ao conjunto de dados
analytics
, que contém dados para um aplicativo típico de serviços financeiros. Para saber mais sobre esse conjunto de dados, consulte Conjunto de dados analíticos de amostra.Para este caminho, a instância do banco de dados federado utiliza partições otimizadas para queries no campo
account_id
./mflix/movies/{type string}/{year int}/
Esse caminho faz referência ao conjunto de dados
mflix
, que contém dados sobre filmes e salas de cinema. Para saber mais sobre esse conjunto de dados, consulte Amostra de conjunto de dados Mflix.Para este caminho, a instância do banco de dados federado utiliza partições otimizadas para queries nos campos
type
eyear
./mflix/sessions.json
Esse caminho faz referência ao conjunto de dados
mflix
, que contém dados sobre filmes e salas de cinema. Para saber mais sobre esse conjunto de dados, consulte Amostra de conjunto de dados Mflix.Esse caminho não contém nenhum atributo de partição e, portanto, para consultas de dados na coleção, o Data Federation pesquisa todos os arquivos na coleção.
/mflix/theaters/{theaterId string}/{location.address.zipcode string}/
Esse caminho faz referência ao conjunto de dados
mflix
, que contém dados sobre filmes e salas de cinema. Para saber mais sobre esse conjunto de dados, consulte Amostra de conjunto de dados Mflix.Para este caminho, a instância do banco de dados federado utiliza partições otimizadas para queries nos campos
theaterId
elocation.address.zipcode
./mflix/users.json
Este caminho faz referência à coleção
mflix
, que contém dados sobre filmes e salas de cinema. Para saber mais sobre esse conjunto de dados, consulte Amostra de conjunto de dados Mflix.Esse caminho não contém nenhum atributo de partição e, portanto, para consultas de dados na coleção, a instância do banco de dados federado pesquisa todos os arquivos na coleção.
/nyc-yellow-cab-trips/{trip_start_isodate isodate}/{passenger_count int}/{fare_type string}/
Esse caminho faz referência ao conjunto de dados
nyc-yellow-cab-trips
, que contém dados sobre as viagens, incluindo data da viagem, tarifa e número de pessoas.Para este caminho, a instância do banco de dados federado utiliza partições otimizadas para queries nos campos
trip_start_isodate
,passenger_count
efare_type
.
Use o Assistente de Consulta de Dados em Clusters
O assistente Query Data Across Clusters ajuda a configurar uma instância do banco de dados federado que acessa dados de múltiplos Atlas clusters.
Especifique os Atlas clusters para utilizar como fontes de dados.
Selecione um Atlas cluster para usar como fonte de dados no menu suspenso. O Atlas exibe somente clusters em seu projeto Atlas atual neste menu suspenso.
Expanda os bancos de dados e selecione as coleções que você deseja adicionar à sua instância do banco de dados federado.
Dica
Para filtrar os bancos de dados e as coleções, insira texto no campo Specific collections . A caixa de diálogo exibe somente bancos de dados e collections com nomes que correspondem aos seus critérios de pesquisa.
Opcional. Expanda as configurações do Cluster Read Preference para configurar os seguintes campos.
Nome do campoDescriçãoRead Preference ModeEspecifica o membro do conjunto de réplicas para o qual você deseja rotear as solicitações de leitura. Você pode escolher uma das seguintes opções no menu suspenso:
primary
- para rotear todas as solicitações de leitura para o conjunto de réplicas primárioprimaryPreferred
- para rotear todas as solicitações de leitura do conjunto de réplicas primário e para membros secundários somente seprimary
não estiver disponívelsecondary
- para rotear todas as solicitações de leitura para os membros secundários do conjunto de réplicassecondaryPreferred
- para rotear todas as solicitações de leitura para os membros secundários do conjunto de réplicas e o primary em clusters fragmentados somente se os membrossecondary
não estiverem disponíveisnearest
- para rotear todas as solicitações de leitura para um membro aleatório qualificado do conjunto de réplicas, independentemente de esse membro ser primário ou secundário
Se você adicionar um Atlas cluster como um armazenamento, o valor padrão será
secondary
.Se você não definir nada na configuração de armazenamento da instância do banco de dados federado , o valor padrão será
nearest
. Para saber mais, consulte modo de read preference.TagSetsEspecifica a lista de tags ou documentos de especificação de tags que contêm pares de nome e valor para o membro do conjunto de réplicas para o qual você deseja direcionar as solicitações de leitura. Para saber mais, consulte Conjuntos de tags de read preference.Maxstaleness SecondsEspecifica o atraso de replicação ou "obsoleto", para leituras de secundários. Para saber mais, consulte Preferência de leitura maxStalenessSeconds.Clique em Add Atlas cluster and collection e repita estas etapas para todos os Atlas clusters que você deseja utilizar como fontes de dados.
Após terminar de adicionar clusters, clique em Continue.
Próximos passos
Agora que sua instância do banco de dados federado está distribuída, vá para Configurar conexão para sua instância do banco de dados federado.