Explore o novo chatbot do Developer Center! O MongoDB AI chatbot pode ser acessado na parte superior da sua navegação para responder a todas as suas perguntas sobre o MongoDB .

Junte-se a nós no Amazon Web Services re:Invent 2024! Saiba como usar o MongoDB para casos de uso de AI .
Desenvolvedor do MongoDB
Central de desenvolvedor do MongoDBchevron-right
Produtoschevron-right
Atlaschevron-right

Otimizando seu arquivo online para desempenho de query

Rachelle Palmer3 min read • Published Aug 30, 2022 • Updated Jan 23, 2024
AWSAtlasArquivo On-line
Ícone do FacebookÍcone do Twitterícone do linkedin
Avalie esse Artigo
star-empty
star-empty
star-empty
star-empty
star-empty

Contribuído por

Este artigo foi uma contribuição de Prem Krsna, gerente de produto sênior para analítica no MongoDB.

Introdução

Com o Atlas Online Archive, você pode classificar dados frios ou dados acessados com pouca frequência do seu cluster MongoDB para um armazenamento de objetos em nuvem gerenciado pelo MongoDB - Amazon S3 ou Microsoft Azure Blob Storage. Isso pode reduzir o custo por meio do armazenamento em nuvem de arquivamento para dados antigos, enquanto os dados ativos que são acessados e consultados com mais frequência permanecem no banco de dados primário.
Para sua informação: se estiver usando o Online Archive e também usando o Atlas Data Federation do MongoDB, os usuários também poderão ter uma visão unificada dos dados de produção e dos dados arquivados lado a lado por meio de uma instância de banco de dados federada e somente leitura.
Neste blog, discutiremos como melhorar o desempenho de seu arquivo on-line escolhendo os campos de particionamento corretos.

Por que o particionamento é tão crítico ao configurar o Online Archive?

Depois de iniciar o arquivamento de dados, você não poderá editar nenhum campo de partição, pois a estrutura de como os dados serão armazenados no armazenamento de objetos se torna fixa após o início do trabalho de arquivamento. Portanto, você deve pensar criticamente sobre sua estratégia de particionamento de antemão.
Além disso, o desempenho da consulta de arquivamento é determinado pela forma como os dados são estruturados no armazenamento de objetos, portanto, é importante não apenas escolher as partições corretas, mas também escolher a ordem correta das partições.

Faça isso...

Escolha os campos consultados com mais frequência. Você pode escolher até 2 campos de partição para um arquivo baseado em consulta personalizada ou até três campos em um arquivo on-line baseado em data. Certifique-se de que sejam escolhidos os campos consultados com mais frequência para o arquivo. Observe que estamos falando sobre como você vai consultar o arquivo e não sobre os critérios de consulta personalizados fornecidos no momento do arquivamento!
Verifique a ordem dos campos particionados. Embora a seleção das partições seja importante, é igualmente importante escolher a ordemcorreta das partições. O campo consultado com mais frequência deve ser o primeiro campo de partição escolhido, seguido pelo segundo e terceiro. Isso é bastante simples.

Não é isso

Não adicione campos irrelevantes como partições. Se você não estiver consultando um campo específico do arquivo, esse campo não deve ser adicionado como campo de partição. Lembre-se de que você pode adicionar um máximo de 2 ou 3 campos de partição, portanto, é importante escolher esses campos cuidadosamente com base na forma como você consulta o arquivo.
Não ignore a opção "Move down ". A opção "Move down " é aplicável a um arquivo com uma regra baseada em dados. Por exemplo, se você quiser fazer mais query em Field_A, depois em Field_B e, em seguida, em sampleDate, certifique-se de selecionar a opção "Move Down " ao lado de "Archive date field " na parte superior.
Não escolha partição(ões) de alta cardinalidade. A escolha de um campo de alta cardinalidade, como _id, criará um grande número de partições no armazenamento de objetos. Em seguida, a consulta ao arquivo para qualquer consulta baseada em agregação causará um aumento na latência. O mesmo se aplica se várias partições forem selecionadas de forma que os campos coletivos, quando agrupados, possam ser denominados de alta cardinalidade. Por exemplo, se você estiver selecionando Field_A, Field_B e Field_C como suas partições e se uma combinação desses campos estiver criando valores exclusivos, isso resultará em partições de alta cardinalidade.
Observe que isso não se aplica a novos Arquivos Online.

Orientação adicional

Além das diretrizes de particionamento, há algumas considerações adicionais que são relevantes para a configuração ideal de sua estratégia de arquivamento de dados.
Adicionar regras de expiração de dados e janelas agendadas Esses campos são opcionais, mas são relevantes para seus casos de uso e podem melhorar suas velocidades de arquivamento e por quanto tempo seus dados precisam estar presentes no arquivo.
Indexar campos obrigatórios Antes de arquivar os dados, certifique-se de que seus dados estejam indexados para um desempenho ideal. Você pode executar um plano explain na consulta de arquivamento para verificar se a regra de arquivamento usará um índice.

Conclusão

É importante seguir o que fazer e o que não fazer antes de clicar em “Begin Archiving” para arquivar seus dados de forma que as partições sejam configuradas corretamente, otimizando assim o desempenho de seus arquivos on-line.
Para obter mais informações sobre a configuração ou o Online Archive, consulte a documentação para configurar um Online Archive e nossa publicação noblog sobre como criar um Online Archive.
Aprofunde-se neste tópico com este tutorial.
Já tem uma conta na AWS? O Atlas oferece suporte ao pagamento por uso por meio do AWS Marketplace (AWS MP) sem qualquer compromisso inicial — basta
Inscreva-se no MongoDB Atlas por meio do AWS Marketplace.

Ícone do FacebookÍcone do Twitterícone do linkedin
Avalie esse Artigo
star-empty
star-empty
star-empty
star-empty
star-empty
Relacionado
Tutorial

Anúncio UDF do MongoDB para modelos do BigQuery Dataflow


Apr 02, 2024 | 4 min read
Tutorial

Integre os registros do Atlas Application Services no Datadog na AWS


Sep 09, 2024 | 2 min read
Tutorial

Resposta de LLMs em cache com MongoDB Atlas e Vector Atlas Search


Sep 02, 2024 | 8 min read
Tutorial

How to Implement Working Memory in AI Agents and Agentic Systems for Real-time AI Applications


Nov 18, 2024 | 13 min read
Sumário