Parquet
Sobre o formato Parquet
Apache Parquet é um formato de arquivo gratuito e de código aberto bastante usado para cargas de trabalho analíticas. O Parquet armazena colunas juntas, em vez de linhas. É um formato de esquema fixo compatível com estruturas de dados complexas, como arrays e documentos aninhados. Estas funcionalidades oferecem os seguintes benefícios:
Queries de desempenho. O Parquet é orientado por colunas e, portanto, as queries de dados do Parquet podem ser muito eficientes. Por exemplo, uma query que seleciona uma entre milhares de colunas pode extrair imediatamente esses dados do arquivo Parquet, em vez de tentar encontrar o valor desejado em cada linha.
Armazenamento eficiente. O Parquet armazena colunas de forma contígua permitindo uma compressão mais eficiente. O Parquet exige que os valores em uma determinada coluna tenham o mesmo tipo, e os valores em uma coluna são geralmente mais semelhantes entre si do que os valores em outras colunas. Isso permite uma variedade mais ampla de esquemas de codificação e compressão.
Compatibilidade com ferramentas de análise. Arquivos do Parquet têm um esquema fixo e, portanto, os dados do Parquet são compatíveis com muitas ferramentas de análise que exigem dados em um formato tabular de esquema fixo.
Sobre o Parquet para o Atlas Data Federation
O Atlas Data Federation pode ler e gravar em arquivos de dados do Parquet.
Parquet de leitura. Você pode consultar dados do Parquet do S3 com o Atlas Data Federation. Estas queries podem ter mais desempenho do que queries em outros formatos de dados. Para saber mais sobre por que as queries de dados do Parquet podem ter mais desempenho do que outros formatos de dados, consulte Sobre o formato do Parquet.
Gravando no Parquet. O Atlas Data Federation também permite que você grave dados no Parquet usando o estágio $out to S3. O Atlas Data Federation infere automaticamente qual esquema Parquet deve ser usado com base nos dados do MongoDB que você está gravando no Parquet. Você pode transformar seus dados no formato de dados Parquet se quiser fazer uma query desses dados com outra ferramenta de análise, como um data warehouse.
Para saber mais sobre como o Atlas Data Federation grava no formato de arquivo Parquet durante o estágio $out to S3, consulte Formato de arquivo Parquet.