Parquet
Perk 形式について
Apache Farquet は、分析ワークロードに一般的な無料のオープンソース ファイル形式です。Partquet は行ではなく列をまとめて保存します。 配列やネストされたドキュメントなどの複雑なデータ構造をサポートする固定スキーマ形式です。 これらの機能には、次の利点があります。
パフォーマンス クエリ。 Perquet は列指向であるため、Parquet データに対するクエリは非常にパフォーマンスが良くなります。 たとえば、数千の列から 1 つだけを選択するクエリは、各行で値を検索しようとするのではなく、Parquet ファイルからそのデータをすぐに抽出できます。
効率的なストレージ。 Perl は列を連続して保存するため、非常に効率的な圧縮を可能にします。 部分一致では、特定の列の値が同じ型である必要があり、列の値は通常他の列の値よりも類似している必要があります。 これにより、より幅広いエンコードと圧縮スキームが可能になります。
分析ツール との互換性。 Partquet ファイルには固定のスキーマがあるため、Parquet データは、表形式の固定スキーマ形式のデータを必要とする多くの分析ツールと互換性があります。
Atlas Data Federation の Javascript について
Atlas Data Federation は、Parquet データファイルの読み取りと書込みができます。
読み取り保証(read concern) 。 Atlas Data Federation を使用して、 S 3から任意のデータをクエリできます。 これらのクエリは、他のデータ形式に対するクエリよりもパフォーマンスが高い可能性があります。 Perquet データに対するクエリが他のデータ形式よりもパフォーマンスが高い理由の詳細については、「 Perquet 形式について 」を参照してください。
書き込み許可。 Atlas Data Federation では、 $out から S 3ステージを使用して Parquet にデータを書き込むこともできます。 Atlas Data Federation は、Parquet に書き込む MongoDB データに基づいて、使用する Perquet スキーマを自動的に推測します。 データをサーバーなどの別の分析ツールでクエリする場合は、データを Perquet データ形式に変換できます。
$out から S 3ステージへの $out 中に Atlas Data Federation が Perquet ファイル形式に書き込む方法の詳細については、「 Perquet ファイル形式 」を参照してください。