Parquet
关于 Parquet 格式
Apache Parquet 是一种免费的开源文件格式,适用于分析工作负载。Parquet 将列存储在一起,而不是将行存储在一起。它是一种固定模式格式,支持复杂的数据结构,例如数组和嵌套文档。这些功能具有以下优点:
性能查询。Parquet 是面向列的,因此对 Parquet 数据的查询性能非常好。例如,仅选择数千列中的一列的查询可以立即从 Parquet 文件中提取该数据,而不必尝试在每行中找到所需的值。
高效存储。Parquet 连续存储列,可实现非常高效的压缩。Parquet 要求给定列中的值必须具有相同的类型,并且一列中的值通常比其他列中的值更加相似。这使得更广泛的编码和压缩模式成为可能。
与分析工具的兼容性。Parquet 文件具有固定的模式,因此 Parquet 数据与许多需要表格、固定模式格式数据的分析工具兼容。
关于 Parquet for Atlas Data Federation
Atlas Data Federation 可以读取和写入 Parquet 数据文件。
读取 Parquet。您可以使用 Atlas Data Federation 从 S3 查询 Parquet 数据。这些查询可能比其他数据格式的查询性能更高。要详细了解 Parquet 数据查询可能比其他数据格式更高效的原因,请参阅关于 Parquet 格式。
写入 Parquet。Atlas Data Federation 还支持使用 $out to S3 阶段将数据写入 Parquet。Atlas Data Federation 根据写入 Parquet 的 MongoDB 数据自动推断要使用的 Parquet 模式。如果想使用其他分析工具(例如数据仓库)查询数据,可以将数据转换为 Parquet 数据格式。
要了解关于 Atlas Data Federation 在 $out to S3 阶段如何写入 Parquet 文件格式的更多信息,请参阅 Parquet 文件格式。