Parquet

Parquet 형식 정보

Apache Parquet은 분석 워크로드에 널리 사용되는 무료 오픈 소스 파일 형식입니다. Parquet은 행이 아닌 열을 함께 저장합니다. 배열 및 중첩 문서와 같은 복잡한 데이터 구조를 지원하는 고정 스키마 형식입니다. 이러한 기능에는 다음과 같은 장점이 있습니다.

성능 쿼리. Parquet은 열 지향적이므로 Parquet 데이터에 대한 쿼리의 성능이 매우 뛰어날 수 있습니다. 예를 들어, 수천 개의 열 중 하나만 선택하는 쿼리는 각 행에서 원하는 값을 찾으려 하지 않고 Parquet 파일에서 해당 데이터를 즉시 추출할 수 있습니다.
효율적인 스토리지. Parquet은 열을 연속적으로 저장하므로 매우 효율적인 압축이 가능합니다. Parquet에서는 주어진 열의 값이 동일한 유형이어야 하며 열의 값이 일반적으로 다른 열의 값보다 더 유사해야 합니다. 이를 통해 더욱 다양한 인코딩 및 압축 체계가 가능해졌습니다.
분석 도구와의 호환성. Parquet 파일에는 고정된 스키마가 있어서, Parquet 데이터는 표 형식의 고정 스키마 형식 데이터를 요구하는 많은 분석 도구들과 호환됩니다.

Atlas Data Federation을 위한 Parquet 정보

Atlas Data Federation은 Parquet 데이터 파일에서 읽고 쓸 수 있습니다.

Parquet 읽기. S3에서 Atlas Data Federation을 사용하여 Parquet 데이터를 쿼리할 수 있습니다. 이러한 쿼리는 다른 데이터 형식의 쿼리보다 성능이 더 우수할 수 있습니다. Parquet 데이터에 대한 쿼리가 다른 데이터 형식보다 성능이 더 좋은 이유에 대해 자세히 알아보려면 Parquet 형식 정보를 참조하세요.
Parquet 쓰기. Atlas Data Federation을 사용하면 $out to S3 스테이지를 사용하여 Parquet에 데이터를 쓸 수도 있습니다. Atlas Data Federation은 Parquet에 쓰는 MongoDB 데이터를 기반으로 사용할 Parquet 스키마를 자동으로 추론합니다. 데이터 웨어하우스와 같은 다른 분석 도구로 해당 데이터를 쿼리하려는 경우 데이터를 Parquet 데이터 형식으로 변환할 수 있습니다.
Atlas Data Federation이 $out to S3 단계에서 Parquet 파일 형식에 쓰는 방법에 대해 자세히 알아보려면 Parquet 파일 형식을 참조하세요.

돌아가기

지원되는 데이터 형식

CSV 및 TSV