대용량 파일 저장

이 페이지의 내용

개요

GridFS 작동 방식
GridFS 버킷 만들기
파일 업로드
파일 정보 검색
파일 다운로드
파일 이름 바꾸기
파일 삭제
API 문서

개요

이 가이드에서는 GridFS 를 사용하여 MongoDB에 대용량 파일을 저장하고 검색하는 방법을 배울 수 있습니다. GridFS는 파일을 저장할 때 청크로 분할하고 검색할 때 다시 조립하는 방법을 설명하는 PyMongo에서 구현한 사양입니다. 드라이버의 GridFS 구현은 파일 스토리지의 운영 및 조직을 관리하는 추상화입니다.

파일 크기가 BSON 문서 크기 제한인 16MB를 초과하는 경우 GridFS를 사용해야 합니다. GridFS가 사용 사례에 적합한지 여부에 대한 자세한 내용은 MongoDB Server 매뉴얼에서 GridFS 를 참조하세요.

다음 섹션에서는 GridFS 작업과 이를 수행하는 방법을 설명합니다.

GridFS 작동 방식

GridFS는 파일 청크와 파일을 설명하는 정보가 들어 있는 MongoDB 컬렉션 그룹인 버킷에 파일을 구성합니다. 버킷에는 GridFS 사양에 정의된 규칙을 사용하여 명명된 다음 컬렉션이 포함되어 있습니다.

chunks 컬렉션은 바이너리 파일 청크를 저장합니다.
files 0} 컬렉션에 파일 메타데이터가 저장됩니다.

새 GridFS 버킷을 생성하면 드라이버는 다른 이름을 지정하지 않는 한 기본 버킷 이름 fs 접두사 앞에 앞의 컬렉션을 생성합니다. 또한 드라이버는 파일 및 관련 메타데이터를 효율적으로 검색할 수 있도록 각 컬렉션에 인덱스를 생성합니다. 드라이버는 GridFS 버킷을 생성하며, 버킷이 존재하지 않는 경우 첫 번째 쓰기 작업이 수행될 때만 생성합니다. 드라이버는 인덱스가 존재하지 않고 버킷이 비어 있는 경우에만 인덱스를 생성합니다. GridFS 인덱스에 대한 자세한 내용은 MongoDB Server 매뉴얼에서 GridFS 인덱스 를 참조하세요.

GridFS로 파일을 저장할 때 드라이버는 파일을 작은 청크로 분할하며, 각각의 청크는 chunks 컬렉션에서 별도의 문서로 표시됩니다. 또한 files 컬렉션에 파일 ID, 파일 이름 및 기타 파일 메타데이터가 포함된 문서를 만듭니다. 메모리 또는 스트림에서 파일을 업로드할 수 있습니다. 버킷에 업로드할 때 GridFS가 파일을 분할하는 방법을 보려면 다음 다이어그램을 참조하세요.

GridFS가 파일을 버킷에 업로드하는 방법을 보여주는 다이어그램입니다.

파일을 검색할 때 GridFS는 지정된 버킷의 files 컬렉션에서 메타데이터를 가져와서 이 정보를 사용하여 chunks 컬렉션의 문서에서 파일을 재구성합니다. 파일을 메모리로 읽거나 스트림으로 출력할 수 있습니다.

GridFS 버킷 만들기

GridFS에서 파일을 저장하거나 검색하려면 GridFSBucket() 생성자를 호출하고 Database 인스턴스를 전달하여 GridFS 버킷을 만듭니다. GridFSBucket 인스턴스를 사용하여 버킷의 파일에 대한 읽기 및 쓰기 작업을 호출할 수 있습니다.

client = MongoClient("<connection string>")
db = client["db"]
bucket = gridfs.GridFSBucket(db)

기본 이름 fs 이외의 사용자 지정 이름으로 버킷을 만들거나 참조하려면 아래와 같이 버킷 이름을 GridFSBucket() 생성자에 두 번째 매개 변수로 전달합니다.

custom_bucket = gridfs.GridFSBucket(db, bucket_name="myCustomBucket")

파일 업로드

GridFSBucket 클래스의 open_upload_stream() 메서드를 사용하여 지정된 파일 이름에 대한 업로드 스트림을 만듭니다. open_upload_stream() 메서드를 사용하면 파일 청크 크기 및 메타데이터로 저장할 기타 필드/값 쌍과 같은 구성 정보를 지정할 수 있습니다. 다음 코드 예제와 같이 이러한 옵션을 open_upload_stream() 의 매개 변수로 설정합니다.

with bucket.open_upload_stream(
    "my_file", chunk_size_bytes=1048576, metadata={"contentType": "text/plain"}
) as grid_in:
    grid_in.write("data to store")

파일 정보 검색

이 섹션에서는 GridFS 버킷의 files 컬렉션에 저장된 파일 메타데이터를 검색하는 방법을 알아볼 수 있습니다. 메타데이터에는 다음을 포함하여 참조하는 파일에 대한 정보가 포함됩니다.

파일의 _id입니다.
파일 이름
파일의 길이/크기
업로드 날짜 및 시간
다른 정보를 저장할 수 있는 metadata 문서입니다.

GridFS 버킷에서 파일을 조회 하려면 GridFSBucket 인스턴스 에서 find() 메서드를 호출합니다. 이 메서드는 결과에 액세스 할 수 있는 Cursor 인스턴스 를 반환합니다. PyMongo 의 Cursor 객체에 학습 보려면 커서에서 데이터 액세스를 참조하세요.

다음 코드 예시는 GridFS 버킷의 모든 파일에서 파일 메타데이터를 검색하고 인쇄하는 방법을 보여줍니다. for...in 구문을 사용하여 Cursor 이터러블을 트래버스하고 결과를 표시합니다.

for file_doc in bucket.find({}):
    print(file_doc)

find() 메서드는 다양한 쿼리 사양을 허용합니다. 매개변수를 사용하여 정렬 순서, 반환할 최대 문서 수, 반환하기 전에 건너뛸 문서 수를 지정할 수 있습니다. MongoDB 쿼리에 대해 자세히 알아보려면 데이터 조회를 참조하세요.

파일 다운로드

GridFSBucket에서 open_download_stream_by_name() 메서드를 사용하여 다운로드 스트림을 생성하면 MongoDB 데이터베이스에서 파일을 다운로드할 수 있습니다.

다음 예시 에서는 파일 이름 "my_file" 으로 참조되는 파일 을 다운로드 하고 내용을 읽는 방법을 보여 줍니다.

file = bucket.open_download_stream_by_name("my_file")
contents = file.read()

참고

동일한 filename 값을 가진 문서가 여러 개 있는 경우 GridFS는 지정된 이름(uploadDate 필드에 의해 결정됨)의 가장 최근 파일을 스트리밍합니다.

또는 파일의 _id 필드를 매개변수로 사용하는 open_download_stream() 메서드를 사용할 수 있습니다.

file = bucket.open_download_stream(ObjectId("66b3c86e672a17b6c8a4a4a9"))
contents = file.read()

참고

GridFS 스트리밍 API는 부분 청크를 로드할 수 없습니다. 다운로드 스트림은 MongoDB에서 청크를 가져와야 할 때 전체 청크를 메모리로 가져옵니다. 일반적으로 255킬로바이트의 기본 청크 크기로 충분하지만 청크 크기를 줄여 메모리 오버헤드를 줄일 수 있습니다.

파일 이름 바꾸기

rename() 메서드를 사용하여 버킷에 있는 GridFS 파일의 이름을 업데이트합니다. 파일 이름이 아닌 _id 필드로 이름을 바꾸도록 파일을 지정해야 합니다.

다음 예에서는 문서의 _id 필드를 참조하여 filename 필드를 "new_file_name" 로 업데이트하는 방법을 보여 줍니다.

bucket.rename(ObjectId("66b3c86e672a17b6c8a4a4a9"), "new_file_name")

참고

rename() 메서드는 한 번에 하나의 파일 이름 업데이트만 지원합니다. 여러 파일의 이름을 바꾸려면 버킷에서 파일 이름과 일치하는 파일 목록을 검색하고, 이름을 바꾸려는 파일에서 _id 필드를 추출한 다음 rename() 메서드에 각 값을 개별적으로 호출하여 전달합니다.

파일 삭제

버킷에서 파일의 컬렉션 문서와 관련 청크를 제거하려면 delete() 메서드를 사용합니다. 이렇게 하면 파일이 효과적으로 삭제됩니다. 파일 이름이 아닌 _id 필드로 파일을 지정해야 합니다.

다음 예시에서는 _id 필드를 참고하여 파일을 삭제하는 방법을 보여 줍니다.

bucket.delete(ObjectId("66b3c86e672a17b6c8a4a4a9"))

참고

delete() 메서드는 한 번에 하나의 파일 삭제만 지원합니다. 여러 파일을 삭제하려면 버킷에서 파일을 검색하고 삭제하려는 파일에서 _id 필드를 추출한 다음 delete() 메서드에 각 값을 개별적으로 호출하여 전달합니다.

API 문서

PyMongo를 사용하여 대용량 파일을 저장하고 검색하는 방법에 대해 자세히 알아보려면 다음 API 설명서를 참조하세요.

돌아가기

대량 쓰기 작업

트랜잭션