Multimodal AI로 기록 보관소의 가치 활용

2026년 1월 20일 ・ 3 min read

디지털화를 통해 보관 문제를 해결할 수 있을 거라 생각했었습니다. 페이지를 스캔하고, 광학 문자 인식(OCR)을 실행한 다음, 키워드 검색을 활성화하면 끝입니다. 하지만 수십 년의 시간과 수백만 달러의 자금이 투자된 지금까지도 대부분의 신문 보관소는 진지한 연구에 사용할 수 없는 상태로 남아 있습니다.

모든 인쇄판을 스캔하여 구독자에게 제공하는 미국의 주요 신문을 생각해 보겠습니다. 과거 원자재 가격 추세를 찾는 연구자는 여전히 수천 권의 에디션을 일일이 살펴봐야 하고, 디지털화로 인해 달라진 것이 거의 없습니다. 병목 현상은 보존이 아니라 검색에서 발생합니다.

품질이 저하된 종이, 특이한 서체, 복잡한 레이아웃 등의 특성으로 인해 100년 된 신문 인쇄물에서는 OCR이 제대로 기능을 수행하지 못합니다. 그러나 더 큰 문제는 OCR이 차트, 그래프, 데이터 시각화에 내재된 의미를 처리하도록 설계되지 않았다는 점입니다. 분석적으로 가장 가치 있는 콘텐츠인 이러한 시각적 자료는 검색 시스템에 전혀 노출되지 않습니다.

전 세계 박물관과 기록 보관소도 비슷한 패턴을 보고합니다. 한 기관은 평판 스캐너, 특수 크래들, 철저한 QA 프로세스를 통해 거의 완벽에 가까운 OCR 정확도를 달성했습니다. 하지만 수십 년에 걸친 종단적 분석, 트렌드 파악, 비교 연구에 필요한 풍부한 시맨틱을 키워드 검색으로 불러올 수 없다는 근본적인 문제는 여전히 남아 있습니다.

multimodal AI 혁신

OCR+검색에서 multimodal vector 임베딩으로의 전환은 정확도 향상보다 더 근본적인 변화를 의미합니다. '검색 가능'이 의미하는 것과는 다른 모델입니다.

voyage-multimodal-3.5(지난주 출시)은 스캔에서 직접 텍스트와 이미지를 해석하여 전체 페이지를 고밀도 시맨틱 벡터로 매핑합니다. 예시로 voyage-multimodal-3.5는 multimodal 데이터를 효과적으로 벡터화하여 표, 그래픽, 그림, 슬라이드, PDF 등의 주요 시맨틱 기능을 가장 잘 포착합니다. 이를 통해 키워드 일치뿐만 아니라 의미, 컨텍스트, 시각적 개념을 기준으로 쿼리를 수행할 수 있습니다. 특히 중요한 점은, 이 모델이 통계 시각화 자료의 시맨틱 내용을 이해하여 설명 텍스트가 없는 경우에도 '1970년대 인플레이션 동향'과 같은 쿼리에 대해 경제 차트를 검색해낸다는 것입니다.

의미가 검색을 넘어서 확장됩니다. 보관소가 처음으로 실제로 분석할 수 있는 데이터 세트가 되었습니다. 연구자들은 원자력 에너지에 대한 보도가 정치적 논쟁에서 과학적 합의로 어떻게 진화했는지 측정하고, 이러한 변화가 사설에서 먼저 나타났는지 아니면 조사 기능에서 먼저 나타났는지 정확히 파악할 수 있습니다. 경제 차트 사용이 10년 단위로 어떻게 변화했는지, 또는 재생 에너지가 주변부에 머물다가 1면의 주요 관심사로 이동한 과정을 추적할 수 있습니다.

단순히 더 나은 검색이 아닙니다. 정적 컬렉션과 연구 인프라의 차이입니다.

대규모 시맨틱 검색

Voyage AI의 multimodal-3 모델을 사용한 MongoDB Atlas Vector Search는 기존 키워드 검색으로는 답할 수 없는 연구 질문에도 응답합니다. 연구자들은 '재생 에너지'가 어디에 나타나는지 찾는 대신, 주제의 시각적 및 텍스트적 표현이 수십 년에 걸쳐 어떻게 진화했는지 발견할 수 있습니다. 1면 보도와 사설 논평을 비교하고, 데이터 시각화 도입을 추적하며, 프레임의 변화를 식별할 수 있습니다.

그림 1. 참고 보관소 검색 참고 아키텍처

기록 보관소 시맨틱 검색을 위한 워크플로를 보여주는 참고 아키텍처 다이어그램

아키텍처는 그림 1과 같이 직관적인 작업 흐름을 따릅니다. CDN 또는 파일 시스템에 원본 콘텐츠로 저장된 과거 신문 보관소는 Voyage AI의 최신 multimodal 모델을 통해 처리되며, 텍스트와 이미지 모두에서 1024차원 벡터 임베딩을 생성합니다. MongoDB는 이러한 임베딩과 메타데이터를 통합된 문서 모델에 저장하여 개별 벡터 저장소의 동기화 복잡성을 제거합니다.

연구자가 '1970년대～1990년대의 대중교통 논쟁'을 쿼리하면, 시스템은 동일한 voyage-multimodal-3.5 모델을 사용하여 해당 질문을 시맨틱 벡터로 처리합니다. MongoDB의 벡터 검색은 이 쿼리 벡터를 수백만 개의 아카이브된 임베딩과 비교하여 키워드 일치가 아닌 고차원 공간에서의 개념적 유사성을 기반으로 관련 기사, 차트 및 이미지를 검색합니다. 검색 결과는 시맨틱 관련성을 기준으로 순위가 매겨지며, 정확한 텀이 다르더라도 의미를 공유하는 콘텐츠를 보여줍니다.

마지막 단계에서는 집계 및 탐색이 가능합니다. 연구자들은 시간에 따른 빈도 패턴을 분석하고, 발행 날짜나 섹션 유형별로 결과를 분류하며, 순위가 매겨진 결과로부터 통계 시각화 자료를 구축할 수 있습니다. MongoDB의 집계 프레임워크는 구현이 쉽고 직관적이며, 검색된 데이터에 점진적인 가치를 추가하는 데 강력한 성능을 발휘하므로 이 분석 레이어를 처리하는 데 도움이 됩니다.

MongoDB의 전용 검색 노드는 워크로드 격리를 제공하고 운영 데이터베이스 로드와 독립적으로 벡터 검색 인프라를 확장합니다. 발행 날짜, 섹션 레이블 또는 기타 카탈로그화된 속성 등 구조화된 메타데이터가 존재하는 경우, MongoDB의 하이브리드 검색은 단일 쿼리에서 시맨틱 유사도와 기존 필터를 결합하여 시맨틱 검색 능력을 저하시키지 않으면서 결과를 정교하게 다듬습니다.

IT 리더 로드맵

10,000～20,000페이지의 파일럿 컬렉션으로 시작하는 것이 합리적이지만, 양보다 더 중요한 것은 선택 기준입니다. 컬렉션은 기사, 광고, 차트, 인포그래픽, 동영상 등 다양한 콘텐츠 유형으로 확장되어야 합니다. multimodal model과 벡터 검색이 시맨틱 쿼리를 통해 텍스트와 시각적 콘텐츠를 모두 정확하게 표시할 수 있는지 여부를 검증하는 것이 목표입니다.

추적해야 할 성공 지표: Content-Type 전반에서 90% 이상의 검색 재현율, 수동 노동 비용 감소, 연구 워크플로 가속화, 보관 참여도의 측정 가능한 증가. API 라이선싱을 통한 수익 기회와 시각적 자산 수익화는 세컨더리 지표이며,먼저 연구 가치를 입증해야 합니다.

전략적 문제는 보관소를 현대화할지 여부가 아닙니다. 조직에서 보관소를 보존해야 할 정적인 컬렉션으로 보는지 아니면 지속적인 가치를 창출할 수 있는 동적 지식 시스템으로 보느냐가 관건입니다. multimodal AI 및 벡터 검색은 후자를 활성화하지만, 주변 인프라가 검색뿐만 아니라 분석 워크플로우를 지원하는 경우에만 가능합니다.

이는 점진적인 개선이 아닙니다. 이는 디지털화된 아카이브가 할 수 있는 일에 대한 개념 자체의 변화를 의미합니다.

다음 단계

미디어 및 엔터테인먼트 웹 페이지를 방문하여 미디어 산업에서 MongoDB의 역할에 대해 자세히 알아보세요.

Voyage-Multimodal-3 블로그를 읽고 Voyage AI로 텍스트, 이미지 및 스크린샷을 임베딩하는 방법을 알아보세요.

MongoDB Solutions Library에서 강력한 애플리케이션을 구축하기 위한 권장사항, 바로 사용할 수 있는 템플릿 및 전문가 지침을 확인하세요.

고객 성공 사례를 통해 기업이 MongoDB를 통해 어떤 혁신을 이루었는지 알아보세요.

MongoDB 리소스

Atlas 학습 허브|고객 성공 사례|AI 학습 허브|문서|MongoDB University