数字化本应解决存档问题。扫描页面,运行光学字符识别 (OCR),启用关键字搜索——已完成。然而,几十年和数百万美元之后,大多数报纸存档仍然基本上无法用于严肃的研究。
以美国一家主要报纸为例,每期印刷版均已扫描并提供给订阅者。对于寻找历史商品价格趋势的研究人员来说,数字化几乎没有改变任何事情,他们仍然在手动翻动数千个版本。瓶颈不在于保存,而在于检索。
不出所料,OCR 识别使用有百年历史的新闻纸会遭遇困境:纸张老化、字体异常、版面复杂。但更深层的问题是 OCR 从未被设计来处理:嵌入在图表、图形和数据可视化中的含义。这些视觉工件(通常是最具分析价值的内容)对搜索系统仍然完全不可见。
世界各地的博物馆和档案馆都报告了类似的模式。一家机构通过平板扫描仪、专用支架和详尽的质量保证流程,实现了近乎完美的 OCR 准确性。然而,根本问题依然存在:关键词搜索无法提供纵向分析、趋势识别或跨年代比较研究所需的丰富语义。
Multimodal AI 突破
从 OCR-plus-search 到 multimodal vector embeddings 的转变代表一些比提高准确性更根本的东西。这是一种对“searchable”含义的不同 model。
voyage-multimodal-3.5(上周发布了!)直接解释来自扫描的 text 和图像,将整个页面映射到密集的语义向量中。例如,voyage-multimodal-3.5 能有效地矢量化 multimodal 数据,以最佳方式捕捉表格、图形、图表、幻灯片、PDF 等的关键语义功能。这样就可以按含义、上下文或视觉概念进行查询,而不仅仅是按精确的关键词匹配。至关重要的是,这些 model 能够理解可视化统计图表的语义内容,即使在没有解释性 texts 的情况下,也能为“1970 年代的通货膨胀趋势”等查询浮现出经济图表。
其影响不仅限于检索。存档首次成为可以实际分析的 datasets。研究人员可以衡量对核能的报道如何从政治辩论转变为科学共识,并准确地确定这些转变是首先出现在社论还是调查专题中。他们可以追踪经济图表的使用如何逐十年变化,或追踪可再生能源如何从边缘提及跃升为头条新闻。
不仅仅是更出色的搜索。这就是静态收集和研究基础架构之间的区别。
大规模语义搜索
MongoDB Atlas Vector Search 与 Voyage AI 的 multimodal-3 model,使传统关键词搜索无法回答的研究问题能够。研究人员可以发现该主题的视觉和文本处理如何经过数十年演变,而非寻找“可再生能源”的具体来源。他们可以将头版覆盖与编辑评论进行比较,追踪数据可视化的引入,并识别框架的变化。
图 1. 历史存档搜索参考架构。

架构遵循简单明了的工作流程,如图 1 所示。历史报刊档案(作为原始内容存储在 CDN 或文件系统中)通过 Voyage AI 的最新 multimodal model 进行处理,该 model 从 text 和图像生成 1024-dimensional vector embeddings。MongoDB 将这些嵌入与元数据一起存储在统一的文档模型中,消除了独立向量存储同步的复杂性。
当研究人员查询“1970年代–1990年代的公共交通辩论”时,系统使用相同的 voyage-multimodal-3.5 model 将该查询处理成语义向量。MongoDB 的矢量搜索会将此查询向量与数百万个存档嵌入进行比较,根据高维空间中的概念相似性(而不是关键字匹配)检索相关文章、图表和图像。返回的结果按语义相关性排序,即使确切的术语不同,也能显示具有相同含义的内容。
最终阶段使能够聚合和探索:研究人员可以分析随时间变化的频率模式,按发布日期或部分类型对结果进行分段,并从排名结果中构建统计可视化。MongoDB 的聚合框架可以帮助处理这个分析层,实施起来简单直观,在检索到的数据上增加增量价值方面功能强大。
MongoDB 的专用搜索节点提供工作负载隔离,可以独立于操作数据库负载扩展向量搜索基础架构。当存在结构化元数据(如发布日期、版块标签或其他编目属性)时,MongoDB 的混合搜索将语义相似性与传统过滤器结合到单个查询中,在不牺牲语义能力的情况下提炼结果。
IT 领导者路线图
先从 10,000 到 20,000 页的试点收集开始是合理的,但选择标准比数量更重要。集合应涵盖多种内容类型:文章、广告、图表、信息图表,可能还包括视频。目标是验证 multimodal 模型和向量搜索是否可以通过语义查询准确地呈现文本和视觉内容。
值得追踪的成功指标:所有 Content-Type 的检索召回率超过 90%,人工费用降低,研究工作流程加速,存档互动和参与度显著提高。通过 API 许可和视觉资产的货币化获得的收入机会是次要指标,它们依赖于首先证明研究价值。
战略问题不在于是否要实现档案现代化。问题是您的组织是将存档视为需要保留的静态收集,还是可以产生持续价值的动态知识系统。multimodal AI 和向量搜索使能够后者,但前提是周围的基础设施支持分析工作流程,而不仅仅是检索。
这不是渐进式改进。这是数字化档案功能的范畴转变。
未来
访问媒体和娱乐网页,了解更多有关 MongoDB 在媒体行业中的作用。
阅读 Voyage-multimodal-3 博客,了解 Voyage AI 如何为文本、图像和屏幕截图提供嵌入功能。
探索 MongoDB Solutions Library,助您发现最佳实践、现成模板和专家指导,助力构建强大应用。
通过这些客户成功案例,了解公司如何利用 MongoDB 进行创新。