MongoDB Vector Search 概述

通过将MongoDB用作向量数据库，您可以使用MongoDB Vector Search 无缝搜索向量数据和其他MongoDB数据并为其索引。MongoDB Vector Search 使您能够根据数据的语义查询，将向量搜索与全文搜索相结合，并根据集合中的其他字段过滤查询，以便检索与您的使用案例最相关的结果。

使用MongoDB Vector Search，通过实施检索增强生成 (RAG)，为您的AI应用程序和代理系统提供支持。您还可以将MongoDB Vector Search与流行的AI框架和服务集成，以快速构建AI应用程序和代理。

开始使用MongoDB Vector Search

注意

MongoDB Vector Search 支持在运行MongoDB v6.0.11 的集群上进行 ANN搜索，v7.0.2 或更高版本，ENN在运行MongoDB v6.0.16 的集群上搜索v7.0.10,v7.3.2,或更高版本。

什么是向量搜索？

向量搜索是一种根据数据语义或潜在含义返回结果的搜索方法。与查找文本匹配的传统全文搜索不同，向量搜索可在多维空间中查找与搜索查询接近的向量。向量越接近您的查询，它们的含义就越相似。

通过解释搜索查询和数据的含义，向量搜索可让您考虑搜索者的意图和搜索上下文，以检索出更相关的结果。

例如，如果您搜索了词语“红色水果”，则全文搜索仅返回显式包含这些关键字的数据。但是，语义搜索可能会返回含义相似的数据，例如苹果或草莓等红色水果。

用例

MongoDB Vector Search 支持以下向量搜索使用案例：

语义搜索：使用 ANN 或 ENN 搜索算法，根据语义相似性查询向量嵌入。
要了解更多信息，请参阅如何执行语义搜索和运行向量搜索查询。
混合搜索：结合多个搜索查询的结果，包括向量搜索和全文搜索。如要了解更多信息，请参阅如何执行混合搜索。
生成式搜索：使用MongoDB Vector Search 通过实施检索增强生成 (RAG)来检索生成式AI应用程序的相关数据。
要学习；了解如何实现RAG，请参阅结合MongoDB Vector Search 的 RAG。要学习；了解如何使用向量搜索构建AI助手（包括实施代理 RAG），请参阅使用MongoDB构建AI助手。

AI 集成

您可以将MongoDB Vector Search 与任何AI提供商的嵌入和生成模型一起使用。MongoDB和合作伙伴还提供特定的产品集成，帮助您在AI支持的应用程序中利用MongoDB Vector Search。这些集成包括框架、平台和工具，启用您能够快速实现向量搜索、RAG 和AI代理。

要了解更多信息，请参阅 MongoDB AI 集成。

关键概念

向量

向量是一组数字，代表多个维度的数据。向量可以表示任何类型的数据，包括文本、图像、音频数据以及非结构化数据。通过测量向量之间的距离，可以确定语义相似性。

向量维数是指数组中元素的数量，因此它也指在其中绘制向量的向量空间内的维度数量。

具体来说， MongoDB Vector Search 使用密集向量，密集向量是一种高维向量，有利于较小的存储和丰富的语义。与稀疏向量不同，密集向量可以容纳更多数据，这使得MongoDB Vector Search 能够捕获更复杂的关系。

向量嵌入

向量嵌入是用于表示数据的向量。这些嵌入捕获数据中有意义的关系，并启用语义搜索和检索等任务。您可以通过将数据传递到嵌入模型来创建向量嵌入，并且可以将这些嵌入作为文档中的字段存储在MongoDB集合中。

MongoDB Vector Search 通过识别与查询向量距离最近的向量嵌入来确定语义相似度。

要了解更多信息，请参阅如何创建向量嵌入。

内嵌模型

嵌入模型是用于将数据转换为向量嵌入的算法。为此，嵌入模型使用 LLM（在大量数据上训练的机器学习模型）来生成捕获数据语义的向量嵌入。

您选择的嵌入模型决定了向量嵌入的维度。您必须将这些维度指定为MongoDB Vector Search索引中的字段。

嵌入模型因其训练方式而有所不同。因此，不同模型会根据您的数据和用例提供不同的优势。要了解更多信息，请参阅选择嵌入式模型。要获得最先进的嵌入模型，请使用 Voyage AI。

MongoDB Vector Search 索引

要对MongoDB中的数据执行向量搜索，必须创建MongoDB 向量搜索索引。MongoDB Vector Search 搜索索引与其他数据库索引分开，用于在查询时高效地检索包含向量嵌入的文档。在MongoDB Vector Search索引定义中，您可以对集合中包含嵌入的字段索引，以启用针对这些字段的向量搜索。MongoDB Vector Search 支持长度小于和等于 8192 维的嵌入。

您还可以对集合中要运行MongoDB Vector Search 查询的其他字段建立索引，以对数据进行预过滤。您可以过滤布尔值、日期、ObjectId、数值、字符串和 UUID 值，包括这些类型的数组。筛选数据可缩小搜索范围，并确保某些向量嵌入不会被考虑进行比较。

要学习；了解如何为MongoDB Vector Search 建立字段索引，请参阅如何为 Vector Search 建立字段索引。

MongoDB Vector Search 查询

MongoDB Vector Search 支持使用“分层可导航小世界”算法进行的近似最近邻 (ANN)搜索和精确最近邻 (ENN)搜索。

为了找到最相似的向量， MongoDB Vector Search 执行ANN搜索而无需扫描每个向量嵌入，并对所有索引的向量嵌入执行详尽的ENN搜索。要学习；了解更多信息，请参阅 vectorSearch 定义。

MongoDB Vector Search 查询由聚合管道阶段组成，其中$vectorSearch阶段是管道中的第一个阶段。基本MongoDB Vector Search查询的进程如下：

您选择 ANN 或 ENN 搜索，并指定查询向量，后者是表示搜索查询的向量嵌入。
MongoDB Vector Search 查找数据中与查询向量最接近的向量嵌入。
MongoDB Vector Search 返回包含最相似向量的文档。

要自定义向量搜索查询，您可以使用 MQL 匹配表达式和受支持的查询或聚合操作符来预先过滤已建立索引的字段数据，也可以添加额外的聚合阶段来进一步处理和组织结果。

要学习；了解如何创建和运行MongoDB Vector Search 查询，请参阅运行 Vector Search 查询。

后续步骤

要亲身体验创建MongoDB Vector Search 索引和对示例数据运行MongoDB Vector Search 查询，请尝试MongoDB University上的MongoDB Vector Search 课程以及以下页面中的教程：

为了获得最佳性能，我们建议部署单独的搜索节点，以便隔离工作负载。搜索节点支持并发查询执行，以减少单个查询延迟。要了解详情，请参阅查看部署选项。

注意