利用 MongoDB Atlas 和大型语言模型实现从 0 到 1 的企业级支持

David Macias

通过生成式 AI 密集型应用程序为您的客户打造引人入胜、真正的差异化体验意味着人工智能的实现要以事实为基础。这个事实来自您的数据,更具体地说,是您最新的运营数据。无论您通过高级语义搜索提供超个性化体验,还是生成用户提示的内容和对话,MongoDB Atlas 通过统一操作、分析和矢量搜索数据服务,简化了将大型语言模型和转换器模型的功能嵌入到您的应用的过程。

每天,开发者都在构建下一个突破性、变革性的生成式 AI 驱动的应用程序。商用和开源大型语言模型正在以惊人的速度发展。围绕它们构建的框架和工具丰富多样,实现了创新大众化。然而,将这些应用程序从原型转变为企业级支持是开发团队必须跨越的鸿沟。首先,这些大型模型可能会提供不正确或不知情的回答,因为它们访问的数据已过时。有两种选择可以解决不知情的回答 — 微调大型模型或为其提供长期记忆。然而,这样做会带来又一阻碍 — 围绕已知情大型语言模型部署应用程序需要采取适当的安全控制措施,并且达到用户期望的规模和性能水平。

开发者需要一个数据模型灵活的数据平台,以适应不断变化的非结构化和结构化数据,为大型模型提供信息,而不受严格模式的阻碍。虽然微调模型是一种选择,但就时间和计算资源而言,这是一种成本高昂的选择。这意味着开发者需要能够将数据作为大型模型的上下文呈现,以成为提示的一部分。他们需要赋予这些生成式模型长期记忆。我们将在以下部分提供几个示例,以讨论如何使用各种大型语言模型和生成式 AI 框架实现这一目标。

查看我们的 AI 资源页面,了解有关使用 MongoDB 构建 AI 驱动的应用的更多信息。

开始使用 MongoDB Atlas 和大型语言模型的五个资源

MongoDB Atlas 可以无缝集成领先的生成式 AI 服务和系统,例如超大规模服务提供商以及开源大型语言模型和框架。通过 Atlas 数据库和 Atlas Vector Search(预览版)将文档和矢量嵌入数据存储到一处,开发者可以加速构建基于真实运营数据的生成式 AI 密集型应用程序。以下是如何使用常用 LLM 框架和 MongoDB 的示例:

1. 开始使用 Atlas Vector Search(预览版)和 OpenAI 进行语义搜索

本教程将引导您完成使用 MongoDB Atlas 对示例电影数据集执行语义搜索的步骤。首先,您将设置一个 Atlas Trigger,以便在将新文档插入集群时调用 OpenAI API,从而将其转换为矢量嵌入。然后,您将使用 Atlas Vector Search 执行矢量搜索查询。甚至还有一个利用 HuggingFace 模型的特殊奖励部分。阅读教程

2. 使用 Llamalndex 和 MongoDB 构建拥有专有数据的生成式 AI 密集型聊天应用

LlamaIndex 提供了一个简单、灵活的接口将大型语言模型与外部数据连接起来。这篇由 LlamaIndex 和 MongoDB 联合撰写的博客更详细地介绍了为何以及如何构建自己的聊天应用。博客中随附的笔记本提供如何使用英语查询来查询任何 PDF 文档的代码演示。阅读博客

3. 参阅文档了解如何使用 Atlas Vector Search(预览版)作为 LangChain 的矢量存储

正如合作公告的博文中所述,LangChain 和 MongoDB Atlas 是“天生一对”,更是得到了有机社区的热情响应,进而在 LangChain 中实现了与 MongoDB 的多次集成。除了现在支持 Atlas Vector Search 作为矢量存储之外,还支持将 MongoDB 用作聊天日志历史记录。阅读文档:pythonjavascript

4. 使用 MindsDB AI Collections 直接在 MongoDB Atlas 中生成预测

MindsDB 是一个开源机器学习平台,旨在将自动化机器学习引入数据库。在本篇博客中,您将使用 MindsDB AI Collections 直接在 Atlas 中生成预测,以便能够将预测作为常规数据使用、查询这些预测,并通过简化部署工作流程来加快开发速度。阅读博客

5. 使用 Atlas Triggers 将 HuggingFace 转换器模型集成至 MongoDB Atlas

HuggingFace 是一个 AI 社区,可以轻松构建、训练和部署机器学习模型。利用 Atlas Triggers 和 HuggingFace,您可以轻松对运营数据的变化做出响应,为您的模型提供长期记忆。了解如何设置触发器来自动预测 MongoDB 数据库中新文档的情感并将其作为附加字段添加到文档中。请参阅 GitHub Repo

图 1:示例应用架构显示外部或专有数据如何为 LLM 提供长期记忆,以及数据如何从用户的输入流向 LLM 支持的响应。

使用 MongoDB 构建从原型到生产的生成式 AI 密集型应用程序

MongoDB 基于 Atlas 构建的开发者数据平台提供了现代化、优化的开发者体验,同时也经过了全球数千家企业的实战测试,进而实现规模化和安全性。

无论您是在初创公司还是企业中打造下一个重大项目,Atlas 都能助力您:

  • 加速构建基于真实运营数据的生成式 AI 密集型应用程序。

  • 利用单一平台简化您的应用架构,该平台允许他们将应用和矢量数据存储在同一位置,使用无服务功能对源数据的变化做出响应,并在多个数据模态之间进行搜索,以提高应用生成的响应的相关性和准确性。

  • 借助文档模型的灵活性,轻松改进您的生成式 AI 密集型应用程序,同时保持简洁、优雅的开发者体验。

  • 无缝集成领先的 AI 服务和系统,例如超大规模服务提供商以及开源大型语言模型和框架,以在动态市场中保持竞争力。

  • 在高性能、高度可扩展的操作数据库上构建生成式 AI 密集型应用程序,该数据库已经在各种 AI 使用案例中经过十年的验证。

虽然这些示例是更具创新性的构建基块,MongoDB 仍可以助力您实现从概念到生产再到规模化的转变。立即注册 MongoDB Atlas 的免费套餐,并与您的首选框架和大型语言模型集成。如果您有兴趣与我们更密切地合作,请查看我们的 MongoDB AI 创新者计划,该计划致力于为人工智能创新提供支持并展示初创企业、客户和合作伙伴的领先解决方案。