EventJoin us at AWS re:Invent 2024! Learn how to use MongoDB for AI use cases. Learn more >>

连接器

MongoDB Connector for Apache Spark

立即下载

立即获取洞察

我们生活在“大数据”的世界。但是有价值的不仅仅是数据本身,而是数据能够带来的见解。迅速获取这些见解并采取行动的能力已经成为一个重要的竞争优势。在操作系统中收集数据,然后依靠每晚的批量提取、转换、加载 (ETL) 流程来升级企业数据仓库 (EDW),这样的做法已经不够用了。

递增条形图和火箭船示意图
概述基于 Apache Spark Connector 的分析应用程序的示意图

释放 Apache Spark 的强大效能

MongoDB Connector for Apache Spark 展现 Spark 所有的库,包括 Scala 库、Java 库、Python 库和 R 库。MongoDB 数据通过机器学习、图形、流式传输和 SQL API 以数据框和数据集的形式呈现,用于分析。

利用 MongoDB 的强大功能

MongoDB Connector for Apache Spark 可以利用 MongoDB 的 聚合分析管道和丰富的辅助索引来仅提取、过滤和处理所需的数据,例如,分析位于特定地理区域的所有客户。传统的 NoSQL 数据存储不提供辅助索引或数据库内聚合。Spark 需要根据一个简单的主键提取所有数据,即使 Spark 流程需要的只是这些数据的一个子集。MongoDB Connector for Apache Spark 将弹性分布式数据集 (RDD) 与 MongoDB 源节点放置在同一位置,从而最大程度减少集群内数据转移以及缩短延时。
包含数据流的聚合分析管道示意图

MongoDB 和 Apache Spark:服务于当今的数据科学团队

虽然 MongoDB 原生地提供丰富的实时分析功能,但是在某些使用案例中,集成 Apache Spark 引擎可以拓展对 MongoDB 管理的操作型数据的管理。这样一来,用户就能将 MongoDB 支持的实时业务流程内由 Spark 生成的结果操作化。

后续步骤

准备好开始了吗?

获取 MongoDB Connector for Apache Spark。
立即试用联系销售团队
Database illustration