连接器

MongoDB Connector for Apache Spark

将业内领先的数据处理引擎 Apache Spark 与业内发展最迅速的数据平台 MongoDB 结合,构建新型的复杂的实时分析。MongoDB Connector for Apache Spark 正式发布版现已推出并已通过认证,支持用于当今的生产环境。

立即获取洞察

我们生活在“大数据”的世界。但是有价值的不仅仅是数据本身,而是数据能够带来的见解。迅速获取这些见解并采取行动的能力已经成为一个重要的竞争优势。在操作系统中收集数据,然后依靠每晚的批量提取、转换、加载 (ETL) 流程来升级企业数据仓库 (EDW),这样的做法已经不够用了。

递增条形图和火箭船示意图
概述基于 Apache Spark Connector 的分析应用程序的示意图

释放 Apache Spark 的强大效能

MongoDB Connector for Apache Spark 展现 Spark 所有的库,包括 Scala 库、Java 库、Python 库和 R 库。MongoDB 数据通过机器学习、图形、流式传输和 SQL API 以数据框和数据集的形式呈现,用于分析。

利用 MongoDB 的强大功能

MongoDB Connector for Apache Spark 可以利用 MongoDB 的 聚合分析管道和丰富的辅助索引来仅提取、过滤和处理所需的数据,例如,分析位于特定地理区域的所有客户。传统的 NoSQL 数据存储不提供辅助索引或数据库内聚合。Spark 需要根据一个简单的主键提取所有数据,即使 Spark 流程需要的只是这些数据的一个子集。MongoDB Connector for Apache Spark 将弹性分布式数据集 (RDD) 与 MongoDB 源节点放置在同一位置,从而最大程度减少集群内数据转移以及缩短延时。
包含数据流的聚合分析管道示意图

MongoDB 和 Apache Spark:服务于当今的数据科学团队

虽然 MongoDB 原生地提供丰富的实时分析功能,但是在某些使用案例中,集成 Apache Spark 引擎可以拓展对 MongoDB 管理的操作型数据的管理。这样一来,用户就能将 MongoDB 支持的实时业务流程内由 Spark 生成的结果操作化。
industry_airline_app

中国东方航空

作为全球最大的航空公司之一,东航不断探索新兴技术,寻找改善客户体验和降低成本的新方法。中国东方航空将 MongoDB Connector for Apache Spark 用于其新启用的票价计算引擎中,应对每天 16 亿条的查询。
了解详情
industry_finance

Qumram

Qumram 将存储在 MongoDB 的用户会话数据开放给 Spark 的机器学习进程,帮助全球金融机构通过行为分析检测欺诈,并借助自然语言处理,从而为情感分析运用深度学习技术。
了解详情
cloud_iot

Stratio

Stratio 实施了 Pure Spark 大数据平台,将 MongoDB 与 Apache Spark、Zeppelin 和 Kafka 相结合,为西班牙最大的保险公司之一 Mutua Madrileña 搭建运营数据湖。建立机器学习模型来个性化客户体验,并通过营销活动数据分析来衡量影响及提高性能。

了解详情
industry_airline_app

全球化航空公司

一家全球化航空公司将散布在 100 多个系统中的顾客数据整合到存储在 MongoDB 中的单一视图。当客户在网上在线或与呼叫中心通话时,Spark 流程就根据MongoDB中的最新运营数据实时更新用户的等级并提供给客户针对性的选择。

后续步骤

general_action_download

立即下载

可以从 GitHub 下载 MongoDB Spark Connector。

立即下载
general_content_learn

学习

阅读我们新发布的白皮书:利用 Apache Spark 和 MongoDB 将分析转化为实时行动。

了解详情
general_action_audit

浏览

可在我们的文档库中浏览 MongoDB Spark Connector 文档。

查看文档

准备好开始了吗?

获取 MongoDB Connector for Apache Spark。
Database illustration