EventJoin us at AWS re:Invent 2024! Learn how to use MongoDB for AI use cases. Learn more >>

Connecteurs

Connecteur MongoDB pour Apache Spark

Créez de nouvelles classes d’analyses sophistiquées en temps réel en combinant Apache Spark, le leader des moteurs de traitement de données, avec MongoDB, la base de données à la croissance la plus rapide du secteur. Connecteur MongoDB pour Apache Spark est disponible pour tous les utilisateurs, certifié et compatible avec une utilisation en production dès maintenant.
Télécharger maintenant

Accès immédiat aux informations

À l’ère du « Big Data », ce ne sont pas tant les données elles-mêmes qui sont précieuses, mais les informations qu’elles recèlent. La rapidité avec laquelle une entreprise peut extraire et exploiter ces informations est devenue un enjeu de compétitivité capital. La collecte de données dans les systèmes opérationnels et les processus ETL (Extract, Transform, Load) nocturnes pour mettre à jour l’entrepôt de données ne sont plus suffisants.

Illustration d’un graphique à barres croissant et d’une fusée
Schéma décrivant l’application analytique facilitée par le Connecteur Apache Spark

Exploitez tout le potentiel d’Apache Spark

Le connecteur MongoDB pour Apache Spark expose toutes les bibliothèques Spark, notamment Scala, Java, Python et R. Les données MongoDB sont matérialisées sous forme de dataframes et d’ensembles de données pour l'analyse à l’aide du machine learning, de graphiques, de traitement par flux et d’API SQL.

Exploitez toute la puissance de MongoDB

Le Connecteur MongoDB pour Apache Spark peut tirer parti du pipeline d’agrégation et de la richesse des index secondaires de MongoDB pour extraire, filtrer et traiter uniquement les données dont il a besoin, par exemple, en analysant tous les clients situés dans une zone géographique spécifique. Les datastores NoSQL traditionnels n’offrent pas d’index secondaires ni d’agrégations dans la base de données. Dans ce cas, Spark doit extraire toutes les données basées sur une simple clé primaire, même si un seul sous-ensemble de ces données est nécessaire pour le processus Spark. Le Connecteur MongoDB pour Apache Spark colocalise les ensembles de données distribués résilients (Resilient Distributed Datasets, RDD) avec le nœud MongoDB source afin de minimiser le mouvement des données dans le cluster et réduire la latence.
Illustration d’un pipeline d’agrégation avec des données en transit

MongoDB et Apache Spark au service de vos data scientists

MongoDB offre de nombreuses fonctionnalités natives d’analyse en temps réel. Toutefois, certains cas imposent l’intégration du moteur Apache Spark pour étendre les capacités de traitement des données opérationnelles gérées par MongoDB. Cela permet aux utilisateurs d’opérationnaliser les résultats générés par Spark dans les processus métier en temps réel pris en charge par MongoDB.

Étapes suivantes

Prêt à vous lancer ?

Découvrez le connecteur MongoDB pour Apache Spark.
Essayer maintenantContacter le service commercial
Database illustration