Connecteurs

Connecteur MongoDB pour Apache Spark

Créez de nouvelles classes d’analyses sophistiquées en temps réel en combinant Apache Spark, le leader des moteurs de traitement de données, avec MongoDB, la base de données à la croissance la plus rapide du secteur. Connecteur MongoDB pour Apache Spark est disponible pour tous les utilisateurs, certifié et compatible avec une utilisation en production dès maintenant.

Accès immédiat aux informations

À l’ère du « Big Data », ce ne sont pas tant les données elles-mêmes qui sont précieuses, mais les informations qu’elles recèlent. La rapidité avec laquelle une entreprise peut extraire et exploiter ces informations est devenue un enjeu de compétitivité capital. La collecte de données dans les systèmes opérationnels et les processus ETL (Extract, Transform, Load) nocturnes pour mettre à jour l’entrepôt de données ne sont plus suffisants.

Illustration d’un graphique à barres croissant et d’une fusée
Schéma décrivant l’application analytique facilitée par le Connecteur Apache Spark

Exploitez tout le potentiel d’Apache Spark

Le connecteur MongoDB pour Apache Spark expose toutes les bibliothèques Spark, notamment Scala, Java, Python et R. Les données MongoDB sont matérialisées sous forme de dataframes et d’ensembles de données pour l'analyse à l’aide du machine learning, de graphiques, de traitement par flux et d’API SQL.

Exploitez toute la puissance de MongoDB

Le Connecteur MongoDB pour Apache Spark peut tirer parti du pipeline d’agrégation et de la richesse des index secondaires de MongoDB pour extraire, filtrer et traiter uniquement les données dont il a besoin, par exemple, en analysant tous les clients situés dans une zone géographique spécifique. Les datastores NoSQL traditionnels n’offrent pas d’index secondaires ni d’agrégations dans la base de données. Dans ce cas, Spark doit extraire toutes les données basées sur une simple clé primaire, même si un seul sous-ensemble de ces données est nécessaire pour le processus Spark. Le Connecteur MongoDB pour Apache Spark colocalise les ensembles de données distribués résilients (Resilient Distributed Datasets, RDD) avec le nœud MongoDB source afin de minimiser le mouvement des données dans le cluster et réduire la latence.
Illustration d’un pipeline d’agrégation avec des données en transit

MongoDB et Apache Spark au service de vos data scientists

MongoDB offre de nombreuses fonctionnalités natives d’analyse en temps réel. Toutefois, certains cas imposent l’intégration du moteur Apache Spark pour étendre les capacités de traitement des données opérationnelles gérées par MongoDB. Cela permet aux utilisateurs d’opérationnaliser les résultats générés par Spark dans les processus métier en temps réel pris en charge par MongoDB.
industry_airline_app

China Eastern Airlines

China Eastern, l’une des plus grandes compagnies aériennes du monde, explore en permanence les technologies émergentes afin d’identifier de nouveaux moyens d’améliorer l’expérience client et de réduire les coûts. China Eastern a intégré le connecteur MongoDB pour Apache Spark à son nouveau moteur de calcul des tarifs, traitant 1,6 milliard de requêtes par jour.
En savoir plus
industry_finance

Qumram

Qumram expose les données de session utilisateur stockées dans MongoDB aux processus de machine learning de Spark pour aider les institutions financières mondiales à détecter la fraude grâce à des analyses comportementales et à appliquer des techniques de deep learning pour l’analyse des sentiments avec traitement du langage naturel.
En savoir plus
cloud_iot

Stratio

Stratio a implémenté sa plateforme Big Data Pure Spark, combinant MongoDB avec Apache Spark, Zeppelin et Kafka, afin de créer un data lake opérationnel pour Mutua Madrileña, l’une des plus grandes compagnies d’assurance d’Espagne. Les modèles de machine learning sont conçus pour personnaliser l’expérience client à partir des données d’analyse des campagnes marketing pour mesurer l’impact et améliorer la performance.

En savoir plus
industry_airline_app

Compagnie aérienne mondiale

Une compagnie aérienne mondiale a regroupé les données clients dispersées sur plus de 100 systèmes dans une vue unique stockée dans MongoDB. Les processus Spark s’exécutent sur les données opérationnelles en direct dans MongoDB pour mettre à jour les classifications clients et personnaliser les offres en temps réel, au moment même où le client est connecté au site ou échange avec un opérateur du centre d’appels.

Étapes suivantes

general_action_download

Télécharger

Téléchargez MongoDB Spark Connector sur GitHub.

Télécharger maintenant
general_content_learn

Apprendre

Lisez notre nouveau livre blanc « Turning Analytics into Real Time Action with Apache Spark and MongoDB » (en anglais uniquement).

En savoir plus
general_action_audit

Parcourir

Parcourez notre documentation consacrée au Connecteur MongoDB pour Apache Spark dans notre bibliothèque de documents.

Accéder à la documentation

Prêt à vous lancer ?

Découvrez le connecteur MongoDB pour Apache Spark.
Database illustration