Conectores

MongoDB Connector for Apache Spark

Cree nuevas clases de análisis sofisticados en tiempo real combinando Apache Spark, el motor de procesamiento de datos líder del sector, con MongoDB, la base de datos de más rápido crecimiento del sector. El MongoDB Connector for Apache Spark está disponible a nivel general, está certificado y es compatible para su uso en producción en la actualidad.

Acceda a la información ahora

Vivimos en un mundo de “big data”. Pero no solo los datos en sí son valiosos, sino la información que pueden generar. La rapidez con la que una organización puede desbloquear esa información y actuar al respecto se ha convertido en una fuente importante de ventaja competitiva. Ya no basta con recopilar datos en los sistemas operativos y confiar en los procesos nocturnos de extracción, transformación y carga (ETL) por lotes para actualizar el almacén de datos empresariales (EDW).

Una ilustración de un gráfico de barras creciente y un cohete
Un diagrama que describe la aplicación de análisis facilitada por Apache Spark Connector

Desbloquee el poder de Apache Spark

El MongoDB Connector for Apache Spark expone todas las bibliotecas de Spark, incluidas Scala, Java, Python y R. Los datos de MongoDB se materializan como DataFrames y Datasets para su análisis con aprendizaje automático, gráficos, secuencias y API de SQL.

Aproveche el poder de MongoDB

El MongoDB Connector for Apache Spark puede aprovechar el aggregation pipeline de MongoDB y los índices secundarios enriquecidos para extraer, filtrar y procesar solo los datos que necesita, por ejemplo, analizar todos los clientes ubicados en una geografía específica. Los almacenes de datos NoSQL tradicionales no ofrecen índices secundarios ni agregaciones en la base de datos. En estos casos, Spark tendría que extraer todos los datos en función de una clave principal simple, incluso si solo se requiere un subconjunto de esos datos para el proceso de Spark. El MongoDB Connector for Apache Spark ubica conjuntos de datos distribuidos resistentes (RDD) con el nodo de MongoDB de origen para minimizar el movimiento de datos en el clúster y reducir la latencia.
Ilustración de un aggregation pipeline con flujo de datos

MongoDB y Apache Spark: trabajar para equipos de ciencia de datos hoy

Si bien MongoDB ofrece de forma nativa amplias capacidades de análisis en tiempo real, hay casos de uso en los que la integración del motor Apache Spark puede ampliar el procesamiento de los datos operativos gestionados por MongoDB. Esto permite a los usuarios poner en práctica los resultados generados por Spark dentro de los procesos empresariales en tiempo real compatibles con MongoDB.
industry_airline_app

China Eastern Airlines

Como una de las aerolíneas más grandes del mundo, China Eastern explora constantemente las tecnologías emergentes para identificar nuevas formas de mejorar la experiencia del cliente y reducir los costos. China Eastern Airlines utiliza el MongoDB Connector for Apache Spark en su nuevo motor de cálculo de tarifas, que atiende 1600 millones de consultas al día.
Más información
industry_finance

Qumram

Qumram expone los datos de sesión de usuario almacenados en MongoDB a los procesos de aprendizaje automático de Spark para ayudar a las instituciones financieras globales a detectar el fraude a través del análisis del comportamiento, y aplicar técnicas de aprendizaje profundo para el análisis de sentimientos con procesamiento de lenguaje natural.
Más información
cloud_iot

Stratio

Stratio implementó su plataforma de big data Pure Spark, que combina MongoDB con Apache Spark, Zeppelin y Kafka, para crear un lago de datos operativo para Mutua Madrileña, una de las compañías de seguros más grandes de España. Los modelos de aprendizaje automático están diseñados para personalizar la experiencia del cliente, con el análisis de los datos de las campañas de marketing para medir el impacto y mejorar el rendimiento.

Más información
industry_airline_app

Aerolínea mundial

Una aerolínea mundial ha consolidado los datos dispersos de los clientes en más de 100 sistemas en una sola vista almacenada en MongoDB. Los procesos de Spark se ejecutan con los datos operativos en vivo de MongoDB para actualizar las clasificaciones de los clientes y personalizar las ofertas en tiempo real, mientras el cliente está en vivo en la web o hablando con el centro de llamadas.

Próximos pasos

general_action_download

Descargar

MongoDB Spark Connector está disponible para descargar desde GitHub.

Descargue ahora
general_content_learn

Formación

Lea nuestro nuevo documento técnico: Cómo convertir la analítica en acción en tiempo real con Apache Spark y MongoDB.

Más información
general_action_audit

Explorar

Explore la documentación de MongoDB Spark Connector en nuestra biblioteca de documentos.

Ver documentos

¿Listo para empezar?

Obtenga el MongoDB connector for Apache Spark.
Database illustration