Vector Search y Conceptos Básicos de LLM: Qué, Cuándo y Por Qué

Jose Parra
November 16, 2023
#genAI

Vector Search y, más ampliamente, la Inteligencia Artificial (IA) son más populares ahora que nunca. Estos términos están surgiendo en todas partes. Las empresas de tecnología de todo el mundo están luchando por adoptar versiones de búsqueda vectorial y características de IA en un esfuerzo por ser parte de esta creciente tendencia. Como resultado, es inusual encontrar una página de inicio para un negocio basado en datos y no ver una referencia a la vector search o a modelos de lenguaje grande (LLM). En este blog, cubriremos lo que MEAN estos términos mientras examinamos los eventos que llevaron a su tendencia actual.

Consulte nuestra página de recursos de IA para obtener más información sobre cómo crear aplicaciones basadas en IA con MongoDB.

¿Qué es la búsqueda vectorial?

Los vectores son representaciones codificadas de datos no estructurados como texto, imágenes y audio en forma de abanico de números.

Figura 1: Los datos se convierten en vectores al incrustar modelos

Estos vectores son producidos por técnicas de aprendizaje automático (ML) llamadas modelos " de " incrustación. Estos modelos están entrenados en grandes volúmenes de datos. Los modelos de incrustación capturan de manera efectiva las relaciones significativas y las similitudes entre los datos. Esto permite a los usuarios consultar datos basados en el significado en lugar de los datos en sí. Este hecho desbloquea tareas de análisis de datos más eficientes como sistemas de recomendación, comprensión del lenguaje y reconocimiento de imágenes.

Cada búsqueda comienza con una consulta y, en la búsqueda vectorial, la consulta está representada por un vector. El trabajo de la vector search es encontrar, a partir de los vectores almacenados en una base de datos, aquellos que son más similares al vector de la consulta. Esta es la premisa básica. Se trata de similitud. Esta es la razón por la que la búsqueda vectorial a menudo se llama búsqueda de similitud. Nota: la similitud también se aplica a algoritmos de clasificación que funcionan con datos no vectoriales.

Para entender el concepto de similitud vectorial, imaginemos un espacio tridimensional. En este espacio, la ubicación de un punto de datos está completamente determinada por tres coordenadas.

Figura 2: Ubicación de un punto P en un espacio tridimensional

De la misma manera, si un espacio tiene 1024 dimensiones, se necesitan 1024 coordenadas para localizar un punto de datos.

Figura 3: Punto P en una esfera que representa un espacio multidimensional

Los vectores también proporcionan la ubicación de los puntos de datos en espacios multidimensionales. De hecho, podemos tratar los valores de un vector como un abanico de coordenadas. Una vez que tenemos la ubicación de los puntos de datos, los vectores, su similitud entre ellos se calcula midiendo la distancia entre ellos en el espacio vectorial. Los puntos que están más cerca unos de otros en el espacio vectorial representan conceptos que son más similares en significado.

Por ejemplo, la " llanta " tiene una mayor similitud con el " auto " y una menor con el " avión. " Sin embargo, el " ala solo " tendría una similitud con el " avión. " Por lo tanto, la distancia entre los vectores para “neumático” y “auto” sería menor que la distancia entre los vectores para “neumático” y “avión”. Sin embargo, la distancia entre “ala” y “auto” sería enorme. En otras palabras, “neumático” es relevante cuando hablamos de un “auto” y, en menor medida, de un “avión”. Sin embargo, un “ala” solo es relevante cuando hablamos de un “avión” y nada relevante cuando hablamos de un “automóvil” (al menos hasta que los autos voladores sean un modo de transporte viable). La contextualización de los datos, independientemente del tipo, permite la vector search para recuperar los resultados más relevantes para una consulta determinada.

Un ejemplo simple de similitud

Tabla 1: Ejemplo de similitud entre diferentes términos

¿Qué son los modelos de lenguaje grande?

Los LLM son lo que lleva la IA a la ecuación de búsqueda vectorial. Los LLM y las mentes humanas entienden y asocian conceptos para realizar ciertas tareas del lenguaje natural, como seguir una conversación o comprender un artículo. Los LLM, como los humanos, necesitan entrenamiento para entender diferentes conceptos. Por ejemplo, ¿sabe a qué se refiere el término “corium”? A menos que sea ingeniero nuclear, probablemente no. Lo mismo sucede con los LLM: si no están capacitados en un dominio específico, no son capaces de entender los conceptos y, por lo tanto, tienen un desempeño deficiente. Veamos un ejemplo.

Los LLM entienden fragmentos de texto gracias a su capa de incrustación. Aquí es donde las palabras u oraciones se convierten en vectores. Para visualizar vectores vamos a utilizar cloud de palabras. cloud de palabras están estrechamente relacionadas con los vectores en el sentido de que son representaciones de conceptos y su contexto. Primero, veamos la cloud de palabras que generaría un modelo de incrustación para el término “corium” si fuera entrenado con datos de ingeniería nuclear:

Figura 4: cloud de palabras de muestra de un modelo entrenado con datos nucleares

Como se muestra en la imagen de arriba, la cloud de palabras indica que el corio es un material radiactivo que tiene algo que ver con las estructuras de seguridad y contención. Pero, corium es un término especial que también se puede aplicar a otro dominio. Veamos la cloud de palabras resultante de un modelo de incrustación que ha sido entrenado en biología y anatomía:

Figura 5: cloud de palabras de muestra de un modelo entrenado con datos biológicos

En este caso, la cloud de palabras indica que corium es un concepto relacionado con la piel y sus capas. ¿Qué pasó aquí? ¿Está equivocado uno de los modelos de incrustación? No. Ambos han sido entrenados con diferentes datos para establecer. Por eso es crucial encontrar el modelo más apropiado para un caso de uso específico. Una práctica común en la industria es adoptar un modelo de incrustación previamente entrenado con un sólido conocimiento de fondo. Uno toma este modelo y luego lo ajusta con el conocimiento específico del dominio necesario para realizar tareas particulares.

La cantidad y calidad de los datos utilizados para entrenar un modelo también son relevantes. Podemos estar de acuerdo en que una persona que haya leído solo un artículo sobre aerodinámica estará menos informada sobre el tema que una persona que estudió física e ingeniería aeroespacial. De manera similar, los modelos que se entrenan con una gran cantidad de datos de alta calidad comprenderán mejor los conceptos y generarán vectores que los representen con mayor precisión. Esto crea las bases para un éxito (en este contexto, por ejemplo, «éxito de la innovación»); en otros contextos: sistema de búsqueda de vectores correctos.

Vale la pena señalar que aunque los LLM usan modelos de incrustación de texto, la vector search va más allá de eso. Puede tratar con audio, imágenes y más. Es importante recordar que los modelos de incrustación utilizados para estos casos de acción (en este contexto empresarial particular) siguen el mismo enfoque. También necesitan ser entrenados con datos (imágenes, sonidos, etc.) para poder entender el significado detrás de esto y crear los vectores de similitud apropiados.

¿Cuándo se creó la vector search?

MongoDB Atlas Vector Search actualmente proporciona tres enfoques para calcular la similitud de vectores. Estas también se denominan métricas de distancia y consisten en:

distancia euclidiana
producto coseno
producto punto

Si bien cada métrica es diferente, a los efectos de este blog nos centraremos en el hecho de que todas miden la distancia. Atlas Vector Search introduce estas métricas de distancia en un algoritmo de vecino más cercano (ANN) aproximado para encontrar los vectores almacenados que sean más similares al vector de la consulta. Para acelerar este proceso, los vectores se clasifican utilizando un algoritmo llamado mundo pequeño navegable jerárquico (HNSW). HNSW guía la búsqueda a través de una red de puntos de datos interconectados para que solo se consideren los puntos de datos más relevantes.

El uso de una de las tres métricas de distancia junto con los algoritmos HNSW y KNN constituye la base para realizar búsquedas vectoriales en MongoDB Atlas. Pero, ¿cuántos años tienen estas tecnologías? Pensaríamos que son invenciones recientes de un laboratorio de computación cuántica de vanguardia, pero la verdad está lejos de eso.

Figura 6: Cronología de las tecnologías de búsqueda vectorial

La distancia euclidiana se formuló en el año 300 a.C., el coseno y el producto punto en 1881, el algoritmo KNN en 1951 y el algoritmo HNSW en 2016. Lo que esto significa es que las bases para la búsqueda vectorial de última generación estaban completamente disponibles en 2016. Entonces, aunque la búsqueda vectorial es el tema candente de hoy, ha sido posible implementarla durante varios años.

¿Cuándo se crearon las LLM?

En 2017, hubo un gran avance: la arquitectura del transformador. Presentado en el famoso periódico Attention is all you need, esta arquitectura introdujo un modelo de red neuronal para las tareas de procesamiento del lenguaje natural (PNL). Esto permitió que los algoritmos de ML procesaran datos de lenguaje en un orden de magnitud mayor de lo que antes era posible. Como resultado, la cantidad de información que podría usarse para entrenar a los modelos aumentó exponencialmente. Esto allanó el camino para que aparezca el primer LLM en 2018: GPT -1 de OpenAI. Los LLM utilizan modelos de incrustación para comprender fragmentos de texto y realizar ciertas tareas de lenguaje natural, como responder preguntas o traducción automática. Las LLM son esencialmente modelos de PNL que fueron rebautizados debido a la gran cantidad de datos con los que están entrenados, de ahí la palabra grande en LLM. El siguiente gráfico muestra la cantidad de datos (parámetros) utilizados para entrenar modelos de ML a lo largo de los años. Se puede observar un aumento dramático en 2017 después de que se publicara la arquitectura del transformador.

Figura 7: Recuento de parámetros de sistemas ML a través del tiempo. Fuente: towardsdatascience.com

¿Por qué son tan populares la búsqueda vectorial y los LLM?

Como se indicó anteriormente, la tecnología para la búsqueda vectorial estaba completamente disponible en 2016. Sin embargo, no se hizo particularmente popular hasta finales de 2022. ¿Por qué?

Aunque la industria del aprendizaje automático ha estado muy activa desde 2018, los LLM no estuvieron ampliamente disponibles ni fueron fáciles de usar hasta la versión OpenAI de ChatGPT en noviembre de 2022. El hecho de que OpenAI permitiera a todos interactuar con un LLM con una simple charla es la clave de su éxito. ChatGPT revolucionó la industria al permitir que la persona promedio interactúe con algoritmos de PNL de una manera que de otro modo habría sido reservada para investigadores y científicos. Como se puede ver en la siguiente figura, el avance de OpenAI llevó a que la popularidad de los LLM se disparara. Al mismo tiempo, ChatGPT se convirtió en una herramienta convencional utilizada por el público en general. La influencia de OpenAI en la popularidad de los LLM también se evidencia por el hecho de que tanto OpenAI como LLM tuvieron su primer pico de popularidad simultáneamente. (Vea la figura 8.)

Figura 8: Popularidad de los términos LLM y OpenAI a lo largo del tiempo. Fuente: vGoogle Trends

Aquí está el por qué. Los LLM son tan populares porque OpenAI los hizo famosos con la versión de ChatGPT. Buscar y almacenar grandes cantidades de vectores se convirtió en un desafío. Esto se debe a que los LLM funcionan con incrustaciones. Así, la adopción de la búsqueda vectorial aumentó en tándem. Este es el mayor factor que contribuye al cambio de la industria. Este cambio resultó en que muchas empresas de datos introdujeran asistencia técnica para la búsqueda de vectores y otras funcionalidades relacionadas con los LLM y la IA detrás de ellos.

Conclusión

La búsqueda vectorial es un disruptor moderno. El creciente valor tanto de las incrustaciones vectoriales como de los procesos de búsqueda matemática avanzada ha catalizado la adopción de la búsqueda vectorial para transformar el campo de la recuperación de información. La generación de vectores y la búsqueda de vectores pueden ser procesos independientes, pero cuando trabajan juntos, su potencial es ilimitado.

Para obtener más información, visite nuestra página de producto Atlas Vector Search . Para comenzar a utilizar Vector Search, regístrese en Atlas o acesso en su cuenta.

← Previous

Why Leading Insurer Manulife Ditched SQL For MongoDB

Manulife, one of the largest life insurance companies in the world, is in the midst of a digital transformation. Earlier this year, Harry Cheung, Chief Architect of Manulife Asia, spoke to industry experts and developers at MongoDB.local in Hong Kong, outlining the transformation journey so far and what’s next for Manulife. Better experiences, happier customers Manulife, like many large enterprises, is under pressure to get new digital products to market, fast. In addition, the insurer is constantly looking for ways to better connect with and serve customers, in real time, by broadening their digital capabilities and further personalizing the interactions customers have with Manulife. Manulife’s existing data infrastructure, however, was becoming a drag on innovation. Traditional relational databases limited how fast the Manulife team could bring new digital products to market. In particular, Manulife’s developers, the architects of these new digital products and services, faced issues working with the existing data infrastructure, including the need to constantly optimize the database, deal with data normalization issues, and work with slow querying of data. From Relational to NoSQL to MongoDB From the outset, Manulife knew that they would build their new digital experience on a NoSQL database. NoSQL is core to our strategy of building our digital experience. The flexible data model [for NoSQL] means you’re not limited by the schema. Harry Cheung, Chief Architect, Manulife Asia After deciding to go the NoSQL, Manulife was won over to MongoDB for several reasons, including: The document data model: MongoDB's document data model means no rigid schemas to slow down development. This allows for faster iterations when building new digital products. From on-premises to the cloud: Moving from a MongoDB on-premises deployment to MongoDB Atlas in the cloud was easy for the Manulife team. Scalability: MongoDB can easily scale horizontally to meet spikes in demand. Enterprise-ready & mature: MongoDB is used by the world’s largest insurers, offering greater flexibility alongside the sorts of core requirements you would expect from an RDBMS, such as ACID transactions. MongoDB Support: Assistance with projects like data migration from on-premises to cloud services on MongoDB Atlas made the transition smoother. A pay-as-you-go model: MongoDB’s elastic scaling capabilities and flexible pricing model keep costs down. On and offline functionality: MongoDB Atlas has built-in mobile device synchronization capabilities, speeding up the development of offline-first insurance applications. Built with MongoDB: Four Use Cases for Manulife MOVE, a Health-Focused App: MOVE is a digital app that encourages users to meet fitness goals, with daily steps linked to insurance premium discounts. MongoDB's JSON-based document model simplified app development and data management. Secondly, Manulife started running the MOVE app on-premises. When they wanted to migrate the app to a public cloud of their choice (from MongoDB to MongoDB Atlas) the process was seamless. Sales Assistance App: Used by 90% of agents, this app helps Manulife agents in the field service customers and complete applications. One area where MongoDB Atlas was particularly helpful was mitigating issues with mobile connectivity and data synchronization. Agents in the field often suffer from internet service interruptions, such as a dropped mobile signal. When the agent’s sales app reconnects, the data from the app has to be synchronized with the backend MongoDB database. Building apps that can handle such offline/online data synchronization, also known as offline-first apps, can significantly eat into development time, slowing time to value for organizations developing robust offline-first apps. MongoDB Atlas Device Sync solves this issue with native offline to online synchronization capabilities to enable uninterrupted client interactions, even in low connectivity areas. Using Atlas Device Sync, the sales app can store customer, proposal, application, and document metadata on the local device (using MongoDB’s dedicated mobile device database), and then synchronize that data and the customer application to the main MongoDB database when connected to the internet. Manulife launched their sales app's offline mode in just 2 months with MongoDB Atlas Device Sync Policy Life Cycle Management: Traditional relational databases spread policy data across multiple tables. With MongoDB, a single document can encapsulate an entire policy, streamlining querying access and enhancing performance. MongoDB is now the system of record for policy servicing and life cycle management. This new system was met with overwhelming approval from Manulife’s developers. In the past, we were using a traditional relational database, with more than 500 core tables. With MongoDB, when I asked developers who had previously used our traditional [RDBMS] database, ‘You have a choice, do you want to use MongoDB or go back to the traditional [database]?’ all our developers said MongoDB. Harry Cheung, Chief Architect, Manulife Asia Claims Processing: MongoDB's capability to handle structured and unstructured data simplified integration with partners, especially in Optical Character Recognition (OCR) for claim processes. Looking ahead Manulife is set on expanding its use of NoSQL databases, with MongoDB identified as the go-to solution for such projects. MongoDB is our internal standard. MongoDB is our strategic partner for NoSQL development. Harry Cheung, Chief Architect, Manulife Asia About Manulife Manulife Financial Corporation is one of the largest life insurance companies in the world. The company provides insurance and financial services to millions of customers in Asia, Canada, and the United States. Manulife operates under different brand names: Manulife in North America and Asia, and John Hancock in the U.S. It's recognized for its long-standing presence in Hong Kong, with a focus on life insurance, mutual funds, and other financial products. In addition to life insurance, Manulife offers a wide range of financial services including wealth and asset management, group benefits, and retirement services. Learn more about our work with the world's leading insurers on our MongoDB for Insurance page.

November 16, 2023

Next →

Leveraging an Operational Data Layer for Telco Success

The emergence of 5G network communication, IoT devices, edge computing, and AI have accelerated structural changes within the telecommunications industry, creating new needs and opportunities. To remain competitive, telcos must embrace this technology-driven transformation by defining a robust data strategy. Such a strategy should enhance operational efficiency and provide unique value to customers, and should ultimately enable telcos to set themselves apart from their competitors. All of this can be attained by leveraging an operational data layer (ODL) with MongoDB. Operating a consolidated ODL opens new business opportunities that telcos can incorporate into their value matrix, including customer support systems, AI-enriched applications, and IoT-oriented services. These unlocked capacities will help telecommunications companies succeed in a competitive market. Understanding the operational data layer An ODL is an architectural pattern that centrally integrates and organizes siloed enterprise data, making it available to consuming applications. It acts as an intermediary between data producers and consumers. This architecture pattern is illustrated below: Figure 1. ODL sample reference architecture, using MongoDB In this diagram, MongoDB Atlas acts as the ODL, centrally integrating siloed data from multiple sources, including CRM, HR, and billing. Initially, data is extracted to the ODL, transformed according to established requirements, and then loaded to the MongoDB database. By means of delta loads, the ODL is kept in sync over time. Consuming applications, both operational and analytical, access the ODL through an API layer, which delivers a common set of methods for users, and enforces security standards throughout the organization. Enhancing operational efficiency with MongoDB and the ODL At its core, implementing an ODL with MongoDB provides access to a rich document model and a data developer platform that boosts operational efficiency and unlocks the value of previously siloed enterprise data. The ODL attains this efficiency through a set of key capabilities inherent to MongoDB. The ODL benefits from the flexibility of the document model that adapts its schema to any application requirement while supporting multiple data structures. This polymorphic structure allows variations from document to document liberating applications from rigid schemas and supporting merging from non-identical entities. Telcos gain speed in development—which translates to better performance—when accessing data through an ODL, as they avoid costly join operations required by legacy applications. MongoDB provides a unique place for data storage that can be accessed in a single database operation decreasing end-user response times. Telcos can leverage MongoDB’s versatility to cast multiple workloads, store any data type, and to adopt a rich query language that executes complex operations. Subsequently, the ODL accepts sophisticated query pipelines capable of processing text, images, videos, geospatial data, facet search, analytical transformations, time series, and more. Horizontal and vertical scalability empowers telcos to receive large data volumes and high traffic loads essential for modern applications. This mechanism is achieved through sharding, a process that partitions and distributes data across multiple nodes, accommodating fluctuating workload demands and enhancing overall system performance. An ODL running in MongoDB Atlas benefits from a multi-cloud strategy that allows deployments across multiple cloud providers. This approach mitigates vendor lock-in risks, grants global coverage, and adapts to infrastructure requirements—ensuring that applications adhere to cost constraints, achieve performance benchmarks, and maintain regulatory compliance. MongoDB provides a robust security framework for storing and managing sensitive data due to its built-in tools—including encryption, authentication, authorization, network security, and auditing—thus protecting data against information breaches. It also complies with important international regulations for telcos like the General Data Protection Regulation (GDPR) and the Payment Card Industry Data Security Standard (PCI DSS). MongoDB provides a modern data platform designed to build, manage and scale applications in a unified developer experience. The developer platform fosters innovation allowing developers to access a variety of features to manage their ODL including Atlas Vector Search, Atlas Monitoring, and Atlas Triggers, among others. Refer to our official documentation to learn more about MongoDB Atlas . Using the ODL to gain a competitive advantage Fostering operational efficiency through an ODL is the initial step toward opening a new business that will eventually translate into a competitive advantage. Accordingly, telcos need to develop their own strategies and capitalize on the benefits from these unlocked opportunities, differentiating themselves in the industry. Well-known telcos have already leveraged this approach, creating successful business outcomes. They consolidate single-view instances , concentrating information from different business lines—such as mobile, fixed lines, broadband, and TV/entertainment—into MongoDB Atlas. This environment is well-suited for building personalized customer management solutions, overcoming challenges with siloed data environments. These telcos choose MongoDB because it offers a flexible data model that facilitates data aggregation and horizontal scaling, allowing them to efficiently leverage customer data to build customer-centric applications. Additionally, leading telcos are leveraging AI to enhance their operations, safeguard their business, and improve their services. One prominent use of AI is fraud detection and prevention . This is a critical area that, if poorly managed, can lead to negative consequences like financial losses, unmeasurable reputational damage, and unhinged security network risks. A consolidated ODL serves as a gateway for implementing fraud detection measures. Nowadays, MongoDB’s platform is ingesting and storing terabytes of data from multiple platforms to leverage AI models, potentially saving millions of dollars for telcos. Refer to our ebook, Innovate with AI: The Future Enterprise , to learn more. Telcos are also capitalizing on their networks and the MongoDB ODL by effectively managing the vast amounts of data generated by IoT devices, and adding new end-to-end services. MongoDB is helping large telcos effectively implement IoT platforms supplying scalability for growing device demand, flexibility to manage data model changes, and automatic data tiering to reduce storage costs. These capabilities ultimately improve customer experiences and speed time to market for new applications. Furthermore, ODLs improve product catalog management systems, which are increasingly common in the industry due to telcos’ expanding their offering to a broader set of products, from phone plans to bundled entertainment services. ODLs upgrade the product catalog, allowing for real-time product personalization and analytics. MongoDB assists telcos in upgrading their product catalog systems, enabling advanced search capabilities, reducing development time, and supporting seasonal workload demand. Refer to our white paper, Implementing an Operational Data Layer for Product Catalog Modernization , to learn more. Finally, an ODL accelerates the modernization of monolithic relational database systems that struggle to manage exponential data growth and to adapt to evolving business needs. Telcos use MongoDB in their modernization efforts to deliver 3 to 5x faster operations, allowing scaling to millions of records per day, while at the same time reducing their costs—typically by 50% or more. Future directions This blog highlights how implementing an ODL with MongoDB can unlock telcos’ ability to achieve operational efficiency through the native capabilities of MongoDB and its cloud offering. This innovative architecture not only improves operations, but also unlocks business opportunities that are the foundation for new competitive advantages. These enhanced capabilities represent the backbone to consolidate telcos’ strategic positioning, ultimately differentiating from their competitors in powerful ways. Visit our MongoDB for Telecommunications solutions page to learn more. If you would like to learn more about implementing an ODL with MongoDB for your TELCO organization, visit the following resources: White paper: Implementing an Operational Data Layer White paper: Unleash Telco Transformation with an Operational Data Layer Head over to our quick-start guide to get started with Legacy Modernization today.

January 14, 2025