Rockset Mejora las Funciones de IA para Optimizar la Búsqueda en Bases de Datos Vectoriales

Rockset, un proveedor líder de bases de datos en tiempo real, está mejorando sus capacidades de base de datos con una búsqueda vectorial avanzada y una escalabilidad mejorada. Fundada sobre el almacenamiento clave-valor de código abierto RocksDB desarrollado en Meta (anteriormente Facebook), Rockset utiliza una tecnología en evolución que habilita sus características de indexación en tiempo real. La empresa ha asegurado un total de 105 millones de dólares en financiamiento, incluido un reciente levantamiento de 44 millones de dólares anunciado en agosto.

Con la última actualización, Rockset lanza completamente la búsqueda vectorial dentro de su plataforma de base de datos en tiempo real. Esta capacidad se presentó por primera vez en abril y ha recibido mejoras significativas en los últimos meses. Adoptantes tempranos como la aerolínea de descuento JetBlue ya han reportado implementaciones exitosas de la tecnología de Rockset. Junto con la actualización de búsqueda vectorial, Rockset también se está integrando con la popular herramienta LangChain para orquestación de IA y el marco de datos LlamaIndex.

"Nuestra capacidad de búsqueda vectorial ahora está disponible en general y es altamente sofisticada. Puedes crear índices de similitud utilizando tecnología de vecino más cercano aproximado (ANN) a gran escala, con actualizaciones en tiempo real sobre incrustaciones vectoriales y metadatos", afirmó Venkat Venkataramani, cofundador y CEO de Rockset.

Indexación en Tiempo Real de Rockset para Búsqueda Vectorial

La competencia en el mercado de búsqueda vectorial se ha intensificado en 2023. Los vectores, representaciones de datos numéricos, son cruciales para impulsar grandes modelos de lenguaje (LLMs). Han surgido numerosas bases de datos vectoriales especializadas, como Pinecone y Milvus, junto con tecnologías de bases de datos establecidas como DataStax, MongoDB y Neo4j.

Rockset busca destacar en el mercado al ofrecer actualizaciones en tiempo real a la búsqueda vectorial. A medida que nuevos datos ingresan a una base de datos Rockset, tanto el índice de la base de datos como las incrustaciones vectoriales se actualizan en tiempo real, con latencias en el rango de unos pocos milisegundos. Esta eficiencia proviene de un modelo de separación de cómputo que aísla los recursos para la construcción de índices de aquellos utilizados para la ejecución de consultas.

"Con la mayoría de las bases de datos vectoriales, las actualizaciones en tiempo real no son posibles; requieren reconstrucción de índices periódica", explicó Venkataramani.

Acelerando la Búsqueda de Similitud Vectorial ANN

La búsqueda vectorial puede llevarse a cabo mediante varios métodos, incluido el vecino más cercano aproximado (ANN) y las técnicas más precisas de K vecino más cercano (KNN). Mientras que ANN proporciona resultados aproximados de manera eficiente, KNN calcula las coincidencias exactas, lo que puede ser intensivo en recursos para conjuntos de datos grandes.

Rockset emplea tanto estrategias KNN como ANN según el contexto específico de la consulta y el conjunto de datos. La interfaz SQL permite a los usuarios combinar búsquedas vectoriales con filtros de metadatos, y el optimizador de Rockset selecciona automáticamente el mejor método para la velocidad. Gracias a su capacidad de actualización en tiempo real, los índices ANN de Rockset reflejan los datos más recientes en cuestión de milisegundos.

La Durabilidad de las Bases de Datos Vectoriales

En el reciente día de desarrollo de OpenAI, la compañía anunció nuevos servicios que tienen el potencial de transformar el panorama de la IA generativa. Las APIs de constructor y asistente de GPT de OpenAI han suscitado debates sobre el futuro de las tecnologías de bases de datos vectoriales.

A pesar de la especulación en la industria, Venkataramani sigue confiado en la demanda continua de bases de datos vectoriales. Argumenta que las grandes organizaciones con altos requisitos de seguridad y cumplimiento no pueden depender únicamente de servicios de terceros para sus iniciativas de IA. "La necesidad de bases de datos vectoriales no disminuirá, especialmente para conjuntos de datos complejos que impulsan casos de uso de Generación Aumentada por Recuperación (RAG)", declaró Venkataramani. Subrayó que a medida que las aplicaciones de IA evolucionan, la infraestructura subyacente—las bases de datos vectoriales—seguirán desempeñando un papel crucial. "Creo que las bases de datos vectoriales llegaron para quedarse, respaldadas por una variedad de casos de uso emergentes más allá de los chatbots", concluyó.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles