Databricks Adquiere Lilac para Mejorar la Calidad de los Datos en Aplicaciones de IA Generativa

Hoy, Databricks anunció la adquisición de Lilac, una startup de investigación aplicada con sede en Boston, especializada en la comprensión y manipulación de datos. Los términos financieros de la adquisición no se han hecho públicos.

Bajo el liderazgo de Ali Ghodsi, Databricks busca integrar al equipo y la tecnología de Lilac en su plataforma de inteligencia de datos, anteriormente conocida como el lakehouse de datos. Esta integración ofrecerá a los usuarios de diversos sectores un enfoque más eficiente para mejorar la calidad de los conjuntos de datos y desarrollar aplicaciones de modelos de lenguaje de alto rendimiento (LLM).

Esta adquisición está alineada con la visión de Databricks de convertirse en una plataforma integral para soluciones de datos e inteligencia artificial generativa. Recientemente, la empresa también realizó una inversión no revelada en Mistral, una destacada startup de IA generativa que ha tenido un éxito considerable en Europa.

Lilac: Simplificando la Exploración de Datos

La adquisición de Mosaic AI el año pasado marcó un cambio estratégico en Databricks hacia un futuro impulsado por la IA, permitiendo a los usuarios construir aplicaciones de IA generativa de forma segura utilizando datos alojados. Desde entonces, Databricks ha lanzado múltiples modelos abiertos, capacitando a sus clientes para desarrollar, implementar y mantener aplicaciones de LLM de alta calidad adaptadas a diversas necesidades empresariales.

Como bien sabe la industria, los datos de alta calidad son fundamentales para iniciativas efectivas de IA, incluidos los sistemas LLM. Para garantizar un entrenamiento óptimo del modelo y pruebas de rendimiento en el mundo real—abordando problemas como el sesgo y las alucinaciones—los equipos necesitan datos fiables. Lilac aborda estos desafíos críticos de calidad de datos dentro de Databricks.

Tradicionalmente, los equipos han utilizado métodos manuales laboriosos para explorar datos no estructurados y corregir sus deficiencias. Fundada en 2023 por exingenieros de Google, Daniel Smilkov y Nikhil Thorat, Lilac ofrece una solución escalable y de código abierto. Su interfaz de usuario intuitiva y sus características mejoradas por IA permiten a los usuarios analizar, entender y modificar datos de texto no estructurado de manera eficiente.

Características de Lilac

Según el sitio web de Lilac, los científicos de datos e investigadores de IA pueden aprovechar sus capacidades para tareas como:

- Agrupación y categorización de documentos

- Realización de búsquedas semánticas y por palabras clave

- Detección de información personal o duplicados, y ajuste necesario mediante vistas comparativas

- Adaptación de conjuntos de datos a necesidades específicas

“El equipo detrás de Lilac diseñó su producto para analizar los resultados de los modelos en busca de sesgo o toxicidad, y para preparar datos para la Generación Aumentada por Recuperación (RAG) y el ajuste fino o preentrenamiento de LLM”, mencionaron los ejecutivos de Databricks Matei Zaharia, Naveen Rao, Jonathan Frankle, Hanlin Tang y Akhil Gupta en una publicación conjunta en el blog.

Además, enfatizaron que la tecnología de Lilac se integrará en las herramientas de Mosaic AI de Databricks, mejorando la capacidad de los desarrolladores para curar conjuntos de datos para sistemas de IA generativa personalizados. Aunque aún no se han divulgado detalles específicos sobre la integración, el objetivo sigue siendo claro: simplificar la adaptación de datos para evaluar y monitorear los resultados de LLM y preparar conjuntos de datos para procesos importantes como RAG y ajuste fino de modelos.

Ampliando Capacidades de IA Generativa

Esta adquisición representa un paso significativo para Databricks hacia la oferta de herramientas de extremo a extremo para desarrollar aplicaciones robustas de IA generativa. Los usuarios en la plataforma de Databricks ya tienen acceso a todo lo necesario para crear sistemas impulsados por LLM. Esto incluye modelos abiertos de líderes de la industria como Meta, Stability y Mistral, junto con herramientas especializadas de Mosaic para la experimentación y optimización.

En respuesta a demandas similares del mercado, competidores como Snowflake también están avanzando en este espacio, habiendo introducido Cortex, un servicio completamente gestionado para ayudar a los clientes en la construcción de aplicaciones impulsadas por modelos abiertos avanzados.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles