Aujourd'hui, Databricks a annoncé l'acquisition de Lilac, une startup de recherche appliquée basée à Boston, spécialisée dans la compréhension et la manipulation des données. Les termes financiers de cette acquisition restent confidentiels.
Dirigé par Ali Ghodsi, Databricks vise à intégrer l'équipe et la technologie de Lilac au sein de sa plateforme d'intelligence des données, anciennement connue sous le nom de data lakehouse. Cette intégration permettra aux utilisateurs de divers domaines d'améliorer la qualité des ensembles de données pour le développement d'applications de modèles de langage de grande performance (LLM).
Cette acquisition s'inscrit dans la vision de Databricks de devenir une plateforme complète pour les solutions de données et d'IA générative. Récemment, l'entreprise a également investi une somme non divulguée dans Mistral, une startup de l'IA générative qui a connu un succès considérable en Europe.
Lilac : Simplifier l'exploration des données
L'acquisition de Mosaic AI l'année dernière a marqué un tournant stratégique pour Databricks vers un avenir axé sur l'IA, permettant aux utilisateurs de créer des applications d'IA générative en toute sécurité à partir de données hébergées. Depuis lors, Databricks a déployé plusieurs modèles ouverts, permettant à ses clients de développer, déployer et maintenir des applications LLM de haute qualité adaptées à divers besoins professionnels.
Comme le sait bien l'industrie, la qualité des données est la clé de toute initiative d'IA efficace, y compris pour les systèmes LLM. Afin d'assurer un entraînement optimal des modèles et des tests de performance dans le monde réel—tout en abordant des questions comme le biais et les hallucinations—les équipes ont besoin de données fiables. Lilac répond à ces défis critiques de qualité des données au sein de Databricks.
Traditionnellement, les équipes ont utilisé des méthodes manuelles laborieuses pour explorer les données non structurées et corriger leurs lacunes. Fondée en 2023 par d'anciens ingénieurs de Google, Daniel Smilkov et Nikhil Thorat, Lilac offre une solution open-source évolutive. Son interface utilisateur intuitive et ses fonctionnalités améliorées par l'IA permettent aux utilisateurs d'analyser, comprendre et modifier efficacement les données textuelles non structurées.
Fonctionnalités de Lilac
Selon le site web de Lilac, les scientifiques des données et les chercheurs en IA peuvent tirer parti de ses capacités pour des tâches telles que :
- Clustering et catégorisation de documents
- Recherche sémantique et par mots-clés
- Détection d’informations personnelles ou de doublons, avec modifications nécessaires via des vues comparatives
- Personnalisation des ensembles de données selon des besoins spécifiques
« L'équipe derrière Lilac a conçu son produit spécifiquement pour analyser les sorties des modèles pour déceler biais ou toxicité, et préparer les données pour la Génération Augmentée par Récupération (RAG) et le fine-tuning ou le pré-entraînement des LLM », ont déclaré les dirigeants de Databricks, Matei Zaharia, Naveen Rao, Jonathan Frankle, Hanlin Tang et Akhil Gupta, dans un article de blog commun.
Ils ont également souligné que la technologie de Lilac sera intégrée aux outils Mosaic AI de Databricks, renforçant ainsi la capacité des développeurs à curer des ensembles de données pour des systèmes d'IA générative personnalisés. Bien que les détails d'intégration spécifiques n'aient pas encore été révélés, l'objectif demeure clair : simplifier l'adaptation des données pour évaluer et surveiller les sorties des LLM et préparer les ensembles de données pour des processus cruciaux comme le RAG et le fine-tuning des modèles.
Élargissement des capacités d'IA générative
Cette acquisition représente une étape significative pour Databricks dans l'offre d'outils de bout en bout pour le développement d'applications d'IA générative robustes. Les utilisateurs de la plateforme Databricks ont déjà accès à tout le nécessaire pour créer des systèmes alimentés par des LLM. Cela inclut des modèles ouverts des leaders de l'industrie tels que Meta, Stability et Mistral, ainsi que des outils spécialisés Mosaic pour l'expérimentation et l'optimisation.
Face à des demandes similaires sur le marché, des concurrents comme Snowflake avancent également dans ce domaine, ayant lancé Cortex, un service totalement géré pour aider les clients à construire des applications alimentées par des modèles ouverts avancés.