Heute gab Databricks die Übernahme von Lilac bekannt, einem in Boston ansässigen Forschungs-Startup, das sich auf Datenverständnis und -manipulation spezialisiert hat. Die finanziellen Einzelheiten der Übernahme wurden nicht veröffentlicht.
Unter der Leitung von Ali Ghodsi strebt Databricks an, das Team und die Technologie von Lilac in seine Plattform für Datenintelligenz zu integrieren, die zuvor als Data Lakehouse bekannt war. Diese Integration wird Nutzern in verschiedenen Bereichen einen vereinfachten Ansatz bieten, um die Datenqualität für die Entwicklung leistungsstarker Large Language Model (LLM) Anwendungen zu verbessern.
Diese Übernahme steht im Einklang mit der Vision von Databricks, eine umfassende Plattform für Daten- und generative KI-Lösungen zu werden. Kürzlich investierte das Unternehmen auch eine nicht angegebene Summe in Mistral, ein führendes Unternehmen im Bereich generative KI, das in Europa erheblichen Erfolg erzielt hat.
Lilac: Vereinfachung der Datenexploration
Die Übernahme von Mosaic AI im letzten Jahr markierte einen strategischen Wandel von Databricks hin zu einer KI-gesteuerten Zukunft. Dies ermöglicht es Nutzern, generative KI-Anwendungen sicher mit gehosteten Daten zu entwickeln. Seitdem hat Databricks mehrere offene Modelle eingeführt, die es Kunden ermöglichen, hochwertige LLM-Anwendungen zu entwickeln, bereitzustellen und zu warten, die auf verschiedene Geschäftsbedürfnisse zugeschnitten sind.
Wie in der Branche gut bekannt ist, bildet hochwertige Daten die Grundlage für effektive KI-Initiativen, einschließlich LLM-Systemen. Um ein optimales Modelltraining und reale Leistungstests zu gewährleisten—unter Berücksichtigung von Problemen wie Vorurteilen und Halluzinationen—benötigen Teams zuverlässige Daten. Lilac adressiert diese kritischen Herausforderungen der Datenqualität innerhalb von Databricks.
Traditionell haben Teams arbeitsintensive manuelle Methoden eingesetzt, um unstrukturierte Daten zu erkunden und deren Mängel zu beheben. Lilac, 2023 von ehemaligen Google-Ingenieuren Daniel Smilkov und Nikhil Thorat gegründet, bietet eine skalierbare, Open-Source-Lösung. Die intuitive Benutzeroberfläche und die KI-unterstützten Funktionen ermöglichen es Nutzern, unstrukturierte Textdaten effizient zu analysieren, zu verstehen und zu modifizieren.
Funktionen von Lilac
Laut der Website von Lilac können Datenwissenschaftler und KI-Forscher dessen Fähigkeiten für folgende Aufgaben nutzen:
- Clustering und Kategorisierung von Dokumenten
- Semantische und Schlüsselwortsuchen
- Erkennung persönlicher Informationen oder Duplikaten und notwendige Anpassungen über Vergleichsansichten
- Anpassung von Datensätzen an spezifische Bedürfnisse
„Das Team hinter Lilac hat ihr Produkt speziell entwickelt, um die Ausgaben von Modellen auf Vorurteile oder Toxizität zu analysieren und Daten für Retrieval-Augmented Generation (RAG) sowie Feinabstimmung oder Vortraining von LLMs vorzubereiten“, bemerkten die Databricks-Führungskräfte Matei Zaharia, Naveen Rao, Jonathan Frankle, Hanlin Tang und Akhil Gupta in einem gemeinsamen Blogbeitrag.
Sie betonten weiter, dass die Technologie von Lilac in die Mosaic AI-Tools von Databricks integriert wird, wodurch die Fähigkeit von Entwicklern zur Kuratierung von Datensätzen für maßgeschneiderte generative KI-Systeme verbessert wird. Obwohl spezifische Integrationsdetails noch nicht bekannt gegeben wurden, bleibt das Ziel klar: die Anpassung von Daten zu erleichtern, um LLM-Ausgaben zu evaluieren und zu überwachen sowie Datensätze für wichtige Prozesse wie RAG und Modellfeinabstimmung vorzubereiten.
Erweiterung der Generativen KI-Fähigkeiten
Diese Übernahme ist ein bedeutender Schritt für Databricks, um End-to-End-Tools für die Entwicklung robuster generative KI-Anwendungen anzubieten. Nutzer der Databricks-Plattform haben bereits Zugang zu allem, was erforderlich ist, um LLM-gesteuerte Systeme zu erstellen. Dazu gehören offene Modelle von Branchengrößen wie Meta, Stability und Mistral sowie spezialisierte Mosaic-Tools für Experimente und Optimierungen.
Als Reaktion auf ähnliche Marktanforderungen haben Wettbewerber wie Snowflake ebenfalls Fortschritte in diesem Bereich erzielt und Cortex eingeführt, einen voll verwalteten Dienst, der Kunden beim Aufbau von Apps mit fortschrittlichen offenen Modellen unterstützt.