In den letzten zehn Jahren hat sich die Landschaft der Datentools und -infrastruktur dramatisch verändert. Als Gründer eines Cloud-Dateninfrastrukturunternehmens seit 2009 und als Veranstalter einer Meetup-Community für Dateningenieure seit 2013 habe ich die Evolution dieser Community miterlebt, lange bevor „Dateningenieur“ zu einer offiziellen Berufsbezeichnung wurde. Diese einzigartige Perspektive ermöglicht es mir, über die Lehren der Vergangenheit nachzudenken und wie sie die Entwicklung in der neuen KI-Ära beeinflussen sollten.
Im Bereich der Tech-Antropologie markierte 2013 den Übergang von der "Big Data"-Ära zur "modernen Datenstapel"-Ära (MDS). Während der Big Data-Phase war der vorherrschende Glaube, dass mehr Daten zu besseren Erkenntnissen führen würden, was angeblich der Schlüssel zur Schaffung neuen Geschäftswerts war.
Als strategischer Berater für ein großes Internetunternehmen wurde ich einmal beauftragt, eine Strategie zur Analyse der massiven Datenmengen aus Milliarden täglichen DNS-Anfragen zu entwickeln, um potenzielle Erkenntnisse im Wert von 100 Millionen Dollar zu gewinnen. Leider konnten wir trotz unserer Bemühungen innerhalb des begrenzten Zeitrahmens des Projekts keine solchen Erkenntnisse identifizieren. Diese Erfahrung verstärkte eine entscheidende Lektion: Während die Speicherung riesiger Datenmengen relativ einfach ist, ist die Gewinnung bedeutungsvoller Erkenntnisse ein komplexes und ressourcenintensives Unterfangen.
In Anbetracht dieser Herausforderung beeilten sich Unternehmen, ihre Dateninfrastrukturen zu stärken, getrieben von dem Mantra, dass Einsichten nur aus optimierten Datensystemen generiert werden konnten. Dieser Eifer führte zu einer Explosion von Datentools, da Anbieter behaupteten, das fehlende Puzzlestück eines vollständigen Datenstapels bereitzustellen, das diese schwer fassbaren Einsichten liefern könnte.
Der Begriff „Explosion“ wird nicht leichtfertig verwendet; laut Matt Turcks 2024 MAD (Machine Learning, AI, and Data) Landscape ist die Anzahl der Unternehmen, die Tools für Dateninfrastrukturen anbieten, von 139 im Jahr 2012 auf 2.011 in diesem Jahr gestiegen – ein erstaunlicher Anstieg von 14,5-fach.
Die Herausforderung der Tool-Überladung
Mehrere Faktoren prägten die heutige Datenlandschaft. Viele Unternehmen migrierten ihre On-Premise-Workloads in die Cloud, wobei Anbieter moderner Datenstapel verwaltete Dienste anboten, die für Zuverlässigkeit, Flexibilität und skalierbare Lösungen konzipiert waren.
Allerdings traten bedeutende Herausforderungen auf, als Unternehmen während der Nullzinspolitik (ZIRP) ihre Toolsets erweiterten. Die Komplexität der Nutzung mehrerer unterschiedlicher Tools, Integrationsschwierigkeiten und unterutilisierte Cloud-Dienste weckten Zweifel daran, ob MDS seine Versprechen halten könnte.
Viele Fortune-500-Unternehmen investierten erheblich in Dateninfrastruktur, ohne eine kohärente Strategie zur Realisierung von Werten aus diesen Daten zu haben. Der Reiz, ein breites Spektrum an Tools zu sammeln, führte zu Redundanzen, da Teams innerhalb desselben Unternehmens oft überlappende Plattformen wie Tableau und Looker nutzten, was zu erhöhten Kosten ohne entsprechende Vorteile führte.
Trotz der eventualen Platzen der ZIRP-Blase wächst die MAD-Landschaft weiterhin. Warum ist das so?
Der neue KI-Stapel
Viele Unternehmen für Datentools, die während der ZIRP-Ära gut kapitalisiert waren, bleiben trotz strengerer Unternehmensbudgets und sinkender Marktnachfrage operativ. Ein wesentlicher Faktor ist das starke Interesse an KI, das eine neue Welle von Datentools hervorgebracht hat, ohne dass es zu einer wesentlichen Marktkonsolidierung aus der vorherigen Ära gekommen ist.
Der „KI-Stapel“ repräsentiert ein grundsätzlich neues Paradigma. Während traditionelle Datenstapel für strukturierte Daten konzipiert waren, gedeiht die neue Welle von KI auf massiven unstrukturierten Datensätzen – Text, Bilder und Videos. Zudem unterscheiden sich generative KI-Modelle von älteren, deterministischen maschinellen Lernmodellen, indem sie variierte Ausgaben selbst bei unveränderten Eingaben produzieren, wie bei Tools wie ChatGPT zu beobachten ist.
Angesichts dieser Unterschiede müssen Entwickler neue Methoden zur Bewertung und Überwachung der KI-Modellausgaben annehmen, um eine ethische Governance und effektive Integration sicherzustellen. Schlüsselfelder sollten die Orchestrierung von Agenten (Inter-Modell-Kommunikation), die Entwicklung spezialisierter Modelle für Nischenanwendungen und innovative Workflow-Tools zur Datenaufbereitung umfassen.
Zahlreiche Startups arbeiten bereits an diesen Herausforderungen, was zur Entstehung von modernen Tools im neuen KI-Stapel führt.
Intelligenter Bauen in der neuen KI-Ära
Während wir uns in dieser neuen KI-Ära bewegen, ist es entscheidend, unsere Vergangenheit anzuerkennen. Daten bilden das Fundament der KI, und die Vielzahl an verfügbaren Tools hat den Weg ebnet, Daten als wertvolles Gut zu betrachten. Dennoch müssen wir uns fragen, wie wir die Fehler vergangener Exzesse vermeiden können, während wir voranschreiten.
Ein Ansatz besteht darin, dass Unternehmen den spezifischen Wert klären, den sie von einem bestimmten Daten- oder KI-Tool erwarten. Ein übermäßiges Engagieren in Technologietrends ohne strategischen Zweck kann schädlich sein, insbesondere wenn der KI-Hype sowohl Aufmerksamkeit als auch Budgets frisst. Es ist wichtig, Tools zu priorisieren, die klaren Wert und messbaren ROI bieten.
Gründer sollten zudem vorsichtig sein, "Me-Too"-Lösungen zu schaffen. Bevor sie ein neues Tool auf einem überfüllten Markt verfolgen, sollten sie prüfen, ob ihr Team über einzigartige Erkenntnisse und differenzierte Fachkenntnisse verfügt, die tatsächlich Mehrwert bieten.
Auch Investoren müssen kritisch beurteilen, wo sich der Wert in der Daten- und KI-Tool-Landschaft aggregiert, bevor sie investieren. Sich nur auf den Werdegang eines Gründers aus renommierten Unternehmen zu verlassen, kann zu einem übersättigten Markt mit undifferenzierten Produkten führen.
Eine interessante Frage wurde auf einer kürzlichen Konferenz aufgeworfen: „Was kostet es Ihrem Unternehmen, wenn eine einzige Zeile Ihrer Daten ungenau ist?“ Dies regt Unternehmen an, einen klaren Rahmen zur Quantifizierung des Werts von Daten und Datentools in ihren Betrieben zu schaffen.
Ohne diese Klarheit wird kein Investment in Daten- und KI-Tools vorhandene Verwirrung lösen.