Von Generative AI 1.5 zu 2.0: Der Übergang von Retrieval-Augmented Generation zu fortschrittlichen Agentensystemen

Entwicklung von Lösungen mit generativen KI-Foundation-Modellen

Wir sind nun seit über einem Jahr mit der Erforschung generativer KI-Foundation-Modelle (FMs) beschäftigt. Ursprünglich auf große Sprachmodelle (LLMs) fokussiert, beobachten wir mittlerweile den Aufstieg multimodaler Modelle, die sowohl Bilder als auch Videos verstehen und generieren können, wodurch der Begriff „Foundation Model“ angemessener wird.

Mit der Weiterentwicklung des Feldes identifizieren wir Muster, um diese Lösungen effektiv in die Produktion zu bringen und bedeutende Auswirkungen zu erzielen, indem wir Informationen an unterschiedliche Bedürfnisse anpassen. Zahlreiche transformative Möglichkeiten stehen uns bevor, die die Komplexität und den Wert von LLMs erhöhen, wobei diese Fortschritte eine sorgfältige Kostenverwaltung erfordern.

Verstehen von Foundation-Modellen

Um FMs effektiv zu nutzen, müssen wir ihr Innenleben verstehen. Diese Modelle wandeln Wörter, Bilder, Zahlen und Klänge in Tokens um und sagen das relevanteste „nächste Token“ voraus, um die Nutzer zu engagieren. Rückmeldungen im vergangenen Jahr haben die Kernmodelle von Anthropic, OpenAI, Mixtral und Meta verfeinert und sie eng an den Erwartungen der Nutzer ausgerichtet.

Die Bedeutung der Token-Formatierung wurde erkannt, was zu einer verbesserten Leistung führt – YAML übertrifft typischerweise JSON. Die Community hat „Prompt-Engineering“-Techniken entwickelt, um die Antworten der Modelle zu verbessern. Beispielsweise hilft die Verwendung von Few-Shot-Prompts, dem Modell Beispiele zur Verfügung zu stellen, während Chain-of-Thought-Prompts zu gründlicheren Antworten auf komplexe Anfragen führen können. Viele aktive Nutzer generativer KI-Chat-Dienste haben diese Verbesserungen wahrscheinlich bemerkt.

Fortschritte in den LLM-Fähigkeiten

Die Erweiterung der Informationsverarbeitungskapazität von LLMs ist grundlegend für ihren Fortschritt. Modernste Modelle können jetzt bis zu 1 Million Tokens verwalten – das entspricht einem vollständigen College-Lehrbuch – und ermöglicht es den Benutzern, die Kontextrelevanz wie nie zuvor zu steuern.

Mit Anthropic's Claude habe ich beispielsweise einem Arzt geholfen, ein komplexes 700-seitiges Leitdokument zu durchforsten, und dabei eine Genauigkeitsrate von 85 % bei den relevanten Aufnahmeprüfungen erreicht. Auch Technologien, die Informationen basierend auf Konzepten anstelle von Schlüsselwörtern abrufen, bereichern weiter die Wissensbasis.

Neue Einbettungsmodelle wie titan-v2 und cohere-embed ermöglichen das Abrufen verwandter Texte, indem sie diverse Quellen in Vektoren umwandeln, die aus umfangreichen Datensätzen stammen. Innovationen wie die Vektoranfragen-Integration in Datenbanksysteme und spezialisierte Vektordatenbanken wie Turbopuffer ermöglichen die Skalierung auf große Dokumentensammlungen mit minimalem Leistungsverlust.

Trotz dieser Fortschritte bleibt die Skalierung von Lösungen eine Herausforderung, die Zusammenarbeit zwischen verschiedenen Disziplinen erfordert, um Sicherheit, Skalierbarkeit, Latenz, Kosteneffizienz und Antwortqualität in LLM-Anwendungen zu optimieren.

Innovation mit Gen 2.0 und Agentensystemen

Während die jüngsten Verbesserungen die Modellleistung und Anwendbarkeit steigern, stehen wir an der Schwelle zu einer neuen Evolution: der Integration mehrerer generativer KI-Funktionalitäten.

Die erste Phase umfasst die Erstellung manueller Handlungsketten, wie das BrainBox.ai ARIA-System, das Bilder von Gerätestörungen interpretiert, auf relevante Wissensdatenbanken zugreift und IoT-Datenfeeds abfragt, um Lösungen vorzuschlagen. Diese Systeme stoßen jedoch an ihre logischen Grenzen, da sie entweder hartcodierte Definitionen von Entwicklern benötigen oder auf einfache Entscheidungswege beschränkt sind.

Die nachfolgende Phase, Gen AI 2.0, sieht agile agentenbasierte Systeme vor, die multimodale Modelle mit einem reasoning engine (typischerweise ein LLM) nutzen. Diese Agenten zerlegen Probleme in handhabbare Schritte und wählen geeignete KI-gesteuerte Tools zur Ausführung aus, wobei sie ihren Ansatz basierend auf den Ergebnissen in jeder Phase anpassen.

Dieser modulare Ansatz erhöht die Flexibilität und ermöglicht es den Systemen, komplexe Aufgaben zu bewältigen. Beispielsweise könnte Devin.ai von Cognition Labs End-to-End-Programmieraufgaben automatisieren und dabei den umfangreichen menschlichen Eingriff reduzieren sowie Prozesse schnell abschließen, während Amazons Q for Developers automatische Java-Upgrades ermöglicht.

Im Gesundheitswesen könnte ein medizinisches Agentensystem EHR-Daten, Bildgebungs- und genetische Informationen sowie klinische Literatur synthetisieren und umfassende Behandlungsempfehlungen abgeben. Zudem könnten mehrere spezialisierte Agenten zusammenarbeiten, um detaillierte Patientenprofile zu erstellen und eigenständig mehrstufige Wissensprozesse durchzuführen, was den Bedarf an menschlicher Aufsicht verringert.

Dennoch können diese fortschrittlichen Systeme erhebliche Kosten durch umfangreiche LLM-API-Aufrufe verursachen, die große Tokenvolumina übertragen. Daher sind parallele Fortschritte in der LLM-Optimierung – von Hardware (z. B. NVIDIA Blackwell) über Frameworks (Mojo) bis zu Cloud-Lösungen (AWS Spot Instances) und Modellkonfigurationen (Parametergröße, Quantisierung) – entscheidend, um die Ausgaben effektiv zu steuern.

Fazit

Während Organisationen ihre Nutzung von LLMs weiterentwickeln, wird der Fokus auf die schnellere und effizientere Erzielung hochwertiger Ergebnisse verlagert. Angesichts des rasanten Wandels ist die Partnerschaft mit einem erfahrenen Team, das generative KI-Lösungen optimiert, entscheidend für den Erfolg.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles