Die Verbesserung großer Sprachmodelle (LLMs) mit Wissen über die Trainingsdaten hinaus ist entscheidend für Unternehmensanwendungen. Ein bemerkenswerter Ansatz zur Integration von domänenspezifischem und kundenspezifischem Wissen in LLMs ist die retrieval-augmented generation (RAG). Dennoch erfüllen grundlegende RAG-Methoden oft nicht alle Anforderungen.
Der Aufbau effektiver datengestützter LLM-Anwendungen erfordert eine sorgfältige Berücksichtigung verschiedener Faktoren. In einer aktuellen Studie von Microsoft-Forschern wird ein Rahmenwerk vorgeschlagen, um unterschiedliche RAG-Aufgaben basierend auf der Art der benötigten externen Daten und der Komplexität des erforderlichen Denkens zu klassifizieren. „Datengestützte LLM-Anwendungen sind keine universelle Lösung“, merken die Forscher an. „Die Anforderungen in der realen Welt, insbesondere in Expertenbereichen, sind komplex und können erheblich variieren in Bezug auf die bereitgestellten Daten und die erforderlichen Überlegungen.“ Um diese Komplexität zu meistern, schlagen die Forscher eine vierstufige Kategorisierung von Nutzeranfragen vor:
- Explizite Fakten: Anfragen, die die Rückgewinnung direkt genannter Fakten aus den Daten erfordern.
- Implizite Fakten: Anfragen, die auf die Ableitung von nicht explizierten Informationen angewiesen sind und häufig einfaches Nachdenken erfordern.
- Interpretierbare Begründungen: Anfragen, die das Verständnis und die Anwendung von expliziten, domänenspezifischen Regeln aus externen Quellen erfordern.
- Versteckte Begründungen: Anfragen, die die Entdeckung impliziter Denkmethoden erfordern, die nicht in den Daten angegeben sind.
Jede Anfragebene stellt einzigartige Herausforderungen und erfordert maßgeschneiderte Lösungen.
Kategorien von Datengestützten LLM-Anwendungen
Explizite Faktenanfragen
Diese Anfragen konzentrieren sich auf die einfache Rückgewinnung von Fakteninformationen, die ausdrücklich in den Daten angegeben sind. Das Hauptmerkmal ist die direkte Abhängigkeit von spezifischen externen Daten. Grundlegendes RAG wird häufig eingesetzt, wobei das LLM relevante Informationen aus einer Wissensdatenbank abruft, um eine Antwort zu generieren. Allerdings treten Herausforderungen in jeder Phase der RAG-Pipeline auf. Beispielsweise muss das RAG-System während der Indizierung große, unstrukturierte Datensätze verwalten, die multimodale Elemente wie Bilder und Tabellen enthalten können. Modelle zur Parsing und Einbettung multimodaler Dokumente können helfen, den semantischen Kontext von textuellen und nicht-textuellen Elementen in einen gemeinsamen Raum zu überführen. In der Phase der Informationsrückgewinnung ist die Relevanz der abgerufenen Daten entscheidend. Entwickler können Abfragen mit Dokumentenspeichern abstimmen und synthetische Antworten nutzen, um die Abrufgenauigkeit zu verbessern. Zusätzlich ermöglicht das Fein-tuning in der Antwortgenerierung dem LLM, relevante Informationen zu erkennen und Rauschen aus der Wissensdatenbank zu ignorieren.
Implizite Faktenanfragen
Diese Anfragen erfordern, dass LLMs über reines Abrufen hinaus denken. Beispielsweise könnte ein Nutzer fragen: „Wie viele Produkte hat Unternehmen X im letzten Quartal verkauft?“ oder „Was sind die Hauptunterschiede zwischen den Strategien von Unternehmen X und Unternehmen Y?“ Diese Fragen erfordern ein mehrstufiges Fragenbeantworten, wobei Daten aus mehreren Quellen benötigt werden. Die Komplexität impliziter Faktenanfragen erfordert fortschrittliche RAG-Techniken, wie Interleaving Retrieval with Chain-of-Thought (IRCoT) und Retrieval Augmented Thought (RAT). Wissensgraphen in Kombination mit LLMs bieten ebenfalls eine strukturierte Methode für komplexes Denken und verbinden unterschiedliche Konzepte effektiv.
Interpretierbare Begründungsanfragen
Diese Anfragen verlangen von LLMs die Anwendung von domänenspezifischen Regeln zusammen mit faktualen Inhalten. „Interpretierbare Begründungsanfragen stellen eine einfache Kategorie dar, die auf externen Daten für Begründungen beruht“, erklären die Forscher. Diese Art umfasst häufig klare Richtlinien oder Denkprozesse, die für spezifische Probleme relevant sind. Ein Kundenservice-Chatbot könnte beispielsweise dokumentierte Protokolle für die Abwicklung von Rücksendungen mit dem Kontext des Kunden integrieren müssen. Die Integration dieser Begründungen in LLMs kann herausfordernd sein und erfordert Techniken zur Anpassung von Eingabeaufforderungen, einschließlich Reinforcement Learning und optimierten Eingabeaufforderungsbewertungen.
Versteckte Begründungsanfragen
Diese stellen die größte Herausforderung dar, da sie Denkmethoden erfordern, die in den Daten eingebettet, aber nicht explizit angegeben sind. Beispielsweise könnte das Modell historische Daten analysieren müssen, um Muster zu extrahieren, die auf ein aktuelles Problem anwendbar sind. „Die Navigation durch versteckte Begründungsanfragen… erfordert ausgeklügelte Analysetechniken, um die latente Weisheit zu entschlüsseln und zu nutzen, die in verschiedenen Datenquellen eingebettet ist“, stellen die Forscher fest. Effektive Lösungen für diese Anfragen können inklusives Lernen umfassen, um LLMs im Auswählen und Extrahieren relevanter Informationen zu schulen. Domänenspezifisches Fein-tuning könnte ebenfalls entscheidend sein, um dem Modell zu ermöglichen, komplexe Überlegungen anzustellen und zu erkennen, welche externen Daten notwendig sind.
Auswirkungen auf den Aufbau von LLM-Anwendungen
Die Umfrage und das Rahmenwerk der Microsoft Research verdeutlichen die Entwicklung von LLMs bei der Nutzung externer Daten für praktische Anwendungen und heben gleichzeitig die bestehenden Herausforderungen hervor. Unternehmen können dieses Rahmenwerk nutzen, um informierte Entscheidungen über die Integration externen Wissens in ihre LLMs zu treffen. Während RAG-Techniken viele Einschränkungen grundlegender LLMs adressieren, müssen Entwickler sich der Fähigkeiten und Einschränkungen ihrer gewählten Methoden bewusst bleiben und bei Bedarf auf ausgefeiltere Systeme umsteigen.