Das in San Francisco ansässige Unternehmen Datasaur, ein KI-Startup, das sich auf die Text- und Audioauszeichnung für KI-Projekte spezialisiert hat, hat LLM Lab ins Leben gerufen – eine umfassende Plattform, die Teams dabei unterstützt, benutzerdefinierte Anwendungen für große Sprachmodelle ähnlich wie ChatGPT zu erstellen und zu trainieren.
LLM Lab bietet sowohl Cloud- als auch lokale Bereitstellungsoptionen, die es Unternehmen ermöglichen, interne, generative KI-Anwendungen zu entwickeln und gleichzeitig Risiken in Bezug auf Geschäfts- und Datenschutz zu minimieren, die oft mit Drittanbieterdiensten verbunden sind. Damit erhalten Teams eine größere Kontrolle über ihre Projekte.
„Wir haben ein Tool geschaffen, das häufige Schmerzpunkte anspricht, sich entwickelnde Best Practices unterstützt und unserer Designphilosophie folgt, den Prozess zu vereinfachen“, sagte Ivan Lee, CEO und Gründer von Datasaur. „Aus unserer Erfahrung mit der Erstellung benutzerdefinierter Modelle für den internen Gebrauch und für Kunden haben wir ein skalierbares, benutzerfreundliches LLM-Produkt entwickelt.“
Hauptmerkmale von Datasaur LLM Lab
Seit seiner Gründung im Jahr 2019 hat Datasaur eine robuste Plattform zur Datenannotation für KI und NLP entwickelt. Der Launch von LLM Lab stellt eine bedeutende Weiterentwicklung dieser Angebote dar.
„Dieses Tool geht über unseren traditionellen Fokus auf Natural Language Processing (NLP) hinaus, der Methoden wie die Entitätenkennung und Textklassifizierung umfasst“, erklärte Lee. „LLMs repräsentieren die nächste Generation der Sprachtechnologie, und wir streben danach, die bevorzugte Lösung für Text-, Dokumenten- und Audio-KI-Anwendungen in der Branche zu sein.“
Aktuell bietet LLM Lab eine einheitliche Schnittstelle für verschiedene Komponenten der Entwicklung von LLM-Anwendungen, einschließlich interner Datenaufbereitung, Datenmanagement, retrieval-augmented generation (RAG), Auswahl eingebetteter Modelle und Optimierung von LLM-Antworten. Das Produkt wurde unter Berücksichtigung der Prinzipien Modularität, Kombinierbarkeit, Einfachheit und Wartbarkeit entwickelt.
„Dieser Ansatz verwaltet effizient verschiedene Texteingaben, Vektor-Datenbanken und Basis-Modelle. Die dynamische Natur des LLM-Bereichs erfordert eine technologieunabhängige Plattform, die es den Benutzern ermöglicht, Technologien für optimale Lösungen auszutauschen“, fügte Lee hinzu.
Um LLM Lab zu nutzen, wählen die Benutzer ein Basis-Modell aus und passen damit verbundene Einstellungen, wie Temperatur und maximale Antwortlänge, an. Unterstützte Modelle umfassen Meta's Llama 2, Falcons von Abu Dhabi aus dem Technology Innovation Institute und Anthropics Claude sowie Pinecone für Vektor-Datenbanken.
Anschließend können Benutzer Prompt-Vorlagen auswählen, um deren Effektivität zu testen, und Dokumente für RAG hochladen. Nach diesen Konfigurationen finalisieren sie die Einstellungen für eine qualitativ hochwertige Leistung und setzen die Anwendung in Betrieb. Die Benutzer können dann Prompt-/Completion-Paare bewerten und Feedback zur Feinabstimmung des Modells durch Verstärkungslernen mit menschlichem Feedback (RLHF) einfließen lassen.
Überwindung technischer Herausforderungen
Obwohl Lee die Anzahl der Unternehmen, die derzeit LLM Lab testen, nicht nannte, berichtete er von positiven Rückmeldungen durch frühe Benutzer.
Michell Handaka, Gründerin und CEO von GLAIR.ai, einem Nutzer der Plattform, betonte, dass das Lab die Kommunikation zwischen technischen und nicht-technischen Teams verbessert und damit Barrieren bei der Entwicklung von LLM-Anwendungen abbaut.
Datasaur hat bereits Schlüsselbranchen wie Finanzen, Recht und Gesundheitswesen dabei unterstützt, unstrukturierte Daten in wertvolle maschinenlernfähige Datensätze umzuwandeln. Zu den bemerkenswerten Partnerschaften zählen Qualtrics, Ontra, Consensus, LegalTech und Von Wobeser y Sierra.
„Wir unterstützen zukunftsorientierte Branchenführer und prognostizieren eine fünfmalige Umsatzsteigerung im Jahr 2024“, bemerkte Lee.
Zukünftige Entwicklungen für Datasaur und LLM Lab
Im kommenden Jahr plant Datasaur, LLM Lab weiter zu verbessern und in die Entwicklung von LLM auf Unternehmensebene zu investieren. Benutzer können erfolgreiche Konfigurationen speichern und Erkenntnisse mit Kollegen teilen. Das Lab wird außerdem neue und aufkommende Basis-Modelle integrieren.
Angesichts der steigenden Nachfrage nach benutzerdefinierten, datenschutzorientierten LLM-Anwendungen ist LLM Lab bereit, einen bemerkenswerten Einfluss auszuüben. Laut dem LLM Survey Report 2023 nutzen fast 62 % der Befragten LLM-Anwendungen wie ChatGPT und GitHub Copilot für Funktionen wie Chatbots, Kundenservice und Programmierung.
Vor dem Hintergrund wachsender Datenschutzbedenken verlassen sich viele Unternehmen zunehmend auf benutzerdefinierte interne Lösungen, die Sicherheits-, Datenschutz- und Regulierungsstandards einhalten.