Um große Sprachmodelle (LLMs) zu nutzen, greifen Webanwendungen normalerweise auf Verbindungen zu Cloud-Servern zurück. Der frühere Google-Ingenieur Jacob Lee hat jedoch eine innovative Methode vorgestellt, um KI lokal auszuführen, was sowohl die Kosten als auch die Datenschutzbedenken im Zusammenhang mit cloudbasierten Lösungen erheblich reduzieren könnte. Nachdem er an der Entwicklung von Google Photos beteiligt war, arbeitet Lee jetzt am populären LangChain-Framework und teilt Einblicke zu seinem Ansatz in einem Blogbeitrag auf Ollama.
In seinem Beitrag erklärt Lee, wie Entwickler Webanwendungen erstellen können, die direkt von einem Benutzergerät aus mit Dokumenten interagieren, wodurch teure Cloud-Verbindungen überflüssig werden. Mit einer Kombination aus Open-Source-Tools hat er eine Web-App entwickelt, die es Nutzern ermöglicht, in natürlicher Sprache mit Berichten oder Facharbeiten zu kommunizieren. Interessierte Benutzer können ganz einfach durch die Installation der Ollama-Desktopanwendung, das Ausführen einiger Befehle für die lokale Einrichtung und dann die Interaktion mit einem Chatbot über hochgeladene Dokumente auf eine Demo zugreifen.
Für die Demo benötigen die Benutzer eine lokal über Ollama laufende Mistral-Instanz, und umfassende Einrichtungsanweisungen sind in Lees Blog zu finden.
Wie der Prozess funktioniert
Die zugrunde liegende Mechanik von Lees Implementierung umfasst einen effizienten Fünf-Schritte-Prozess:
1. Datenaufnahme: Benutzer laden Dokumente, wie PDFs, in das System. Lee verwendet LangChain, um diese Dokumente in handhabbare Abschnitte zu unterteilen und generiert Vektor-Einbettungen für jeden Abschnitt mit Hilfe von Transformers.js. Diese Abschnitte werden dann in der Voy-Vektor-Datenbank organisiert.
2. Abruf: Wenn ein Benutzer eine Frage eingibt, durchsucht das System den Vektorspeicher, um die Abschnitte zu finden, die am relevantesten sind.
3. Generierung: Die Frage und die identifizierten Abschnitte werden an die lokal laufende Ollama-KI gesendet, die das Mistral-Modell verwendet, um eine Antwort basierend auf den abgerufenen Informationen zu generieren.
4. Neufassung: Bei weiteren Anfragen reformuliert das System die Fragen, bevor die Schritte Abruf und Generierung wiederholt werden.
5. Zugriff auf lokale KI: Das Ollama-Tool ermöglicht den Zugriff auf das lokal laufende Mistral-Modell über die Web-App, sodass eine nahtlose Integration der Generierungsfunktionalität gewährleistet ist.
Zusammenfassend hat Lee eine Webanwendung entwickelt, die in der Lage ist, offline über Dokumente zu diskutieren, während sie vollständig von intelligenter Software betrieben wird, die auf dem persönlichen Computer eines Benutzers läuft.
Vorteile für Unternehmen und Entwickler
Dieser lokal ausgerichtete Ansatz hat erhebliche Auswirkungen auf Unternehmen und Entwickler. Durch den Verzicht auf die Abhängigkeit von Cloud-Diensten können Organisationen ihre Betriebskosten erheblich senken, insbesondere bei der Skalierung. Darüber hinaus ermöglicht diese Methode eine hohe Anpassung, da Benutzer individuell angepasste Modelle mit proprietären Daten erstellen können.
Die Verarbeitung von Daten vor Ort adressiert auch Datenschutzprobleme und stellt sicher, dass vertrauliche Informationen innerhalb der Unternehmensgrenzen verbleiben und potenzielle Datenpannen minimiert werden. Lee erwartet, dass solche Systeme zunehmend an Bedeutung gewinnen, da neue Modelle kleiner und effizienter entwickelt werden, was ihre Kompatibilität mit lokalen Geräten erhöht.
Um den Zugang weiter zu erleichtern, plant Lee eine Browser-API, die es Webanwendungen ermöglicht, auf ein lokal betriebenes LLM zuzugreifen, ähnlich einer Chrome-Erweiterung. „Ich bin extrem gespannt auf die Zukunft von LLM-gestützten Web-Apps und darauf, wie Technologien wie Ollama und LangChain unglaubliche neue Benutzerinteraktionen ermöglichen können“, bemerkte er.
Lees Konzept steht im Einklang mit einem wachsenden Trend in der KI-gestützten Webentwicklung. Plattformen wie MetaGPT erlauben es Nutzern, Anwendungen mithilfe natürlicher Sprachbefehle zu erstellen, während Tools wie CodeWP.ai HTML für Websites generieren. Darüber hinaus optimieren Entwicklerumgebungen wie GitHub Copilot und Replit AI den Kodierungsprozess, und Initiativen wie Googles Projekt IDX bieten KI-Ressourcen für Entwickler zur Erkundung.
Zusammenfassend ebnet Jacob Lees innovativer Ansatz zur lokalen LLM-Integration nicht nur den Weg für kostengünstige und datenschutzbewusste Anwendungen, sondern transformiert auch die Art und Weise, wie Benutzer in einer zunehmend von fortschrittlichen KI-Funktionen gesteuerten digitalen Landschaft mit Technologie interagieren.