Google Cloud hat zwei Versionen seines herausragenden KI-Modells eingeführt: Gemini 1.5 Flash und Gemini 1.5 Pro. Gemini 1.5 Flash ist ein kompaktes multimodales Modell mit einem Kontextfenster von 1 Million Tokens und wurde für hochfrequente Aufgaben entwickelt. Es wurde im Mai auf der Google I/O präsentiert und steht nun Entwicklern zur Verfügung. Das leistungsstärkere Gemini 1.5 Pro, das im Februar vorgestellt wurde, bietet ein beeindruckendes Kontextfenster von 2 Millionen Tokens und gilt als die fortschrittlichste Version von Googles großem Sprachmodell (LLM) bis heute.
Die Einführung dieser Gemini-Varianten zeigt, wie Googles KI-Technologie Unternehmen dabei unterstützen kann, innovative KI-Agenten und Lösungen zu entwickeln. In einer kürzlichen Pressekonferenz betonte Google Cloud CEO Thomas Kurian den "unglaublichen Schwung" bei der Einführung generativer KI und stellte fest, dass große Organisationen—darunter Accenture, Airbus und Goldman Sachs—auf der Plattform von Google aufbauen. Kurian führt diesen Anstieg auf die Fähigkeiten von Googles Modellen in Verbindung mit der Vertex-Plattform zurück, die schnelle Fortschritte in beiden Bereichen verspricht.
Gemini 1.5 Flash
Gemini 1.5 Flash bietet Entwicklern geringere Latenzzeiten, kosteneffiziente Preise und ein Kontextfenster, das sich ideal für Anwendungen wie Einzelhandels-Chat-Agenten und Dokumentenverarbeitung eignet. Google behauptet, dass Gemini 1.5 Flash im Durchschnitt 40 % schneller als GPT-3.5 Turbo bei der Verarbeitung von Eingaben mit 10.000 Zeichen ist. Darüber hinaus bietet es Kosten, die viermal niedriger sind als die des OpenAI-Modells, und unterstützt Kontext-Caching für Eingaben über 32.000 Zeichen.
Gemini 1.5 Pro
Gemini 1.5 Pro verfügt über ein einzigartiges Kontextfenster von 2 Millionen Tokens, das es ihm ermöglicht, umfangreichere Texte zu analysieren und umfassende Antworten zu generieren. Kurian erklärt, dass diese Fähigkeit es Benutzern ermöglicht, umfangreiche Inhalte einzugeben, wie beispielsweise ein zweistündiges HD-Video oder über 60.000 Codezeilen, ohne sie in kleinere Segmente zerlegen zu müssen. Viele Unternehmen entdecken bereits den erheblichen Nutzen, den die verbesserte Verarbeitungsleistung dieses Modells bietet.
Kurian unterscheidet weiter zwischen den beiden Modellen basierend auf den Bedürfnissen der Benutzer: Gemini 1.5 Pro eignet sich hervorragend für die Verarbeitung umfangreicher Inhalte, während Flash besser für Anwendungen mit niedriger Latenz geeignet ist.
Kontext-Caching für Gemini 1.5
Um Entwicklern zu helfen, das Potenzial von Geminis Kontextfenstern voll auszuschöpfen, führt Google das Kontext-Caching ein, das jetzt für beide Modelle in der öffentlichen Vorschau verfügbar ist. Diese Funktion ermöglicht es Modellen, zuvor verarbeitete Informationen zu speichern und wiederzuverwenden, was die Rechenkosten erheblich senkt—um bis zu 75 %—da die Notwendigkeit entfällt, Antworten für lange Gespräche oder Dokumente neu zu berechnen.
Provisionierte Durchsatzkapazität für Gemini
Die neu verfügbare Funktion der provisionierten Durchsatzkapazität ermöglicht Entwicklern, ihre Nutzung von Gemini-Modellen effizient zu skalieren, indem sie die Anzahl der Abfragen verwalten, die ein Modell über die Zeit hinweg bewältigen kann. Diese Option bietet im Vergleich zum vorherigen Pay-as-you-go-Modell eine verbesserte Vorhersehbarkeit und Zuverlässigkeit. Kurian wies darauf hin, dass provisionierte Durchsatzkapazität es Kunden ermöglicht, Inferenzkapazitäten zu reservieren, um eine konsistente Leistung selbst bei Spitzenbelastungen, wie sie bei großen Veranstaltungen in sozialen Medien auftreten, sicherzustellen.
Die provisionierte Durchsatzkapazität ist nun allgemein verfügbar und bietet Entwicklern größere Kontrolle über ihre Produktionsarbeitslasten sowie Servicelevel-Garantien hinsichtlich Antwortzeiten und Verfügbarkeit.