Google präsentiert seine neueste Innovation, das Gemini-Modell, das Unternehmen und Entwicklern einen ersten Einblick in leistungsstarke Sprachfähigkeiten über eine zugängliche API bietet. Gemini ist in drei Größen erhältlich: Ultra, Pro und Nano. Ab sofort können Entwickler die Gemini Pro API über Googles kostenloses webbasiertes Entwickler-Tool AI Studio (ehemals Makersuite) nutzen, während Unternehmen sie über die Vertex AI-Plattform von Google Cloud integrieren können, um schnell Anwendungen zu erstellen.
Google plant, Gemini Pro in den kommenden Wochen basierend auf Nutzerfeedback weiter zu verfeinern. „Wir freuen uns auf die innovativen Anwendungen, die Entwickler und Unternehmen mit Gemini kreieren werden“, teilte das Unternehmen in einem aktuellen Blogbeitrag mit. Derzeit treibt Gemini Pro Bard an, Googles Konversations-KI, die im Wettbewerb zu ChatGPT steht. Ein herausragendes Feature der ersten Version ist das Kontextfenster von 32.000 Tokens, das rund 5.333 Wörter verarbeiten kann. Zum Vergleich: OpenAI’s GPT-4 Turbo kann bis zu 128.000 Tokens bewältigen. Zukünftige Iterationen von Gemini Pro werden voraussichtlich diese Kapazität erheblich erweitern.
Zu den Funktionen von Gemini Pro gehören die Unterstützung von 38 Sprachen, Funktionsaufrufe, Embeddings, semantische Suche und individuelles Wissen. Derzeit arbeitet die API ausschließlich mit Text input und output. Ein multimodaler Endpunkt—Gemini Pro Vision—erlaubt jedoch den Zugriff auf sowohl Text- als auch visuelle Eingaben, wie Bilder und Videos, und erzeugt basierend darauf Textausgaben.
Die Gemini Pro API ist derzeit kostenlos, hat jedoch eine Begrenzung auf maximal 60 Anfragen pro Minute. Bald wird eine Pay-as-you-go-Version eingeführt, die weniger Einschränkungen mit einer von Google als "preislich wettbewerbsfähig" beschriebenen Preisstruktur verspricht. Die Preise für Gemini Pro belaufen sich auf 0,00025 USD pro tausend Zeichen und 0,0025 USD pro Bild, während Ausgaben mit 0,0005 USD pro tausend Zeichen berechnet werden. Daten aus der kostenlosen Version werden von Google verwendet, um die Angebote zu verbessern, während die Daten der kostenpflichtigen Version privat bleiben.
Zusätzlich zu Gemini Pro erweitert Google seine Vertex-Plattform mit neuen Modellen, einschließlich Imagen 2, dem neuesten KI-Bildgenerationsmodell aus Google DeepMind. Dieses fortschrittliche Text-zu-Bild-Diffusionsmodell kann hochwertige Bilder und sogar realistische Logos für Unternehmen erstellen und in mehreren Sprachen Text darstellen.
Eine weitere bedeutende Ergänzung ist MedLM, eine Suite von Basis-Modellen, die speziell für den Gesundheitssektor optimiert wurde. Basierend auf dem Med-PaLM 2-Modell ist MedLM für Anwendungen wie medizinische Notizen und die Beantwortung gesundheitsbezogener Fragen vorgesehen. Derzeit ist dieses Modell exklusiv für Benutzer von Vertex in den USA zugänglich, mit Plänen, die Verfügbarkeit in den kommenden Wochen zu erweitern. Google beabsichtigt auch, Gemini-basierte Modelle bald in die MedLM-Suite zu integrieren.
Schließlich ist das Tool Duet AI for Developers nun allgemein verfügbar. Dieses Kollaborationstool hilft Entwicklern, den Prozess der Anwendungsentwicklung zu optimieren und kann in verschiedene Google Cloud-Plattformen für die Codegenerierung und Chatunterstützung integriert werden. In den nächsten Wochen wird Gemini in Duet AI integriert, das auch im Bereich Sicherheitsoperationen erweitert wird, um die Zusammenarbeit innerhalb einer einheitlichen SecOps-Plattform zu verbessern.
Mit diesen innovativen Tools ebnet Google den Weg für eine neue Ära KI-gesteuerter Anwendungen, die versprechen, Produktivität, Kreativität und Sicherheit in verschiedenen Branchen zu steigern.