Google hat PaliGemma vorgestellt, ein neues multimodales Modell für Vision und Sprache aus der Gemma-Kollektion leichter Open-Modelle. PaliGemma ist für die Bildbeschreibung, visuelle Fragenantworten und Bildabruf konzipiert und ergänzt die Modelle CodeGemma und RecurrentGemma. Es steht jetzt Entwicklern zur Verfügung, die es in ihre Projekte integrieren möchten.
PaliGemma wurde auf der Entwicklerkonferenz von Google angekündigt und ist das einzige Modell der Gemma-Familie, das sich auf die Übersetzung visueller Informationen in Schriftsprache konzentriert. Als kleines Sprachmodell (SLM) arbeitet es effizient, ohne große Speicherkapazitäten oder Rechenleistung zu erfordern, was es ideal für ressourcenschwache Geräte wie Smartphones, IoT-Geräte und Personal Computer macht.
Entwickler dürften von PaliGemma angezogen werden, da es Anwendungen bereichern kann. Es hilft Nutzern, Inhalte zu generieren, verbessert die Suchfunktionen und unterstützt Sehbehinderte dabei, ihre Umgebung besser zu verstehen. Während viele KI-Lösungen cloudbasiert sind und auf großen Sprachmodellen (LLMs) basieren, tragen SLMs wie PaliGemma dazu bei, die Latenz zu reduzieren – also die Zeit zwischen Eingabe und Antwort zu minimieren. Dies macht es zur bevorzugten Wahl für Anwendungen in Gebieten mit unzuverlässiger Internetverbindung.
Obwohl Web- und Mobile-Apps die Hauptanwendungsfälle für PaliGemma sind, gibt es Möglichkeiten zur Integration in tragbare Technologien, wie intelligente Brillen, die potenziell mit Ray-Ban Meta Smart Glasses konkurrieren könnten, oder Geräte wie Rabbit r1 oder Humane AI Pin. Das Modell könnte auch die Fähigkeiten von Heim- und Bürorobotern erweitern. Basierend auf der gleichen Forschung und Technologie wie Google Gemini, bietet PaliGemma Entwicklern ein bekanntes und robustes Framework für ihre Projekte.
Neben der Einführung von PaliGemma hat Google seine bisher umfangreichste Gemma-Version präsentiert, die beeindruckende 27 Milliarden Parameter umfasst.