Google startet PaliGemma: Sein erstes offenes multimodales Vision-Language-Modell zur Verbesserung der KI-Fähigkeiten

Home KI-Nachrichten Google startet PaliGemma: Sein erstes offenes multimodales Vision-Language-Modell zur Verbesserung der KI-Fähigkeiten

Google hat PaliGemma vorgestellt, ein neues multimodales Modell für Vision und Sprache aus der Gemma-Kollektion leichter Open-Modelle. PaliGemma ist für die Bildbeschreibung, visuelle Fragenantworten und Bildabruf konzipiert und ergänzt die Modelle CodeGemma und RecurrentGemma. Es steht jetzt Entwicklern zur Verfügung, die es in ihre Projekte integrieren möchten.

PaliGemma wurde auf der Entwicklerkonferenz von Google angekündigt und ist das einzige Modell der Gemma-Familie, das sich auf die Übersetzung visueller Informationen in Schriftsprache konzentriert. Als kleines Sprachmodell (SLM) arbeitet es effizient, ohne große Speicherkapazitäten oder Rechenleistung zu erfordern, was es ideal für ressourcenschwache Geräte wie Smartphones, IoT-Geräte und Personal Computer macht.

Entwickler dürften von PaliGemma angezogen werden, da es Anwendungen bereichern kann. Es hilft Nutzern, Inhalte zu generieren, verbessert die Suchfunktionen und unterstützt Sehbehinderte dabei, ihre Umgebung besser zu verstehen. Während viele KI-Lösungen cloudbasiert sind und auf großen Sprachmodellen (LLMs) basieren, tragen SLMs wie PaliGemma dazu bei, die Latenz zu reduzieren – also die Zeit zwischen Eingabe und Antwort zu minimieren. Dies macht es zur bevorzugten Wahl für Anwendungen in Gebieten mit unzuverlässiger Internetverbindung.

Obwohl Web- und Mobile-Apps die Hauptanwendungsfälle für PaliGemma sind, gibt es Möglichkeiten zur Integration in tragbare Technologien, wie intelligente Brillen, die potenziell mit Ray-Ban Meta Smart Glasses konkurrieren könnten, oder Geräte wie Rabbit r1 oder Humane AI Pin. Das Modell könnte auch die Fähigkeiten von Heim- und Bürorobotern erweitern. Basierend auf der gleichen Forschung und Technologie wie Google Gemini, bietet PaliGemma Entwicklern ein bekanntes und robustes Framework für ihre Projekte.

Neben der Einführung von PaliGemma hat Google seine bisher umfangreichste Gemma-Version präsentiert, die beeindruckende 27 Milliarden Parameter umfasst.

Google präsentiert die Gemma 2 Serie: Einführung eines 27B-Parameter-Modells, das auf nur einem TPU betrieben werden kann.

Mit der Freigabe von OpenAI GPT-4o – Wer benötigt noch ein ChatGPT Plus-Abonnement?

Most people like

Vidnoz AI Video Translator

10.3M

Übersetzen Sie Videos in über 140 Sprachen in nur 3 einfachen Schritten! Entfalten Sie das globale Potenzial Ihrer Inhalte mit unserem leicht verständlichen Prozess zur Übersetzung von Videos in mehr als 140 Sprachen. Ob Sie ein breiteres Publikum erreichen oder das Engagement Ihrer Zuschauer steigern möchten, unser optimierter Ansatz sorgt dafür, dass Ihre Botschaften weltweit ankommen. Verabschieden Sie sich von Sprachbarrieren und begrüßen Sie ein stärker verbundenes, mehrsprachiges Publikum!

Videotranslation Translate

Akkadu

24.5K

Akkadu bietet KI-generierte Untertitel in Echtzeit und verbessert das Verständnis von Videos und Live-Events in mehreren Sprachen. Diese innovative Technologie ermöglicht es dem Publikum, Inhalte problemlos zu verfolgen und sorgt für eine nahtlose mehrsprachige Zugänglichkeit.

Echtzeit-KI-Untertitel AI Advertising Assistant

Decisions

72.1K

Entdecken Sie die Möglichkeiten der Automatisierung und revolutionieren Sie Ihr Leben. Erfahren Sie, wie die Nutzung von Technologie Ihre Aufgaben vereinfachen, die Produktivität steigern und in sowohl persönlichen als auch beruflichen Bereichen bedeutende Veränderungen herbeiführen kann.

Automatisierung No-Code&Low-Code

SHRED: Home & Gym Workouts App

33.4K

Präsentation unserer innovativen, KI-gestützten Personal-Training-App, die darauf ausgelegt ist, Ihr Fitnesserlebnis zu Hause oder im Fitnessstudio zu optimieren. Dieses hochmoderne Tool passt die Trainingspläne an Ihre individuellen Ziele an und stellt sicher, dass Sie aus jeder Einheit das Beste herausholen. Egal, ob Sie Anfänger oder erfahrener Sportler sind, unsere App passt sich Ihren Bedürfnissen an und bietet maßgeschneiderte Routinen, die Ergebnisse maximieren und Sie motivieren, auf Kurs zu bleiben. Machen Sie sich bereit für eine transformative Fitnessreise, die Ihnen direkt zur Verfügung steht!

Fitness-App Fitness

Find AI tools in YBX