Google Lança PaliGemma: Seu Primeiro Modelo Multimodal de Visão-Linguagem Aberto para Aprimorar as Capacidades de IA

Home Notícias de IA Google Lança PaliGemma: Seu Primeiro Modelo Multimodal de Visão-Linguagem Aberto para Aprimorar as Capacidades de IA

O Google lançou o PaliGemma, um novo modelo multimodal de visão-linguagem da sua coleção Gemma de modelos leves e abertos. Projetado para legenda de imagens, perguntas visuais e recuperação de imagens, o PaliGemma se junta aos seus contrapartes, CodeGemma e RecurrentGemma, e agora está disponível para desenvolvedores integrarem em seus projetos.

Anunciado na conferência de desenvolvedores do Google, o PaliGemma é o único modelo da família Gemma focado em traduzir informações visuais em linguagem escrita. Como um pequeno modelo de linguagem (SLM), ele opera de forma eficiente, sem exigir muita memória ou poder de processamento, tornando-se ideal para dispositivos com recursos limitados, como smartphones, dispositivos IoT e computadores pessoais.

Os desenvolvedores devem se interessar pelo PaliGemma devido ao seu potencial para aprimorar aplicações. Ele pode ajudar os usuários na geração de conteúdo, melhorar capacidades de busca e auxiliar pessoas com deficiência visual a entender melhor seu entorno. Enquanto muitas soluções de IA são baseadas em nuvem e dependem de grandes modelos de linguagem (LLMs), SLMs como o PaliGemma ajudam a reduzir a latência—minimizando o tempo entre entrada e resposta. Isso o torna uma escolha preferida para aplicações em áreas com conectividade de internet instável.

Embora as aplicações web e móveis sejam os principais casos de uso para o PaliGemma, há potencial para sua integração em dispositivos vestíveis, como óculos inteligentes que poderiam competir com os Óculos Inteligentes Ray-Ban Meta, ou dispositivos como o Rabbit r1 ou o Humane AI Pin. O modelo também pode aprimorar robôs domésticos e de escritório. Baseado na mesma pesquisa e tecnologia que o Google Gemini, o PaliGemma oferece aos desenvolvedores uma estrutura familiar e robusta para seus projetos.

Além do lançamento do PaliGemma, o Google apresentou sua versão mais extensa da coleção Gemma até agora, com impressionantes 27 bilhões de parâmetros.

Google Lança a Série Gemma 2: Apresentando um Modelo de 27 Bilhões de Parâmetros que Funciona com Apenas um TPU

Com a OpenAI liberando o GPT-4o, quem ainda precisa pagar pelo ChatGPT Plus?

Most people like

WhisperUI

28.4K

Descubra um serviço acessível de conversão de texto em fala e de fala em texto que transforma conteúdo escrito em áudio realista e converte palavras faladas em texto preciso. Perfeito para empresas, educadores e indivíduos, nossa solução inovadora aprimora a acessibilidade e a eficiência. Seja para criar áudio para apresentações ou transcrever reuniões, nosso serviço versátil atende a todas as suas necessidades de transcrição e síntese de voz. Experimente uma comunicação fluida e produtividade aprimorada hoje!

texto-para-fala AI Speech Recognition

Kaiden AI

6.1K

Aproveitando Simulações de Voz em IA para Aprimorar o Treinamento de Habilidades Profissionais No ambiente de trabalho em rápida evolução de hoje, a comunicação eficaz e habilidades especializadas são fundamentais. As simulações de voz em IA estão revolucionando o treinamento de habilidades profissionais ao oferecer experiências de prática imersivas e realísticas. Essas ferramentas avançadas têm como objetivo melhorar os resultados de aprendizado, aumentar a confiança e promover o desenvolvimento de competências essenciais em diversas indústrias. Descubra como as simulações de voz em IA podem transformar suas iniciativas de treinamento profissional e prepará-lo para o sucesso em um mercado de trabalho competitivo.

Soluções de treinamento em IA AI Interview Assistant

timeMaster

31.5K

Descubra o poder de uma ferramenta de rastreamento de tempo automatizada, projetada para aumentar a produtividade e melhorar a gestão do foco.

rastreamento de tempo Other

Ludo.ai

65.7K

Ludo.ai capacita estúdios de jogos a desenvolver títulos de sucesso, oferecendo assistência em pesquisa e design impulsionada por IA, adaptada para a indústria de jogos.

Assistente com inteligência artificial Game

Find AI tools in YBX