O Google lançou o PaliGemma, um novo modelo multimodal de visão-linguagem da sua coleção Gemma de modelos leves e abertos. Projetado para legenda de imagens, perguntas visuais e recuperação de imagens, o PaliGemma se junta aos seus contrapartes, CodeGemma e RecurrentGemma, e agora está disponível para desenvolvedores integrarem em seus projetos.
Anunciado na conferência de desenvolvedores do Google, o PaliGemma é o único modelo da família Gemma focado em traduzir informações visuais em linguagem escrita. Como um pequeno modelo de linguagem (SLM), ele opera de forma eficiente, sem exigir muita memória ou poder de processamento, tornando-se ideal para dispositivos com recursos limitados, como smartphones, dispositivos IoT e computadores pessoais.
Os desenvolvedores devem se interessar pelo PaliGemma devido ao seu potencial para aprimorar aplicações. Ele pode ajudar os usuários na geração de conteúdo, melhorar capacidades de busca e auxiliar pessoas com deficiência visual a entender melhor seu entorno. Enquanto muitas soluções de IA são baseadas em nuvem e dependem de grandes modelos de linguagem (LLMs), SLMs como o PaliGemma ajudam a reduzir a latência—minimizando o tempo entre entrada e resposta. Isso o torna uma escolha preferida para aplicações em áreas com conectividade de internet instável.
Embora as aplicações web e móveis sejam os principais casos de uso para o PaliGemma, há potencial para sua integração em dispositivos vestíveis, como óculos inteligentes que poderiam competir com os Óculos Inteligentes Ray-Ban Meta, ou dispositivos como o Rabbit r1 ou o Humane AI Pin. O modelo também pode aprimorar robôs domésticos e de escritório. Baseado na mesma pesquisa e tecnologia que o Google Gemini, o PaliGemma oferece aos desenvolvedores uma estrutura familiar e robusta para seus projetos.
Além do lançamento do PaliGemma, o Google apresentou sua versão mais extensa da coleção Gemma até agora, com impressionantes 27 bilhões de parâmetros.