Google ha presentado PaliGemma, un nuevo modelo multimodal de visión-lenguaje en su colección Gemma de modelos abiertos y ligeros. Diseñado para la generación de subtítulos de imágenes, respuestas a preguntas visuales y recuperación de imágenes, PaliGemma se suma a sus homólogos, CodeGemma y RecurrentGemma, y ya está disponible para que los desarrolladores lo integren en sus proyectos.
Anunciado en la conferencia de desarrolladores de Google, PaliGemma se distingue dentro de la familia Gemma como el único modelo dedicado a traducir información visual en lenguaje escrito. Como modelo de lenguaje pequeño (SLM), opera de manera eficiente sin requerir extensiva memoria o potencia de procesamiento, lo que lo hace ideal para dispositivos con recursos limitados como teléfonos inteligentes, dispositivos IoT y computadoras personales.
Es probable que los desarrolladores se sientan atraídos por PaliGemma debido a su potencial para mejorar aplicaciones. Puede asistir a los usuarios en la generación de contenido, optimizar capacidades de búsqueda y ayudar a personas con discapacidad visual a comprender mejor su entorno. Mientras muchas soluciones de IA son basadas en la nube y dependen de modelos de lenguaje grandes (LLMs), los SLMs como PaliGemma ayudan a reducir la latencia, minimizando el tiempo entre entrada y respuesta. Esto lo convierte en una opción preferida para aplicaciones en áreas con conectividad a internet poco confiable.
Aunque las aplicaciones web y móviles son los principales casos de uso para PaliGemma, existe potencial para su integración en dispositivos portátiles, como gafas inteligentes que podrían competir con las Ray-Ban Meta Smart Glasses, o dispositivos como Rabbit r1 o Humane AI Pin. El modelo también podría mejorar los robots para el hogar y la oficina. Construido sobre la misma investigación y tecnología que Google Gemini, PaliGemma ofrece a los desarrolladores un marco familiar y robusto para sus proyectos.
Además de lanzar PaliGemma, Google ha introducido su versión más extensa de Gemma hasta la fecha, con unos impresionantes 27 mil millones de parámetros.