谷歌推出了PaliGemma,这是其Gemma系列轻量级开放模型中的一种新型视觉语言多模态模型。PaliGemma专为图像描述、视觉问答和图像检索而设计,现已面向开发者开放,方便其集成到项目中。
在谷歌开发者大会上宣布的PaliGemma是Gemma系列中唯一一个旨在将视觉信息转换为书面语言的模型。作为一种小型语言模型(SLM),PaliGemma在处理时效率高,不需要大量内存或处理能力,特别适合资源有限的设备,如智能手机、物联网设备和个人电脑。
开发者们可能会被PaliGemma的潜力所吸引,因为它能够增强应用程序的功能,帮助用户生成内容,提高搜索能力,并帮助视觉障碍人士更好地理解周围环境。与许多依赖云计算和大型语言模型(LLM)的AI解决方案不同,SLM如PaliGemma能够降低延迟,从而缩短输入与响应之间的时间。这使得PaliGemma成为在网络连接不稳定地区应用的首选。
尽管网页和移动应用是PaliGemma的主要使用场景,但它也有潜力集成到可穿戴设备中,例如可以与Ray-Ban Meta智能眼镜竞争的智能眼镜,或Rabbit r1和Human AI Pin等设备。该模型还可以提升家庭和办公室机器人的性能。PaliGemma建立在与谷歌Gemini相同的研究和技术基础上,为开发者提供了一个熟悉且强大的项目框架。
除了发布PaliGemma,谷歌还推出了迄今为止最强大的Gemma版本,拥有高达270亿个参数。