谷歌发布PaliGemma：首款开放式多模态视觉-语言模型，提升AI能力

Home AI News CN 谷歌发布PaliGemma：首款开放式多模态视觉-语言模型，提升AI能力

谷歌推出了PaliGemma，这是其Gemma系列轻量级开放模型中的一种新型视觉语言多模态模型。PaliGemma专为图像描述、视觉问答和图像检索而设计，现已面向开发者开放，方便其集成到项目中。

在谷歌开发者大会上宣布的PaliGemma是Gemma系列中唯一一个旨在将视觉信息转换为书面语言的模型。作为一种小型语言模型（SLM），PaliGemma在处理时效率高，不需要大量内存或处理能力，特别适合资源有限的设备，如智能手机、物联网设备和个人电脑。

开发者们可能会被PaliGemma的潜力所吸引，因为它能够增强应用程序的功能，帮助用户生成内容，提高搜索能力，并帮助视觉障碍人士更好地理解周围环境。与许多依赖云计算和大型语言模型（LLM）的AI解决方案不同，SLM如PaliGemma能够降低延迟，从而缩短输入与响应之间的时间。这使得PaliGemma成为在网络连接不稳定地区应用的首选。

尽管网页和移动应用是PaliGemma的主要使用场景，但它也有潜力集成到可穿戴设备中，例如可以与Ray-Ban Meta智能眼镜竞争的智能眼镜，或Rabbit r1和Human AI Pin等设备。该模型还可以提升家庭和办公室机器人的性能。PaliGemma建立在与谷歌Gemini相同的研究和技术基础上，为开发者提供了一个熟悉且强大的项目框架。

除了发布PaliGemma，谷歌还推出了迄今为止最强大的Gemma版本，拥有高达270亿个参数。

谷歌发布Gemma 2系列：全新27B参数模型，单TPU轻松运行

OpenAI发布免费的GPT-4o，谁还需要支付ChatGPT Plus？