Google 推出 PaliGemma：首款開放的多模態視覺-語言模型，提升 AI 能力

Home AI新聞 Google 推出 PaliGemma：首款開放的多模態視覺-語言模型，提升 AI 能力

谷歌發布了PaliGemma，這是一款新的視覺語言多模態模型，屬於其輕量級開放模型系列Gemma。PaliGemma專為圖像標題生成、視覺問答和圖像檢索而設，與CodeGemma及RecurrentGemma等其他模型並肩而立，並已開放給開發者集成至其項目中。

在谷歌開發者大會上宣布的PaliGemma，在Gemma系列中獨樹一幟，因為它專注於將視覺信息轉換為書面語言。作為一個小型語言模型（SLM），它高效運行，無需龐大的記憶體或運算能力，特別適合智能手機、物聯網設備和個人電腦等資源有限的裝置。

開發者會對PaliGemma的應用潛力格外感興趣，因為它能幫助用戶生成內容、提升搜索能力，並協助視障人士更好地理解周圍環境。雖然許多AI解決方案依賴大型語言模型（LLMs）和雲端服務，PaliGemma這類SLM有助於減少延遲，即輸入與反應之間的時間，成為網路連接不穩定地區應用的首選。

雖然網頁和移動應用是PaliGemma的主要使用案例，但它也具有整合到可穿戴設備的潛力，如可能與Ray-Ban Meta智能眼鏡競爭的智能眼鏡，或Rabbit r1和Humane AI Pin等設備。該模型還可增強家庭和辦公室機器人的功能。基於與Google Gemini相同的研究和技術，PaliGemma為開發者提供了一個熟悉且穩健的項目框架。

除了發布PaliGemma外，谷歌還推出了其迄今為止最大的Gemma版本，擁有驚人的270億個參數。

Google 發布 Gemma 2 系列：推出一款擁有 270 億參數的模型，僅需一個 TPU 即可運行

隨著OpenAI推出免費的GPT-4o，還有誰需要訂閱ChatGPT Plus？