Google 推出 PaliGemma:首款開放的多模態視覺-語言模型,提升 AI 能力

谷歌發布了PaliGemma,這是一款新的視覺語言多模態模型,屬於其輕量級開放模型系列Gemma。PaliGemma專為圖像標題生成、視覺問答和圖像檢索而設,與CodeGemma及RecurrentGemma等其他模型並肩而立,並已開放給開發者集成至其項目中。

在谷歌開發者大會上宣布的PaliGemma,在Gemma系列中獨樹一幟,因為它專注於將視覺信息轉換為書面語言。作為一個小型語言模型(SLM),它高效運行,無需龐大的記憶體或運算能力,特別適合智能手機、物聯網設備和個人電腦等資源有限的裝置。

開發者會對PaliGemma的應用潛力格外感興趣,因為它能幫助用戶生成內容、提升搜索能力,並協助視障人士更好地理解周圍環境。雖然許多AI解決方案依賴大型語言模型(LLMs)和雲端服務,PaliGemma這類SLM有助於減少延遲,即輸入與反應之間的時間,成為網路連接不穩定地區應用的首選。

雖然網頁和移動應用是PaliGemma的主要使用案例,但它也具有整合到可穿戴設備的潛力,如可能與Ray-Ban Meta智能眼鏡競爭的智能眼鏡,或Rabbit r1和Humane AI Pin等設備。該模型還可增強家庭和辦公室機器人的功能。基於與Google Gemini相同的研究和技術,PaliGemma為開發者提供了一個熟悉且穩健的項目框架。

除了發布PaliGemma外,谷歌還推出了其迄今為止最大的Gemma版本,擁有驚人的270億個參數。

Most people like

Find AI tools in YBX