Meta 的 Llama 3.2:多模態 AI 新時代
在今日的 Meta Connect 活動上,Meta 公布了 Llama 3.2,這是其首個重大視覺模型,整合了圖像和文本的理解能力。Llama 3.2 提供小型和中型模型(11B 和 90B 參數),以及針對移動和邊緣設備優化的輕量級文本專用模型(1B 和 3B 參數)。
Meta CEO 馬克·扎克伯格在主題演講中表示:「這是我們首個開源的多模態模型,它將啟用許多需要視覺理解的應用。」類似於其前身,Llama 3.2 提供長達 128,000 個標記的上下文長度,能夠輸入大量文本,相當於數百頁教科書。更高的參數數量通常能增強模型的準確性及處理複雜任務的能力。
Meta 今天還推出了官方 Llama 堆疊發行版,使開發者能夠在本地、設備、雲端和單節點設置中利用這些模型。祖克柏指出:「開源選項是最具成本效益、可定制和可靠的選擇。我們已達到行業的轉折點,這將成為與 AI 相關的標準,就像 Linux 一樣。」
與 Claude 和 GPT-4o 競爭
在推出 Llama 3.1 兩個多月後,Meta 報導其能力增長了十倍。祖克柏表示:「Llama 繼續快速進步,解鎖了越來越多的功能。」
Llama 3.2 中最大的兩個模型(11B 和 90B)現在支援圖像使用性,能解釋圖表,生成圖像標題,並從自然語言提示中識別物體。例如,用戶可以查詢公司銷售高峰月份,模型能夠利用可用圖形推斷出答案。更大的模型可以從圖像中提取信息以創建詳細的標題。
輕量模型則便利用於開發私人化應用,例如總結近期通訊或管理會議邀請。Meta 表示 Llama 3.2 在圖像識別和視覺理解任務上與 Anthropic 的 Claude 3 Haiku 及 OpenAI 的 GPT-4o-mini 競爭,並在指令遵循、摘要、工具利用及提示重寫方面優於 Gemma 和 Phi 3.5-mini。
Llama 3.2 模型可在 llama.com、Hugging Face 和 Meta 的合作平台下載。
擴展業務 AI 與吸引消費者功能
Meta 也在增強其業務 AI,讓企業能夠在 WhatsApp 和 Messenger 上使用點擊訊息廣告,並開發能回答常見問題的代理,討論產品詳情以及完成購買。公司報導超過 100 萬名廣告商正在使用其生成式 AI 工具,過去一個月創建了 1500 萬則廣告。使用 Meta 生成式 AI 的廣告活動平均提高了 11% 的點擊率和 7.6% 的轉換率。
對於消費者而言,Meta AI 正在獲得「聲音」,包括多位名人的聲音,如朱迪·丹奇、約翰·塞納、基根·邁克爾·基、克里斯汀·貝爾和 Awkwafina。祖克柏表示:「我相信語音將成為與 AI 互動的更自然方式,這樣實在好太多了。」
該模型可以用名人的聲音在 WhatsApp、Messenger、Facebook 和 Instagram 等平台上響應語音或文本命令。Meta AI 還將響應分享的照片,具備編輯圖片、添加或修改背景的能力。此外,Meta 還在探索新的翻譯、視頻配音和口型同步工具。
祖克柏重申,Meta AI 將成為全球最廣泛使用的助理,他聲稱:「它可能已經達到這個地步。」