Mistral AI首次在多模態領域亮相,推出了Pixtral 12B,這是該法國人工智慧初創公司首款結合語言與視覺處理能力的模型。這一發展使Mistral有望與OpenAI及Anthropic等主要競爭者展開競爭。
目前,Pixtral 12B尚未在公眾網絡上提供,但開發者可從Hugging Face或GitHub下載其源代碼以進行個別測試。與傳統AI發布程序不同,Mistral首次以Torrent鏈接的形式與用戶分享模型文件。
開發者關係負責人Sophia Yang在X平台上宣布,該模型將很快通過Mistral的網站聊天機器人提供,允許開發者體驗其功能。此外,該模型還將整合進Mistral的La Platforme,提供API端點以訪問公司的模型。
Pixtral 12B有何特點?
雖然其訓練數據的具體細節尚未公開,Pixtral 12B旨在促進圖像分析與文本提示的結合。用戶應能夠上傳圖像或提供鏈接,並提問與內容相關的問題。
儘管這是Mistral的首款多模態模型,但值得注意的是,競爭對手如OpenAI和Anthropic已擁有類似功能。對於Pixtral的獨特特點,Yang強調其可以原生處理任意數量、不同尺寸的圖像。
在X平台的初步測試者觀察到,這款24GB模型擁有堅固的架構,包含40層、14,336個隱藏維度和32個注意力頭,以增強計算處理能力。專門的視覺編碼器支持最高1024×1024的分辨率,並具備24個隱藏層以進行高級圖像分析。
隨著Mistral準備通過API發佈該模型,其在內容和數據分析等視覺應用方面的潛力將越加明朗。這一開放模型的具體性能尚待評估,但它象徵著Mistral在AI領域的雄心壯志。
自去年成立以來,Mistral迅速開發出一系列模型,以挑戰OpenAI等行業領導者。它還與微軟、AWS和Snowflake等大公司建立了戰略夥伴關係,以擴大其技術的影響力。最近,Mistral以60億美元的估值募得6.4億美元,並推出了Mistral Large 2,這是一款具備先進多語言能力的GPT-4級模型,改善了推理、代碼生成和數學性能。
此外,公司還推出了Mixtral,一種專家混合模型,以及Codestral,一個開放權重的22億參數代碼模型,並推出針對數學推理與科學發現的模型。