Sakana AI 使用進化演算法揭示生成模型的創新架構

東京創業的初創公司Sakana AI開發了一項名為「進化模型合併」的革新技術,自動化生成模型的創建。此方法受到自然選擇的啟發,通過結合現有模型的元素,產生更先進的版本。

Sakana AI於2023年8月由知名AI研究者共同創立,包括前Google專家David Ha和Llion Jones——《Attention Is All You Need》的共同作者——該公司致力於推動生成AI的創新。

革新模型開發

Sakana的進化模型合併技術使開發者和組織能以具成本效益的方式創建和探索新模型,無需昂貴的專屬模型訓練和微調。該初創公司最近推出了使用這一創新技術開發的大型語言模型(LLMs)和視覺語言模型(VLMs)。

理解模型合併

訓練生成模型通常費用高昂且複雜。然而,隨著開放模型如Llama 2和Mistral的出現,開發者正在利用模型合併技術,將兩個或多個預訓練模型的各種組件結合,形成新模型。這種方法使新合併的模型能夠繼承前身的優勢,而無需額外訓練,從而成為一種經濟實惠的選擇。許多在Open LLM排行榜上排名前列的模型現在都是流行基礎模型的合併變體。

Sakana AI的研究者表示:「一個充滿活力的研究者、駭客和藝術家社群正在通過微調和合併現有模型積極開發新的基礎模型。」在Hugging Face上擁有超過50萬個模型的情況下,模型合併提供了創建創新解決方案的廣泛機會,雖然這需要相當的直覺和領域知識。

介紹進化模型合併

Sakana AI的目標是通過系統化的方法優化模型合併過程。利用模仿自然選擇的進化算法——一種優化技術,進化模型合併識別出結合不同模型的最佳方法。David Ha強調:「從多樣的現有模型中進化出新模型的能力具有重要意義。」面對基礎模型訓練資源需求上升,這一進化方法可能對尋求迅速開發原型模型的機構或政府而言尤為有利。

進化模型合併自動運行,評估現有模型的層次和權重,創建符合用戶需求的新架構。

展示進化合併

為了探索這一方法的潛力,Sakana AI的研究者應用進化模型合併創建了一個能進行數學推理的日本大型語言模型(LLM)和一個日本視覺語言模型(VLM)。所產生的模型在多項基準測試上表現優異,無需明確的優化。例如,他們的EvoLLM-JP——一個擁有70億參數的日本數學LLM,甚至超越了一些擁有700億參數的競爭對手。

在日本VLM方面,團隊將LLaVa-1.6-Mistral-7B與Shisa-Gamma 7B合併,得出了EvoVLM-JP,該模型超越了LLaVa-1.6-Mistral-7B及現有的JSVLM。這兩個模型均可在Hugging Face和GitHub上獲得。Sakana AI也在將其進化合併方法應用於圖像生成擴散模型,旨在提升Stable Diffusion XL在日本提示下的表現。

Sakana AI的願景

由David Ha和Llion Jones創立的Sakana AI,旨在利用自然啟發的概念,如進化和集體智慧,創造基礎AI模型。團隊認為,未來的AI不會圍繞一個單一、全面的系統,而是一個針對不同細分領域的專業AI系統網絡,這些系統將合作與進化以滿足多樣的需求。

Most people like

Find AI tools in YBX