隨著 GPT-4o 的潛力不斷提升,EvolutionaryScale 這家由前 Meta 工程師創立的 AI 研究實驗室,專注於開創生物計算的新領域。儘管公司成立不過一年,已經取得了顯著進展。今天,它推出了 ESM3,這是一種多模式生成性語言模型,能夠根據指令設計新型蛋白質。在測試中,ESM3 成功生成了一種新的綠色熒光蛋白(esmGFP),這一成就通常需要數億年的演化過程。
革命性蛋白質設計
生成的 esmGFP 與已知的最近熒光蛋白序列相似度僅為 58%,公司估計,此創新模擬了超過 5 億年的天然蛋白質多樣化過程。
在 ESM3 上線的同時,EvolutionaryScale 完成了一輪 1.42 億美元的種子輪融資,由知名投資者 Nat Friedman、Daniel Gross 和 Lux Capital 領投,亞馬遜和 Nvidia 的風險投資部門也參與其中。最小型的模型已開源,旨在加速這一領域的研究。
未來挑戰
開發 ESM3 僅是第一步,其實際影響尚待深入探索。EvolutionaryScale 旨在利用生成性 AI 模型解碼生命的基本語言,專注於 RNA、蛋白質和 DNA 這三種經過 35 億年演化的核心生物分子。通過編程生物學和設計新分子,公司希望解決包括氣候變化、塑料污染和癌症在內的重大挑戰。
競爭格局
許多組織,包括 Google DeepMind 和 Isomorphic Labs 也在開發類似技術。成立於 2023 年的 EvolutionaryScale 已開發出多種蛋白質語言模型,最終形成了因其規模和能力而脫穎而出的 ESM3。ESM3 基於龐大的數據集訓練而成,擁有 1 兆兆次的計算能力,涵蓋 27.8 億天然蛋白質和 7710 億個獨特標記。這一先進模型能夠在蛋白質的序列、結構和功能三個基本生物屬性上進行推理,使用者能夠輸入這些屬性中的部分數據,ESM3則會生成所有屬性的預測,最終創造出新型蛋白質。
提升科學家的控制力
「ESM3 的多模式推理使科學家能以卓越的控制力設計新型蛋白質。例如,它能結合結構、序列和功能來提出如 PETase 等酶的框架,這種酶能分解塑料廢物。」公司如此表示。一項實例中,ESM3 用於設計一種新型綠色熒光蛋白,讓科學家能夠在細胞內可視化特定蛋白質。值得稱讚的是,生成的蛋白質在亮度上媲美自然熒光變體,而其演化過程則需 5 億年。
自我進化的模型
ESM3 模型還具備自我改進能力,能根據實驗反饋或現有數據來完善其輸出。
可用性及未來應用
目前,ESM3 提供三種規模:小型、中型和大型。最小型模型擁有 14 億個參數,已在 GitHub 上以非商業許可開源;而中型和大型版本(最高可達 98 億個參數)則可通過 EvolutionaryScale 的 API 與 Nvidia 和 AWS 合作進行商業使用。EvolutionaryScale 希望透過此技術應對全球挑戰,提升人類健康。其最具潛力的應用可能在製藥領域,企業可以利用 ESM3 開發針對危及生命病症的創新療法。EvolutionaryScale 之前的模型已在提升抗體特性和檢測 COVID-19 變體方面顯示出成功,突顯了這一突破性 AI 在生物學中的潛在影響。