Cognition 最近因其 AI 驅動的軟體工程師 Devin 而引起關注,Devin 能夠自主撰寫和編輯代碼,利用 OpenAI 的 GPT-4。然而,自 Devin 在 2024 年 3 月推出後僅五個月,一個新挑戰者來臨:Cosine 的 Genie。
Genie 是由 Y Combinator 支持的 Cosine 開發的一款自主 AI 工程師,聲稱在 SWE-Bench 基準測試中以 30% 的成績超越了 Devin 的 13.8%,並且也優於亞馬遜的 19%(他們的 Q 和 Factory 的 Code Droid 模型)。Cosine 的 CEO Alistair Pullen 強調,Genie 的能力不限於基準得分。他在社交媒體上指出:“這個模型經過專門訓練,使其能像人類軟體工程師一樣思考和行為。”
Genie 是什麼?它能做什麼?
Genie 設計用於自主處理各種編碼任務,包括修復錯誤、建立功能和代碼驗證。它可以獨立運作或與用戶合作,模擬與技術夥伴一起工作的體驗。Pullen 在宣布 Genie 的能力時提到:“我們的目標是創建一位能可靠執行端到端編程任務的人工同事。”
Genie 支援 15 種程式語言,包括:
- JavaScript
- Python
- TypeScript
- Java
- C
- C++
- Rust
- Swift
- PHP
- Ruby
Pullen 解釋說:“通過觀察人類工程師的工作方式,Genie 學會了模仿他們的過程。”生成的代碼將儲存在用戶的 GitHub 儲存庫中,確保 Cosine 不保留任何敏感信息。
Genie 與 Slack 等平台無縫整合,能像人類同事一樣與用戶通信,提出澄清問題並對拉取請求的反饋作出回應,進一步增強協作。
由先進的 OpenAI 模型驅動
Genie 使用了 OpenAI 的 GPT-4o 專有變體,特別設計用於長上下文輸出。此模型能生成最多 64,000 個 tokens,相較於以前最多僅限於 4,000 個 tokens,提供顯著的優勢。
憑藉大量由真實工程活動策劃的數十億 token 組合的資料集,Genie 持續提升其性能。Pullen 評論道:“我們的訓練數據包括從開源儲存庫收集的 PR、提交和問題。”這個精緻的數據處理流程確保了對人類解決問題方法的高品質見解。
定價結構
Genie 最初提供兩個定價方案:
1. 個人計劃:價格約 $20,功能有限,但展示了 Genie 對個人及小型團隊的潛力。
2. 企業計劃:此綜合方案包括無限制使用及高級功能,旨在創造一位出色的 AI 工程同事。
意義與未來前景
Genie 的先進能力將徹底改變軟體開發,提升效率,讓工程團隊專注於戰略目標。Pullen 表示:“AI 能自主處理複雜的代碼基礎,將徹底改變我們對資源配置的看法。”
Cosine 旨在擴展 Genie 的功能,開發較小的模型以應對基本任務,以及針對複雜挑戰的更大版本,並計劃與開源社區合作。
下一步與可用性
目前 Genie 正在向選定用戶提供服務,有興趣的各方可通過 Cosine 網站申請早期訪問。Cosine 承諾不斷改進,並根據用戶反饋提升 Genie 的能力。
此外,Cosine 旨在保留其方法論的部分專有性,同時在 GitHub 上透明分享 Genie 的輸出,以便進行獨立驗證。
關於 Cosine
Cosine 由 Pullen、Sam Stenner 和 Yang Li 於 2022 年創立,致力於將人類推理應用於人工智能中的複雜問題,首個專注於軟體工程。Cosine 獲得 250 萬美元的種子資金,旨在重新定義 AI 如何模仿和創新人類任務。
Pullen 強調:“我們相信我們可以將人類推理轉化為任何行業,從軟體工程開始。”Genie 的推出僅僅是 Cosine 宏大旅程的開始。