Cognition推出AI軟體工程師Devin:人工智慧發展的遊戲規則改變者

今天,Cognition,一家由彼得·蒂爾的Founders Fund支持的人工智慧初創公司,與前Twitter高管Elad Gil和DoorDash聯合創始人Tony Xu等科技領袖一起,發布了名為「Devin」的全自主AI軟體工程師。

與現有的編碼助手如GitHub Copilot不同,Devin能夠從頭到尾管理整個開發專案,涵蓋編碼、除錯及專案執行,同時在Upwork等平台上展現其能力。

Devin的推出標誌著AI輔助軟體開發的一次重要進步,為工程師提供了一位全面的AI工作者,而非僅僅是一個簡單代碼段的工具。

目前,Devin尚未公開提供,僅限少數用戶訪問,其中包括彭博社記者Ashlee Vance,她分享了使用這款軟體的見解。

Devin能做什麼?

Cognition首席執行官Scott Wu在一篇博客文章中詳細介紹了Devin的能力,強調它能在安全的沙盒環境中訪問關鍵開發者工具,如代碼編輯器和瀏覽器。Devin可以處理涉及成千上萬決策的複雜工程任務。

用戶只需將自然語言提示輸入Devin的聊天界面,Devin便能制定逐步計劃來處理任務,自動編寫代碼、解決問題、進行測試並實時提供進度更新,使用戶能夠無縫追蹤專案進度。

若用戶發現任何不一致之處,可以通過聊天界面直接互動下達指令,工程團隊能夠將例行事務委派給Devin,專注於更高階的創造性工作。

Devin展現了軟體開發的變革性未來,AI工作者在人的監督下運作。

多功能處理開發任務

根據Wu的演示,Devin在多種任務中表現優異,包括端對端的應用和網站部署、錯誤識別和解決,甚至在調整與GitHub研究庫相關的大型語言模型等高階專案中也表現出色。

在一個案例中,Devin從一篇博客學習,能夠生成隱藏訊息的圖片,在另一案例中,成功管理了一個關於計算機視覺模型開發的Upwork專案。

在SWE-bench測試中,Devin自主解決了13.86%的挑戰,而Claude 2僅解決了4.80%,SWE-Llama-13b和GPT-4分別為3.97%和1.74%,均需要人類的指導。

核心技術仍然未披露

AI在軟體開發中的應用並不新鮮;像GitHub Copilot、StarCoder及Codeium等工具早已存在。然而,多數工具專注於增強程式設計,並不獨立管理整個專案。Cognition的Devin則在此方面邁出了重要一步,成為一位完全自主管理的AI工程師。

儘管仍在測試中,Devin能夠自主處理複雜的工程專案的能力使其脫穎而出。Cognition尚未透露是使用專有模型還是第三方解決方案,但強調長期推理和計劃的進步是其功能的關鍵。

該公司目前正在擴大容量,並向選定用戶提供早期訪問。對於希望增強工程能力的有興趣者,可透過電子郵件聯繫,未來預計會有更廣泛的訪問機會。

Cognition暗示編碼「僅僅是開始」,表明計劃在其他領域開發類似的AI代理。目前該公司已獲得2100萬美元的資金支持。

Most people like

Find AI tools in YBX