今日,人工智能初创公司Cognition在彼得·蒂尔的创始基金及前Twitter高管Elad Gil和DoorDash联合创始人Tony Xu等科技领袖的支持下,推出了名为“Devin”的全自动AI软件工程师。
与现有的编码助手(如GitHub Copilot)不同,Devin能够从头到尾管理整个开发项目。这包括编码、调试和执行项目,同时在Upwork等平台上展示其能力。这一发布标志着AI辅助软件开发的关键进展,Cognition提供的不再是简单的代码片段工具,而是一个全面的AI工作者。
目前,Devin尚未对公众开放,有限的使用权限仅向少数用户授予,包括Bloomberg记者Ashlee Vance,她分享了使用该软件的经验。
Devin的功能
Cognition CEO Scott Wu在一篇博客文章中详细介绍了Devin的功能,强调其在安全的沙盒环境中访问必要的开发工具,如代码编辑器和浏览器。Devin可以处理通常涉及成千上万决策的复杂工程任务。用户只需将自然语言提示输入Devin的聊天界面,Devin便会制定逐步计划解决任务。它会自动编写代码、解决问题、进行测试,并实时提供进度更新,使用户能够无缝跟踪项目进展。
如果用户发现任何不一致之处,可以通过聊天界面直接互动,发布指令,使工程团队能够委派日常任务,从而专注于更高级的创造性工作。Devin展示了一个变革性的未来,人工智能工作者将在人的监督下运作。
应对多样开发任务
根据Wu的演示,Devin在多种任务中表现出色,包括从头到尾的应用程序和网站部署、bug识别和修复,甚至是关联于GitHub研究仓库的大型语言模型的微调。在一个实例中,Devin从一篇博客中学习生成隐秘信息的图像,另一个案例中则成功管理了一个计算机视觉模型开发的Upwork项目。
在SWE-bench测试中(使用现实世界的开源GitHub问题进行的评估),Devin自动解决了13.86%的挑战。而Claude 2解决了4.80%,SWE-Llama-13b和GPT-4分别为3.97%和1.74%,且均需人类指导。
核心技术未公开
虽然AI在软件开发中的应用并不新鲜,工具如GitHub Copilot、StarCoder和Codeium长期以来一直存在,但大多数工具旨在增强编码能力,而非独立管理整个项目。Cognition的Devin在这一点上取得了显著进展,作为完全自主的AI工程师。
尽管仍在测试中,Devin能够独立处理复杂工程项目的能力使其独树一帜。Cognition尚未透露是否使用了专有模型或第三方解决方案,但强调在长期推理和规划方面的进展是其功能的关键。
该公司目前正在扩大能力,向选择的用户提供早期访问。对提升自己工程能力感兴趣的各方,可通过电子邮件联系,预计未来将提供更广泛的访问权限。
Cognition暗示,编码只是“开始”,并计划在其他领域开发类似的AI代理。截至目前,Cognition已获得2100万美元的资金支持。