Devin,让开吧:Cosine的Genie夺得AI编码卓越之冠

最近,Cognition因其基于AI的软件工程师Devin而备受瞩目,Devin能够自主管理代码的编写和编辑,使用的是OpenAI的GPT-4。然而,自2024年3月Devin发布仅五个月后,一个新的竞争者出现了:Cosine的Genie。

Genie是由得到Y Combinator支持的Cosine开发的一款自主AI工程师,声称在SWE-Bench基准测试中以30%的得分超越Devin,而Devin的得分为13.8%,Amazon的Q和Factory的Code Droid分别为19%。Cosine首席执行官Alistair Pullen强调,Genie的能力超越单纯的基准分数。“这个模型经过专门训练,旨在像人类软件工程师那样思考和行为,”他在社交媒体上表示。

Genie是什么?它能做什么?

Genie旨在自主处理各种编码任务,包括错误修复、功能构建和代码验证。它可以独立工作,也可以与用户协作,模拟与经验丰富的同事一起工作的体验。Pullen在宣布Genie功能时指出:“我们的目标是创造一个能够可靠完成端到端编程任务的人工同事。”

Genie支持15种编程语言,包括:

- JavaScript

- Python

- TypeScript

- Java

- C

- C++

- Rust

- Swift

- PHP

- Ruby

Pullen解释道:“通过观察人类工程师的工作方式,Genie学习复制他们的流程。”所生成的代码会存储在用户的GitHub仓库中,确保Cosine不会保留任何敏感信息。

与用户的无缝沟通

Genie能够与Slack等平台无缝集成,使其与用户的沟通类似于人类同事。它可以提出澄清问题,并对合并请求的反馈作出回应,从而增强协作体验。

基于先进的OpenAI模型

Genie采用了专门为长上下文输出设计的OpenAI GPT-4o的专有变体。该模型的生成能力可达64,000个tokens,显著优于之前限制在4,000个tokens的版本。

Genie的训练数据集涵盖了数十亿个token组合,来源于真实的工程活动,持续提升其性能。Pullen提到:“我们的训练数据包括从开源仓库收集的合并请求、提交记录和问题报告。”精细的数据管道确保了对人类问题解决方法的高质量洞察。

定价结构

Genie计划推出两个定价级别:

1. 个人计划:定价约20美元,功能有限,但展现了Genie对个人和小团队的潜力。

2. 企业计划:这一全面套餐包括无限使用和为创建卓越AI工程同事而设计的先进功能。

意义与未来前景

Genie的先进能力有望通过提高效率彻底改变软件开发,使工程团队能够专注于战略目标。Pullen表示:“AI能够自主处理复杂代码库的能力将根本改变我们的资源配置方式。”

Cosine计划扩展Genie的功能,开发针对基本任务的小型模型和应对复杂挑战的大型版本。同时,还有计划与开源社区合作。

下一步和可用性

目前,Genie正向特定用户提供,感兴趣的用户可以通过Cosine网站申请提前使用。Cosine致力于不断改进,收集用户反馈以提升Genie的能力。此外,Cosine计划维护其方法论的某些专有方面,同时透明地分享Genie的输出,便于独立验证。

关于Cosine

Cosine成立于2022年,由Pullen、Sam Stenner和Yang Li共同创建,专注于将人类推理应用于人工智能中的复杂问题,首要方向是软件工程。获得250万美元的种子资金后,Cosine旨在重新定义AI如何模仿和创新人类任务。

Pullen坚定地表示:“我们相信可以将人类推理转化为任何行业,从软件工程开始。”Genie的发布仅仅是Cosine宏伟旅程的开端。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles