今日は、Peter ThielのFounders Fundや元Twitterの幹部Elad Gil、DoorDash共同創設者Tony Xuなどの技術系リーダーからサポートを受けているAIスタートアップCognitionが、完全自律型のAIソフトウェアエンジニア「Devin」を発表しました。
Devinは、GitHub Copilotなどの既存のコーディングアシスタントとは異なり、プロジェクトを最初から最後まで管理することができます。これは、コーディング、デバッグ、プロジェクトの実行を含み、Upworkなどのプラットフォームでその能力を実証しています。このローンチは、AIを活用したソフトウェア開発における重要な進化を示しており、エンジニアに単純なコードスニペットを作成するためのツールとしてだけでなく、包括的なAI作業者として提供されることを目的としています。
現在、Devinは一般公開されておらず、ごく限られたユーザーグループにアクセスが許可されています。その中には、BloombergのジャーナリストであるAshlee Vanceも含まれ、彼女はソフトウェアの使用についての洞察を共有しました。
Devinの機能
CognitionのCEO Scott Wuは、Devinの機能をブログで詳述しています。Devinは、安全なサンドボックス環境内でコードエディタやブラウザなどの重要な開発ツールにアクセスでき、通常であれば数千の意思決定を伴う複雑なエンジニアリングタスクに取り組むことができます。
ユーザーは自然言語のプロンプトをDevinのチャットインターフェースに入力するだけで、Devinは手順に従った計画を立て、コードを自律的に生成し、問題を解決し、テストを行い、リアルタイムで進捗を報告します。これにより、ユーザーはプロジェクトの進捗をスムーズに追跡できます。
もし不一致が見つかった場合、ユーザーはチャットインターフェースを介して直接コマンドを発行でき、エンジニアリングチームはルーチン作業を委任し、より高次の創造的な作業に集中できます。Devinは、人間の監視の下でAI作業者が運用される未来を体現しています。
開発業務の多様な処理能力
Wuのデモによると、Devinはエンドツーエンドのアプリやウェブサイトの展開、バグの特定と修正、さらにはGitHubの研究リポジトリに関連した大規模な言語モデルの微調整など、さまざまなタスクに優れています。一例として、Devinはブログ投稿から学び、隠されたメッセージを持つ画像を生成しました。また別のプロジェクトでは、コンピュータビジョンモデルの開発を含むUpworkプロジェクトを成功裏に管理しました。
SWE-benchテストでは、Devinは実際のオープンソースGitHub問題を用いた評価で、13.86%の課題を自律的に解決しました。一方、Claude 2は4.80%、SWE-Llama-13bは3.97%、GPT-4は1.74%の課題を解決しましたが、すべて人間の指導を必要としました。
中核技術は未開示
ソフトウェア開発におけるAIの利用は新しいものではなく、GitHub CopilotやStarCoder、Codeiumなどのツールは以前から存在しています。しかし、ほとんどのツールがコーディングを補助することに重点を置いているのに対し、CognitionのDevinは完全自律型AIエンジニアとして一歩先を行っています。
現在、Devinはテスト中であり、多面的なエンジニアリングプロジェクトを自律的にナビゲートする能力が際立っています。Cognitionは、独自のモデルを使用しているのか、サードパーティのソリューションを採用しているのかは明らかにしていませんが、長期的な推論と計画の進展がその機能の鍵であると強調しています。
同社は現在、キャパシティを拡大し、特定のユーザーに早期アクセスを提供しています。エンジニアリング能力の向上を望む方は、メールで問い合わせることができ、将来的には広範なアクセスが期待されています。
Cognitionは、コーディングは「始まりに過ぎない」と示唆しており、他の分野にも同様のAIエージェントを開発する計画を持っています。現在までに、同社は2100万ドルの資金を確保しています。