Nvidia、Hugging Face、ServiceNowが新しいStarCoder2 LLMを発表 - コード生成能力の向上を目指す

Nvidia、Hugging Face、ServiceNowが共同開発した「StarCoder2」は、AIによるコーディング生成を強化するための先進的なオープンアクセスの大規模言語モデル(LLM)のスイートです。現在、3つのサイズで提供されており、600以上のプログラミング言語に対応。これは、企業が開発ワークフロー内でさまざまなコーディング作業を効率化するために役立ちます。また、BigCode Projectの一環として、ServiceNowとHugging Faceが協力して開発したこのモデルは、コーディングにおけるLLMの責任ある使用を促進しており、Open Responsible AI Licenses(OpenRAIL)に基づいてロイヤルティフリーで提供されています。

ServiceNowのStarCoder2開発チームを率いるハルム・デ・フリース氏は、「StarCoder2は、オープンサイエンティフィックコラボレーションと責任あるAIプラクティスが融合した結果です。この最先端のモデルは開発者の生産性を向上させ、すべての規模の組織がコード生成AIを利用できるようにします」と述べています。

StarCoder2: 多様なニーズに応える3つのモデル

元々のStarCoder LLMは、80のプログラミング言語でトレーニングされた15Bパラメータの単一モデルでしたが、StarCoder2では3B、7B、15Bの3つの異なるサイズが導入され、619のプログラミング言語に対応しています。トレーニングデータセットである「The Stack」は、前回の7倍以上のサイズです。

新しいトレーニング技術が実装され、COBOLのような資源の少ない言語や数学的表現、プログラムソースコードの議論を理解し生成する能力が向上しました。3BモデルはServiceNowのFast LLMフレームワークを使用し、7BモデルはHugging Faceのnanotronフレームワークを活用しています。両者は、高性能なテキストからコードへの変換を実現しつつ、コンピュータの負担を軽減します。一方、15BモデルはNvidiaのNeMoクラウドネイティブフレームワークとTensorRT-LLMソフトウェアによって最適化されています。

共同イノベーション: ServiceNow、Hugging Face、Nvidia

これらのモデルのさまざまなコーディングシナリオにおけるパフォーマンスは今後確認される予定ですが、初期テストでは3Bモデルが元の15B StarCoder LLMと同等のパフォーマンスを示しています。企業チームは、自社データを使用して、ソースコード生成、ワークフローの自動化、コードの補完、高度な要約、スニペットの取得などの特定のアプリケーションに合わせてこれらのモデルをカスタマイズできます。

これらのモデルは広範なトレーニングによって、正確かつコンテキストに応じた予測を提供し、開発プロセスを加速させ、エンジニアがより重要な課題に集中できる環境を整えています。Nvidiaの応用研究担当副社長、ジョナサン・コーエン氏は、「すべてのソフトウェアエコシステムには独自のプログラミング言語が存在し、コードLLMは業界全体で効率と革新を促進できます」と述べています。「ServiceNowとHugging Faceとのパートナーシップによって、安全で責任を持って開発されたモデルを提供し、責任ある生成AIの利用を世界中のコミュニティに広げます。」

StarCoder2の使い始め方

StarCoder2ファミリーのすべてのモデルはOpen RAIL-Mライセンスの下で提供されており、ロイヤルティフリーでアクセス可能です。関連するコードはBigCodeプロジェクトのGitHubリポジトリにて入手可能で、モデルはHugging Faceからもダウンロードできます。さらに、15BモデルはNvidia AI Foundationを通じて利用可能で、開発者はブラウザやAPIを介して直接実験ができます。

StarCoderはAIによるコード生成の大きな進歩を表していますが、独占的ではありません。OpenAIのCodex(GitHub Copilotの基盤)、AmazonのCodeWhisper、Replit、Codeniumなどの競合他社も、アプリケーション開発におけるLLMの能力を探求しています。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles