大規模言語モデル(LLM)は、高品質なトレーニングデータに大きく依存しています。Stack Overflowは、月に1億人以上の開発者が利用する優れたオンライン知識共有プラットフォームであり、同社のデータ量は他の多くの組織を上回っています。
本日、Stack OverflowはGoogle Cloudとのパートナーシップを発表し、世界中の開発者のための人工知能(AI)機能を強化します。このコラボレーションの重要な部分は、Stack Overflowの広範な知識ベースをGoogle CloudのAIツール(GeminiやCloud Consoleを含む)に統合することです。この統合により、開発者はStack Overflowコミュニティから直接関連する回答、コードスニペット、およびドキュメントにアクセスできるようになります。この提携は、OpenAIなどのLLMベンダーが生成AIトレーニングを強化するためにコンテンツプロバイダーと協力するトレンドを強調しています。
この新しい統合ではOverflowAPIが活用されており、将来的には他のLLMプロバイダーにも拡張される可能性があります。
「本日、Stack OverflowはAI企業が新しいAPIを通じて知識ベースにアクセスできるプログラムを開始しました」と、Stack OverflowのCEOであるプラシャンス・チャンドラセカール氏は述べました。「Googleは私たちのローンチパートナーであり、Stack Overflowのデータを活用してGoogle CloudのGeminiを強化し、Google Cloudコンソール内で検証された回答を提供します。」
OverflowAPIの利点
Stack Overflowの膨大な情報リポジトリへのGoogleのアクセスは大きな機会を提供しますが、具体的な価値については明らかにされていません。チャンドラセカール氏は、パートナーシップの財務条件についてのコメントを控えました。
OverflowAPIを通じて、GoogleはStack Overflowから公共データに継続的にアクセスできます。これには、5800万以上の質問と回答、数百万件のユーザーコメント、投票や編集などのMetaデータが含まれます。
このパートナーシップは相互に利益をもたらし、Stack OverflowはGoogle Cloud技術を主要なホスティングプラットフォームとして採用していく予定です。具体的な技術やサービスについてはまだ協議中です。
重要なのは、このパートナーシップがStack Overflowの他のLLMプロバイダーとのコラボレーションを制限しないことです。「これはGoogle専用ではなく、彼らはStack Overflowの顧客データや個々のユーザー情報などの独占データにアクセスすることはありません」とチャンドラセカール氏は明言しました。
OverflowAIと新しいOverflowAPIの補完
このGoogleとのパートナーシップは、Stack Overflowが生成AIを探求する新たな一歩です。2023年7月にはOverflowAIイニシアティブを立ち上げました。チャンドラセカール氏は、新しいAPIがStack Overflow for Teamsや公共プラットフォームにおけるAIと機械学習(ML)の機能を強化することでOverflowAIを補完することを指摘しました。OverflowAIのイニシアティブには、Visual Studio Code向けのStack Overflow、強化された検索機能、Slack用の自動回答アプリなどが含まれます。
一方で、OverflowAPIは大規模言語モデルのトレーニングやフィンチューニングのための継続的なデータアクセスポイントとして機能します。「昨夏にOverflowAIを立ち上げた目的は、開発者が生成AIの基盤に貢献し、その未来に不可欠な存在であることを可能にすることでした」とチャンドラセカール氏は述べています。「本日の発表は、最も開発者に優しいクラウドと、世界的にリーダー的な開発者向け知識プラットフォームとのコラボレーションを示しています。」