新しい大型言語モデル(LLM)が、リリースからわずか1ヶ月でOpenAIのGPT-4を上回ったと言われています。このClaude 3.5 Sonnetチャットボットは、Anthropicによって開発され、主要な第三者ベンチマークテストで業界をリードしていると主張しています。さらに、従来のClaudeモデルよりも迅速かつコスト効果が高いとされています。
ただし、新しいモデルを発表し、優位性を主張することと、実際にその性能向上を体験することは異なります(Google Geminiファミリーへ: 一部の指標でOpenAIの前モデルであるGPT-4を上回っていると言われていますが、実際の使用では別の状況が見られます)。
対照的に、Claude 3.5 Sonnetはリリース以来大きな関心を集めており、AIインフルエンサーやパワーユーザーが積極的にその利用体験を共有しています。彼らは、この「最も知的な」LLMの印象的な能力を披露しています。
コーディングスキルと製品創出の向上
企業AIインフルエンサーであるアリー・K・ミラーは、XでClaude 3.5 Sonnetがわずか30秒でスクリーンショットを基に完全にプレイ可能なゲームを制作したと伝えました。また、インフォメーションアカウント@TestingCatalog Newsは、Claude 3.5 Sonnetと共に導入された「Artifacts」プレイグラウンドの実演を行い、チャットボットが設計した完全機能のウェブフォームに対してリアルコードを実行できる能力を示しました。このモデルは1995年の映画『ハッカー』にインスパイアされた画像も再現しています。
企業AI画像生成スタートアップEverArtの創設者であるピエトロ・シラーノ氏は、XでClaude 3.5 SonnetとツールMaestroを組み合わせることで「AGIの兆しを見せている」とコメントしました。
AnthropicスタッフがClaude 3.5 Sonnetを支持
このモデルの支持者であるAnthropicの開発者リレーションズリーダー、アレックス・アルバート氏は、Claude 3.5 Sonnetがコーディング能力を向上させ、自動的にプルリクエストを修正する能力が高まっているとツイートしました。彼は、1年以内にかなりの割合のコードがLLMによって生成される可能性があると示唆しました。
同様に、Anthropicの技術者であるマギー・ヴォー氏は、Claude 3.5 Sonnetが「私の仕事の半分をこなしてくれる…とても嬉しい」とXで述べています。
OpenAIに対する圧力
Claude 3.5 SonnetがGPT-4を上回り、競争力のある価格設定をしている中、OpenAIは自社モデルの提供を正当化するためのプレッシャーが高まっています。ペンシルバニア大学のイーサン・モリック教授は、Artifactsの機能をOpenAIのGPT-4コードインタプリタの簡易版に例えました。ユーザーの@kimmonismus氏は、OpenAIが「AGIの誕生を見逃している」と主張し、人間の経済的価値のある作業において優れたAIを開発する目標を達成するリスクを警告しました。さらに、新しい音声モダリティなど、未実装の機能を発表したことについて批判しています。
残る限界
Claude 3.5 Sonnetに対する熱意が高まる一方で、批評家たちは依然として基本的な認知タスク、例えば三目並べをするのに苦労していると指摘しています。テクノロジージャーナリストのティモシー・B・リー氏(@binarybits)は、モデルが時折ユーモラスなミスをすることを指摘し、三分の一が100セントよりも価値があると誤って述べた画像を共有しました。
全体として、Claude 3.5 SonnetはAnthropicとLLMの風景において重要な進展を示しています。いくつかの課題が残るものの、このモデルはAI技術の進化が現在の計算リソースによって加速していることを示しています。