Googleは水曜日、待望の人工知能システム「Gemini」を発表し、その能力がオープンAIの先進的なモデル「GPT-4」に匹敵する可能性があるとする評価を示しました。しかし、この発表はGeminiの能力の過剰表現を指摘する批判に直面しています。
Googleは、デスク上のカメラを用いて視覚データと対話し、さまざまな物体を操作する人間のアシスタントと共に問題解決を行うGeminiのビデオデモを披露しました。このプレゼンテーションは、Geminiが高度なデジタルアシスタントとして、微妙な会話を交わしながら日常業務をサポートできることを示唆しています。
しかし、技術専門家はGeminiの背後にある技術に潜む潜在的な欠点を指摘しています。GoogleはGeminiを「Gemini Pro」、「Gemini Light」、および「Gemini Ultra」の3つのバージョンでリリースしていますが、中間のProバージョンの初期レビューでは、最先端のAIシステムにふさわしいはずのタスクでの能力不足が報告されています。
初期テスターのビクター・デ・ルッカ氏は、「BardでのGemini Proに非常に失望している」と述べ、2023年のオスカー受賞者を正確にリストすることができなかったことを指摘しました。「RAGであれば簡単な質問に対しても非常に悪い結果を返す。」
他の専門家も、Googleのベンチマークの主張とProバージョンの実際の能力との間に不一致があると指摘しています。開発者のニック・ドボス氏は、広く共有された投稿で「Google Gemini UltraはGPT-4-0613と比べてたった4%しか良くない」と述べ、比較が誤解を招く可能性があると示唆しました。
また、ビデオデモについても、GoogleのスポークスマンがBloombergに対し、これは生放送ではなく事前に録音されたナレーションであることを確認したため、その信憑性に疑問が持たれています。
この論争は、Googleが消費者向けのAIをマーケティングする際の課題を浮き彫りにしています。技術愛好家はベンチマークデータを分析する一方で、一般の人々は変革的な体験を約束するインスパイアリングなビデオに影響されることが多いのです。
こうした乖離は新しい現象ではありません。たとえば、2016年には、Microsoftのチャットボット「Tay」がTwitterから不適切なコンテンツを学習し、オンラインから削除されました。さらに、Google Bardが期待を下回ったことが批判されるのはこれが初めてではなく、9月の報道では更新にもかかわらず改善が見られていないとの指摘がありました。
Googleは迅速にリカバリーを図り、開発者や研究者がGeminiを広範囲に評価できるようにすることを約束しています。しかし、この困難な立ち上げは、テクノロジーの巨人がそのAIアシスタントが野心的な約束を果たせるように、多くの課題に対処する必要があることを示しています。