今日は、パロアルトに拠点を置くスタートアップ、Inflection AIが最新のファウンデーションモデル「Inflection-2.5」を発表しました。この企業は、DeepMindのムスタファ・スレイマン氏とLinkedInのリード・ホフマン氏によって共同設立されました。
Inflection-2.5の性能向上
Inflection-2.5は前モデルを基にしており、パフォーマンスが大幅に向上しており、特にSTEM(科学、技術、工学、数学)分野ではOpenAIのGPT-4に迫るものがあります。この新しいモデルは、ChatGPTやGeminiと競合する同社のPiアシスタントに搭載されており、モバイルおよびウェブプラットフォームで利用可能です。
AI競争の進展
この発表は迅速に進化するAI業界における戦略的な動きを示しており、企業はOpenAIの優位性に挑む機会を常に狙っています。最近では、AnthropicがClaude 3 Opusを発表し、GPT-4を超えるパフォーマンスを達成しました。
Inflection-2.5の性能概要
Inflection AIは常に「共感的で、有用かつ安全な」AIを目指しており、従来のモデル、特にGPTSiriーズと比較してよりパーソナルな対話体験を提供しています。新しい共感的ファインチューニング技術により、Piは独自の個性を持ち、高い感情知能(EQ)を備えています。
Inflection-2.5では、物理学や数学などの領域においてモデルの知能指数(IQ)をさらに向上させることを目指しています。ユーザーは趣味からコーディング、生物学の宿題、ビジネス計画に至るまで、幅広いトピックでPiと対話ができるようになります。
ベンチマーク性能
ベンチマーク評価では、Inflection-2.5はInflection-1に対して顕著な改善を見せ、GPT-4とのギャップを狭めましたが、依然として追いついていません。たとえば、幅広いタスクを評価するMMLUベンチマークでは、Inflection-2.5が85.5点を獲得し、GPT-4の87.3点には及ばないものの、僅差です。STEM試験では、ハンガリーの数学試験で63点(GPT-4は68点)、Physics GREでは85パーセンタイル(GPT-4は97パーセンタイル)の成績を収めました。
また、8,500の高品質な小学校数学問題を含むGSM8Kベンチマークでは、Inflection-2.5が86.3点を記録し、GPT-4の92点よりは劣ります。ゼロショットのHumanEvalテストでは、コーディング能力が73.8点で、GPT-4の79.3点に及びませんでした。
効率的なトレーニングとリアルタイム機能
Inflection-2.5はGPT-4のパフォーマンスを超えてはいませんが、同社は「GPT-4の94%のパフォーマンス」を達成しており、トレーニングプロセスの効率が高められています。GPT-4のトレーニング計算量の40%のみを使用しています。
また、Inflection-2.5はリアルタイムのウェブ検索機能を兼ね備えており、ユーザーに最新の情報を提供します。これは、すべての人が利用できるように設計されたPiアシスタントにとって重要な進展ですが、ウェブから取得した結果の質はばらつきがあることに留意が必要です。
Inflection-2.5へのアクセス方法
Inflection AIは新しいモデルをPiチャットボットに統合しており、ユーザーはその機能をすぐに試すことができます。具体的なユーザー向けの利点はまだ詳細に説明されていませんが、ユーザーの感情、エンゲージメント、維持率、そして全体的な成長にポジティブな影響を見せています。
現在、Inflection AIのPiチャットボットはAndroid、iOS、ウェブ、デスクトップで利用可能で、1日あたり100万、月間600万のアクティブユーザーを持ち、40億以上のメッセージが交換されています。平均会話時間は33分です。
この革新的なモデルの登場で、AIによる対話体験は新たな段階に進化しています。