今天,Inflection AI這家位於帕洛阿爾託的初創公司,由DeepMind的Mustafa Suleyman和LinkedIn的Reid Hoffman共同創辦,發布了最新的基礎模型Inflection-2.5。
Inflection-2.5基於其前作,顯著提升了性能,在STEM科目上與OpenAI的GPT-4抗衡。這款新模型驅動著公司的Pi助手,與ChatGPT和Gemini競爭,並可通過移動和網頁平台訪問。
進一步推動AI競爭
此次發布是在快速變化的AI領域中的一個戰略舉措,企業不斷尋求挑戰OpenAI的主導地位。最近,Anthropic推出的Claude 3 Opus在性能上超越了GPT-4,標誌著一個重要的進步。
Inflection-2.5性能概述
自推出以來,Inflection AI一直致力於創造一個“具同理心、有用且安全”的AI,以提供比其他模型(包括GPT系列)更個性化的對話體驗。新推出的同理心微調技術讓Pi擁有獨特的個性和高情商(EQ)。
Inflection-2.5旨在提升模型的智商,特別是在物理和數學等領域。用戶現在可以與Pi討論從愛好到編程、生物作業和商業規劃等各種主題。
基準性能
在基準評估中,Inflection-2.5展現出相比Inflection-1的顯著改善,並縮小了與GPT-4的差距,儘管仍稍有落後。例如,在評估各類任務的MMLU基準中,Inflection-2.5獲得了85.5分,略低於GPT-4的87.3分。在STEM考試中,它在匈牙利數學考試中得分63,而GPT-4為68,在物理GRE中達到第85百分位,相較於GPT-4的第97百分位。
在包含8500道高品質小學數學題的GSM8K基準中,Inflection-2.5得分86.3,而GPT-4為92。在零樣本的HumanEval測試中,這款模型的編碼能力評分為73.8,GPT-4為79.3。
高效的訓練與即時功能
雖然Inflection-2.5的性能未超越GPT-4,但Inflection AI強調其實現了“94%的GPT-4性能”,並且訓練過程更高效,只使用了40%的GPT-4訓練計算資源。
像GPT-4一樣,Inflection-2.5整合了即時網路搜尋功能,為用戶提供有關當前事件的最新信息,這對於致力於平易近人的Pi助手來說是一個重要進步。但是,需要注意的是,網路檢索結果的質量可能有所不同,因為目前尚無基準評估該方面。
如何訪問Inflection-2.5
Inflection AI已將新模型整合進Pi聊天機器人中,使用戶可以立即測試其功能。雖然公司尚未詳細說明升級後具體的用戶好處,但強調其對用戶情緒、參與度、留存率和聊天機器人整體有機增長的正面影響。目前,Pi聊天機器人在Android、iOS、網頁和桌面平台上可用,每日有一百萬活躍用戶,月活躍用戶達六百萬,交換消息超過四十億條,平均對話時長為33分鐘。