今天,位于帕洛阿尔托的初创公司Inflection AI,由DeepMind的Mustafa Suleyman和LinkedIn的Reid Hoffman共同创立,推出了最新的基础模型Inflection-2.5。
Inflection-2.5在其前作的基础上,显著提升了性能,尤其在STEM(科学、技术、工程和数学)领域,已接近OpenAI的GPT-4。这款新模型为公司的Pi助手提供动力,旨在与ChatGPT和Gemini竞争,并可以通过移动和网络平台访问。
推动AI竞争
此次发布是在快速发展的AI生态系统中的战略举措,各公司不断寻求挑战OpenAI的市场主导地位。最近,Anthropic推出了Claude 3 Opus,标志着其在性能上超越了GPT-4。
Inflection-2.5性能概览
自推出以来,Inflection AI致力于打造一种“富有同理心、实用且安全”的AI,为用户提供比其他模型(包括GPT系列)更个性化的对话体验。新的同理心精细调优技术赋予了Pi独特的个性和高情商(EQ)。
Inflection-2.5的目标是提升模型在智商(IQ)方面的表现,尤其是在物理和数学领域。用户现在可以与Pi进行广泛主题的互动,从兴趣爱好到编程、生物作业和商业规划。
基准性能
在基准测试中,Inflection-2.5相较于Inflection-1表现出显著提升,尽管仍落后于GPT-4。例如,在评估各类任务的MMLU基准上,Inflection-2.5的得分为85.5,接近GPT-4的87.3。在STEM考试中,其在匈牙利数学考试中得分为63,而GPT-4为68;在物理GRE中达到第85百分位,而GPT-4则为第97百分位。
在包含8500道高质量小学数学问题的GSM8K基准中,Inflection-2.5得分为86.3,而GPT-4为92。在零样本HumanEval测试(评估编码能力)中,Inflection-2.5得分73.8,GPT-4为79.3。
高效训练与实时能力
虽然Inflection-2.5在某些测试中未能超过GPT-4的性能,但Inflection AI强调,其“实现了GPT-4性能的94%”,且训练过程更为高效,仅使用了40%的GPT-4训练计算能力。
与GPT-4类似,Inflection-2.5集成了实时网页搜索功能,为用户提供最新的时事信息,这对旨在全民可用的Pi助手而言是重大进展。然而,需要注意的是,网络检索结果的质量可能存在差异,目前尚无基准测试评估这一方面。
如何访问Inflection-2.5
Inflection AI已将新模型集成到其Pi聊天机器人中,用户可以立即测试其功能。尽管公司没有详细说明升级后的具体用户福利,但强调了对用户情感、互动、留存率以及聊天机器人整体自然增长的积极影响。
目前,Pi聊天机器人在Android、iOS、网页和桌面版上可用,每天拥有一百万活跃用户,每月活跃用户达六百万,交流信息超过四十亿条,平均对话时长为33分钟。