在短短一个周末,新晋开源AI模型引发了严重的质疑,令其声誉蒙上阴影。由纽约初创公司HyperWrite(前称OthersideAI)推出的Reflection 70B,这是Meta的Llama 3.1大型语言模型的一个变种,曾因其卓越的基准测试成绩而备受赞誉。然而,随后来自独立测试人员的评估对这些说法的有效性提出了质疑。
2024年9月6日,HyperWrite联合创始人马特·舒默在社交网络X上称Reflection 70B为“世界顶尖的开源模型”。舒默详细介绍了模型的“反思调优”技术,使得大型语言模型(LLM)能够在向用户展示输出之前验证结果的准确性,从而在多个领域提升性能。
然而,到了9月7日,一个名为人工分析(Artificial Analysis)的组织公开质疑了这一说法。他们的分析指出,Reflection 70B的MMLU得分与Llama 3 70B相同,但与Meta的Llama 3.1 70B相比明显不足。这与HyperWrite最初公布的结果形成了鲜明对比。
舒默随后承认,在将模型上传至Hugging Face的过程中,模型的权重遭到损坏,这可能解释了与内部测试结果之间的差异。
9月8日,经过对一个私有API的测试,人工分析承认他们观察到令人印象深刻但未经过验证的结果,这些结果未能满足HyperWrite的初步声明。他们还对发布未经测试的模型版本以及未公开私有API版本的模型权重提出了重要问题。
在以AI为主题的Reddit论坛上,社区成员们也对Reflection 70B的性能和来源表示怀疑。有些人认为这似乎是Llama 3的一个变体,而非预期中的Llama 3.1,进一步加深了对其合法性的怀疑。甚至有用户指责舒默在“AI研究社区中进行欺诈”。
尽管面临反对声浪,一些用户仍为Reflection 70B辩护,称其在特定应用中的表现优异。然而,从兴奋到批评的迅速转变,凸显了AI领域的动荡不安。
在接下来的48小时内,AI研究社区期待舒默就模型表现和修正权重提供更新。9月10日,他终于对此争议进行了解释,表示:“我在这个声明上过于急促,深表歉意。我们是在已有信息的基础上做出的决策。我知道许多人对这个潜力感到兴奋,但也持怀疑态度。我们的团队正在努力明确发生了什么。一旦我们确认了事实,将保持与社区的透明沟通。”
舒默提到了Glaive AI创始人萨希尔·乔杜里的一篇帖子,乔杜里证实了关于模型声称的混淆,并提到在重现基准分数方面的困难。乔杜里表示:“我想回应这些合理的批评。我正在调查情况,并会很快提供透明的总结。我在任何时候都没有使用其他提供商的模型,旨在解释差异,包括某些术语被跳过等意外行为。关于基准测试我还有很多需要揭示,感谢社区的耐心,期待重新建立信任。”
目前,Reflection 70B及其在开源AI社区内的声称仍存在争议,质疑声不断。