新开源AI领军者Reflection 70B疑似“欺诈”，效能引发质疑

Home AI News CN 新开源AI领军者Reflection 70B疑似“欺诈”，效能引发质疑

在短短一个周末，新晋开源AI模型引发了严重的质疑，令其声誉蒙上阴影。由纽约初创公司HyperWrite（前称OthersideAI）推出的Reflection 70B，这是Meta的Llama 3.1大型语言模型的一个变种，曾因其卓越的基准测试成绩而备受赞誉。然而，随后来自独立测试人员的评估对这些说法的有效性提出了质疑。

2024年9月6日，HyperWrite联合创始人马特·舒默在社交网络X上称Reflection 70B为“世界顶尖的开源模型”。舒默详细介绍了模型的“反思调优”技术，使得大型语言模型（LLM）能够在向用户展示输出之前验证结果的准确性，从而在多个领域提升性能。

然而，到了9月7日，一个名为人工分析（Artificial Analysis）的组织公开质疑了这一说法。他们的分析指出，Reflection 70B的MMLU得分与Llama 3 70B相同，但与Meta的Llama 3.1 70B相比明显不足。这与HyperWrite最初公布的结果形成了鲜明对比。

舒默随后承认，在将模型上传至Hugging Face的过程中，模型的权重遭到损坏，这可能解释了与内部测试结果之间的差异。

9月8日，经过对一个私有API的测试，人工分析承认他们观察到令人印象深刻但未经过验证的结果，这些结果未能满足HyperWrite的初步声明。他们还对发布未经测试的模型版本以及未公开私有API版本的模型权重提出了重要问题。

在以AI为主题的Reddit论坛上，社区成员们也对Reflection 70B的性能和来源表示怀疑。有些人认为这似乎是Llama 3的一个变体，而非预期中的Llama 3.1，进一步加深了对其合法性的怀疑。甚至有用户指责舒默在“AI研究社区中进行欺诈”。

尽管面临反对声浪，一些用户仍为Reflection 70B辩护，称其在特定应用中的表现优异。然而，从兴奋到批评的迅速转变，凸显了AI领域的动荡不安。

在接下来的48小时内，AI研究社区期待舒默就模型表现和修正权重提供更新。9月10日，他终于对此争议进行了解释，表示：“我在这个声明上过于急促，深表歉意。我们是在已有信息的基础上做出的决策。我知道许多人对这个潜力感到兴奋，但也持怀疑态度。我们的团队正在努力明确发生了什么。一旦我们确认了事实，将保持与社区的透明沟通。”

舒默提到了Glaive AI创始人萨希尔·乔杜里的一篇帖子，乔杜里证实了关于模型声称的混淆，并提到在重现基准分数方面的困难。乔杜里表示：“我想回应这些合理的批评。我正在调查情况，并会很快提供透明的总结。我在任何时候都没有使用其他提供商的模型，旨在解释差异，包括某些术语被跳过等意外行为。关于基准测试我还有很多需要揭示，感谢社区的耐心，期待重新建立信任。”

目前，Reflection 70B及其在开源AI社区内的声称仍存在争议，质疑声不断。

LightEval：来自Hugging Face的开源工具，提升人工智能的责任性

迎接不可预测的GPU价格波动时代