第三方评估未能重现Matt Shumer及其人工智能写作初创公司HyperWrite之前分享的Reflection 70B性能指标,因此,Shumer在社交媒体X上面临诈骗指控。
在人工智能领域,一个新参与者浮出水面:Matt Shumer宣布推出Reflection 70B,这是基于Meta开源的Llama 3.1-70B Instruct的大型语言模型(LLM)。该模型采用了一种创新的错误自我修正技术,在第三方基准测试中展示了令人印象深刻的表现。
Shumer在X上发布了一则通知,称Reflection 70B为“世界顶级开源人工智能模型”,并分享了一张基准性能图表,强调该模型的卓越结果。
严格的测试与性能
Reflection 70B经过了广泛的测试,采用了包括MMLU和HumanEval在内的基准,LMSys的LLM Decontaminator确保了结果无污染。测试结果表明,Reflection在性能上持续优于Meta的Llama系列,并与领先的商业模型紧密竞争。
用户可以在演示网站亲自体验这一模型。Shumer指出,由于公告引发了大量流量,他的团队正迅速寻找额外的GPU以满足需求。
Reflection 70B的独特能力
Shumer强调,Reflection 70B在错误识别和修正方面具有明显优势。他表示:“LLM经常出现错觉而无法自我纠正。若一个LLM能够学习识别并纠正自己的错误,那将如何呢?”
因此,该模型被命名为“Reflection”,因为它能在向用户呈现输出之前评估其准确性。它的优势在于“反思调优”,这种技术可以让它在最终响应之前识别推理中的不足并进行修正。
Reflection 70B引入了结构化推理和错误修正的特殊标记,使用户互动更加流畅。在推理过程中,模型在特定标签内提供推理输出,允许用户实时纠正识别到的错误。
演示平台包括了一些建议的提示,例如计算“Strawberry”中字母“r”的数量,和确定哪个数字更大,9.11还是9.9——这些任务常常被许多知名的专有AI模型错误计算。在我们的测试中,Reflection 70B经过短暂延迟后,最终提供了正确答案。
这一功能使得该模型在需要高度准确性的任务中特别有价值,因为它将推理分解为独立步骤,从而提升精准度。Reflection 70B可通过Hugging Face下载,API访问预计今天稍晚将通过Hyperbolic Labs开放。
对Reflection 405B的期待
Reflection 70B的发布仅仅是个开始。Shumer宣布,更大模型Reflection 405B将于下周亮相。他提到正在将Reflection 70B整合到HyperWrite的主要AI写作助手产品中,并表示:“我会很快分享更多相关信息。”
Reflection 405B旨在超越当前顶级的封闭源模型。Shumer还表示,将发布关于训练过程和基准的详细报告,提供Reflection系列背后的创新洞察。
基于Meta的Llama 3.1 70B Instruct,Reflection 70B保持了与现有工具和流水线的兼容性,采用Llama聊天格式。
Glaive的合成数据贡献
Glaive是一家专注于创建特定用例数据集的初创公司,其生成的合成数据是Reflection 70B成功的关键因素。Glaive的平台支持快速训练小型、定向的语言模型,解决了AI开发中的一大瓶颈:高质量、任务特定数据的可用性。
通过生产针对特定需求的合成数据集,Glaive让公司能够高效、经济地微调模型。该公司之前在小型模型方面取得了成功,例如一个3B参数的模型在HumanEval任务中超越了更大的开源对手。Spark Capital已向Glaive投资350万美元,以支持其实现民主化AI生态系统的愿景。
借助Glaive的技术,Reflection团队生成了高质量的合成数据,显著加快了开发进度。Shumer表示,训练过程用了三周,包括五个模型的迭代,并使用Glaive的系统构建了定制数据集。
HyperWrite的背景
尽管Reflection 70B的出现似乎突如其来,Shumer在人工智能行业已浸淫多年。他于2020年与Jason Kuperberg共同创立了名为Otherside AI的公司,位于纽约梅尔维尔。这家公司通过HyperWrite迅速发展,HyperWrite最初是一个用于撰写电子邮件的Chrome扩展,后来演变为全面的AI写作助手,能够撰写论文和整理电子邮件。截至2023年11月,HyperWrite的用户已达两百万,使其创始人登上了《福布斯》“30队30”名单。
2023年3月,HyperWrite获得了来自Madrona Venture Group等投资者的280万美元投资,推动了多项创新AI驱动功能的推出,将网络浏览器转变为处理各种任务的虚拟助手。
Shumer强调,精确性和安全性对HyperWrite而言始终是重中之重,特别是在其探索复杂自动化时。该平台不断优化个人助理工具,体现了与Reflection 70B相同的关注精确性和责任感。
HyperWrite及Reflection模型的未来前景
展望未来,Shumer计划在Reflection系列上实现更大的进步。在Reflection 405B即将推出之际,他相信该模型将显著超越诸如OpenAI的GPT-4等专有模型的表现。
这不仅给OpenAI带来了挑战,该公司 reportedly 正在寻求来自Nvidia和Apple等大型公司的重大新投资,同时也令其他封闭源模型提供商如Anthropic和Microsoft感受到压力。
随着生成AI领域的发展,权力的平衡再次发生变化。Reflection 70B的问世标志着开源AI的一个重要时刻,为开发者和研究人员提供了一个与专有模型相抗衡的强大工具。借助其在推理和错误修正方面的创新方法,Reflection有望建立开源模型能力的新标准。