在谷歌于其云计算大会Cloud Next上公布了一系列人工智能(AI)进展的同时,AI领域的新星Mistral AI也推出了最新的稀疏专家混合模型(SMoE)——Mixtral 8x22B。这家总部位于巴黎的初创公司与竞争者不同,采用独特的方式通过X平台分享了下载链接,允许用户直接下载和测试新模型,而不是发布传统的演示视频或博客文章。
此次发布是Mistral在短短几天内推出的第三个重要模型,继GPT-4 Turbo视觉版和Gemini 1.5 Pro之后。与此同时,Meta也预告了下月即将推出的Llama 3。
Mixtral的种子文件包含四个组件,总计262GB。虽然Mixtral 8x22B的详细功能尚未披露,但AI爱好者对此前景感到兴奋。不过,在本地运行该模型可能会面临挑战。一位Reddit用户提到:“当我购买M1 Max Macbook时,我认为32GB已经足够……我从未想过对AI的兴趣会让我觉得那远远不够。”
在Mixtral 8x22B发布后不久,Mistral便在Hugging Face上开放了该模型的进一步训练和部署,但强调预训练模型缺乏内容审查机制。同时,Together AI也为用户提供了实验的机会。
Mistral通过稀疏MoE方法,力求实现多种专业模型的强大组合,每种模型针对特定任务进行优化,以提升性能和成本效率。Mistral官网解释道:“在每一层,对于每一个标记,路由网络选择其中两个‘专家’处理该标记,并将它们的输出进行组合。这种方法在每个标记仅激活部分总参数的情况下,增强了模型的参数数量,同时控制了成本和延迟。”
此前,Mistral推出了Mixtral 8x7B,该模型总计包含467亿个参数,但每个标记仅使用129亿个参数,从而在处理输入和生成输出时,表现得与129亿模型一样的速度和成本。在最新版本中,Reddit讨论表明模型总参数达到1300亿个,在标记生成时激活了380亿个参数(假设同时激活两个专家)。
尽管Mixtral 8x22B在基准测试中的实际性能尚待验证,但用户期待值很高。他们相信这一新模型将进一步提升Mixtral的成功,后者在多个基准测试中超越了Meta的Llama 2 70B和OpenAI的GPT-3.5,包括GSM-8K和MMLU,并且提供了更快的推理速度。