Mistral AI推出全新“专家混合”模型并提供下载链接

Home AI News CN Mistral AI推出全新“专家混合”模型并提供下载链接

在谷歌于其云计算大会Cloud Next上公布了一系列人工智能（AI）进展的同时，AI领域的新星Mistral AI也推出了最新的稀疏专家混合模型（SMoE）——Mixtral 8x22B。这家总部位于巴黎的初创公司与竞争者不同，采用独特的方式通过X平台分享了下载链接，允许用户直接下载和测试新模型，而不是发布传统的演示视频或博客文章。

此次发布是Mistral在短短几天内推出的第三个重要模型，继GPT-4 Turbo视觉版和Gemini 1.5 Pro之后。与此同时，Meta也预告了下月即将推出的Llama 3。

Mixtral的种子文件包含四个组件，总计262GB。虽然Mixtral 8x22B的详细功能尚未披露，但AI爱好者对此前景感到兴奋。不过，在本地运行该模型可能会面临挑战。一位Reddit用户提到：“当我购买M1 Max Macbook时，我认为32GB已经足够……我从未想过对AI的兴趣会让我觉得那远远不够。”

在Mixtral 8x22B发布后不久，Mistral便在Hugging Face上开放了该模型的进一步训练和部署，但强调预训练模型缺乏内容审查机制。同时，Together AI也为用户提供了实验的机会。

Mistral通过稀疏MoE方法，力求实现多种专业模型的强大组合，每种模型针对特定任务进行优化，以提升性能和成本效率。Mistral官网解释道：“在每一层，对于每一个标记，路由网络选择其中两个‘专家’处理该标记，并将它们的输出进行组合。这种方法在每个标记仅激活部分总参数的情况下，增强了模型的参数数量，同时控制了成本和延迟。”

此前，Mistral推出了Mixtral 8x7B，该模型总计包含467亿个参数，但每个标记仅使用129亿个参数，从而在处理输入和生成输出时，表现得与129亿模型一样的速度和成本。在最新版本中，Reddit讨论表明模型总参数达到1300亿个，在标记生成时激活了380亿个参数（假设同时激活两个专家）。

尽管Mixtral 8x22B在基准测试中的实际性能尚待验证，但用户期待值很高。他们相信这一新模型将进一步提升Mixtral的成功，后者在多个基准测试中超越了Meta的Llama 2 70B和OpenAI的GPT-3.5，包括GSM-8K和MMLU，并且提供了更快的推理速度。

Cohere的Command R+在HuggingChat上线：体验最新AI聊天技术

Intercom推出Fin AI助手：为客服人员量身打造的智能AI助手