微调是提升大型语言模型(LLM)输出并使其与企业特定需求对齐的重要步骤。通过正确执行此过程,可以获得更精确、有价值的模型响应,从而帮助组织最大程度地利用生成式人工智能应用。然而,微调过程可能成本高昂,给一些希望利用这些先进功能的企业带来了障碍。
Mistral是一家快速发展的开源人工智能模型提供商,自推出仅14个月便接近60亿美元的估值,现已进入微调领域。他们的新AI开发平台La Plateforme推出了增强的定制工具,旨在简化微调流程、降低培训成本,并降低入门门槛。
Mistral的名字源于法国南部的一种强风,正在人工智能领域掀起波澜,不断创新并吸引大量投资。公司在一篇最新的博客中指出,针对特定领域微调较小模型可以提高性能,同时降低部署成本并加快应用速度。
定制Mistral模型以提高个性化
Mistral通过以开源许可发布强大的LLM,建立了自己的市场地位,使得用户能够自由适配。此外,Mistral还提供API和La Plateforme开发平台等付费服务,用户可以在无需大量服务器配置的情况下,通过API调用Mistral的功能。
现在,客户可以在La Plateforme上定制Mistral模型,或在GitHub上使用Mistral的开源代码,亦可获得定制培训服务。对于希望独立工作的开发者,Mistral推出了轻量级的代码库mistral-finetune,使用LoRA方法最小化可训练参数的数量。
Mistral表示:“通过mistral-finetune,您可以在自己的基础设施上微调我们所有的开源模型,而不需要牺牲性能或内存效率。” 对于那些对无服务器微调感兴趣的用户,Mistral提供了利用精细研发技术的新服务。LoRA适配器不仅有助于保留模型的基础知识,同时也支持高效部署。
Mistral认为这是使复杂的科学方法可被AI应用开发者访问的重要进展,能够快速且经济地实现模型定制。
此外,微调服务与Mistral的73亿参数模型Mistral 7B和Mistral Small兼容。现有用户可以利用Mistral的API进行即时定制,未来几周还将推出更多可微调模型。
Mistral的定制培训服务则使用专有数据优化AI模型以适应特定应用,通常采用最新技术,如连续预训练,融入专业知识,从而开发出高度专业化和高效的模型。
为庆祝这些新产品的推出,Mistral举办了一场AI微调黑客松活动,活动将持续至6月30日,鼓励开发者尝试该创业公司的创新性微调API。
Mistral的前所未有的增长与创新
自2023年4月由前谷歌DeepMind和Meta员工Arthur Mensch、Guillaume Lample及Timothée Lacroix成立以来,Mistral迅速成长。公司获得了创纪录的1.18亿美元种子轮融资,成为欧洲历史上最大的一轮,并迅速与IBM等主要企业建立了合作关系。今年2月,Mistral Large通过与微软在Azure云的合作正式推出。
最近,SAP和思科也宣布支持Mistral,而上个月,这家公司推出了其首个以代码为中心的LLM—Codestral,声称其性能超过所有竞争对手。同时,Mistral即将完成一轮规模巨大的融资,预计将其估值提升至60亿美元。
作为OpenAI和Meta的Llama 3的直接竞争对手,Mistral Large被认为是全球第二大商业语言模型,仅次于OpenAI的GPT-4。Mistral 7B在2023年9月推出,声称在多个基准测试中优于Llama,并在编码任务上与CodeLlama 7B表现接近。
Mistral接下来将会推出什么创新?我们拭目以待。