Sakana AI运用进化算法揭示生成模型的创新架构

东京初创公司Sakana AI开发了一种名为“进化模型融合”的开创性技术,能够自动生成生成模型。该方法受到自然选择的启发,通过结合现有模型的元素,衍生出更先进的版本。

Sakana AI于2023年8月由曾在谷歌工作的知名AI研究者David Ha和“Attention Is All You Need”论文的合作者Llion Jones共同创办,正处于生成AI创新的前沿。

颠覆模型开发

Sakana的进化模型融合技术使开发者和组织能够以经济的方式创建和探索新模型,免去了昂贵的专有模型训练和微调成本。近期,Sakana AI推出了基于这一创新技术开发的大型语言模型(LLMs)和视觉-语言模型(VLMs)。

理解模型融合

传统生成模型的训练通常成本高昂且复杂。然而,随着开源模型如Llama 2和Mistral的出现,开发者们开始利用模型融合技术——将两个或多个预训练模型的各个组件结合,形成新的模型。这种方法使新模型能够继承前身的优势,而无需额外的训练,成为一种非常经济的选择。如今,许多在开源LLM排行榜上位居前列的模型都是流行基础模型的融合版本。

Sakana AI的研究人员指出:“一个充满活力的研究者、黑客和艺术家社区正在积极通过微调和融合现有模型来开发新的基础模型。”在Hugging Face上,有超过50万个模型可供使用,模型融合提供了以最低成本创造创新解决方案的广泛机会,尽管这需要相当的直觉和领域知识。

进化模型融合的介绍

Sakana AI旨在通过系统性方法优化模型融合过程。基于模拟自然选择的进化算法,该方法识别了融合不同模型的最有效方式。

David Ha强调:“从多种现有模型中演变出新模型的能力具有重要意义。”在训练基础模型资源需求不断上升的情况下,这种进化方法可能对希望在不进行大量投资的情况下快速开发原型模型的机构或政府机构极具帮助。进化模型融合技术能够自动运行,评估现有模型的层和权重,以创建符合用户需求的新架构。

展示进化融合的潜力

为了探索这种方法的潜力,Sakana AI的研究人员应用进化模型融合技术,创建了一款能够进行数学推理的日本大型语言模型(LLM)及日本视觉-语言模型(VLM)。这些模型在未经过显式优化的情况下,超越了多个基准。例如,他们的EvoLLM-JP(一个70亿参数的日本数学LLM)在对比中超越了某些700亿参数的竞争对手。

在日本VLM方面,团队将LLaVa-1.6-Mistral-7B与Shisa-Gamma 7B融合,推出的EvoVLM-JP模型超越了LLaVa-1.6-Mistral-7B和先前的JSVLM。两款模型均已在Hugging Face和GitHub上发布。Sakana AI还在将其进化融合方法应用于图像生成扩散模型,以提升Stable Diffusion XL在处理日本提示时的表现。

Sakana AI的愿景

Sakana AI由David Ha和Llion Jones创立,旨在利用自然启发的概念,例如进化和集体智能,创建基础AI模型。团队相信,未来的AI不应围绕一个单一的全能系统运转,而应形成一个专门化的AI系统网络,根据不同的细分市场进行合作与进化,以满足多种需求。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles