随着生成性人工智能领域竞争的加剧,Meta发布了其创新的多模态模型Chameleon的预览。与现有的多种模态模型不同,Chameleon在设计上是为多模态而生。
虽然这些模型尚未公开发布,但初步实验表明,Chameleon在图像描述和视觉问答(VQA)等任务中表现出色,且在仅限文本的挑战中也保持了竞争力。
Chameleon的架构
Chameleon采用了一种“早期融合的基于标记的混合模态”架构,这是一种尖端设计,能够处理交错的图像、文本和代码等信息。通过将图像转换为离散标记,Chameleon使用统一的词汇,将文本、代码和图像标记整合在一起。这使得同一变压器架构可以无缝处理同时包含文本和图像的序列。
研究人员指出,与之最接近的模型是Google Gemini,该模型也采用早期融合的方法。然而,Gemini在生成过程中依赖于独立的图像解码器,而Chameleon则作为一个端到端的模型,同步处理和生成标记。这种统一的标记空间使Chameleon能够生成交错的文本和图像序列,而无需特定于模态的组件。
克服早期融合的挑战
尽管早期融合具有优势,但在模型训练和扩展上也面临显著挑战。为了解决这些问题,研究团队进行了多项架构修改和训练技术的应用。在其研究中,团队详细介绍了各种实验及其对模型性能的影响。
Chameleon经历了两阶段的训练过程,使用的数据集包含4.4万亿个标记,包括文本、图像-文本对和交错序列。训练涉及到7亿和34亿参数版本的Chameleon,使用了超过500万小时的Nvidia A100 80GB GPU资源。
Chameleon的性能
论文中发布的结果显示,Chameleon在文本和多模态任务中表现非常出色。在视觉问答(VQA)和图像描述的基准测试中,Chameleon-34B达到了最先进的结果,超越了Flamingo、IDEFICS和Llava-1.5等模型。Chameleon在训练示例较少和模型规模更小的情况下,仍能在预训练和微调评估中显示出强大的性能。
在多模态模型往往在单一模态任务中表现不佳的情况下,Chameleon在仅限文本的基准测试中依然保持竞争力,与Mixtral 8x7B和Gemini-Pro在常识推理和阅读理解任务上相当。
值得注意的是,Chameleon能够实现先进的混合模态推理与生成,尤其在需要交错文本与图像的提示中。人类评估显示,用户更倾向于使用Chameleon生成的多模态文档。
未来展望
近期,OpenAI和Google推出了新的多模态模型,尽管细节仍然有限。如果Meta延续其透明度策略发布Chameleon的权重,它可能成为私有模型的开放替代方案。
早期融合的方法也为未来的研究铺平了道路,尤其是在更多模态被整合时。例如,机器人初创企业已经在探索如何将语言模型与机器人控制系统结合。早期融合对机器人基础模型的潜在影响将值得关注。
总之,Chameleon标志着在实现能够灵活推理和生成多模态内容的统一基础模型方面取得了重要进展。