Meta的Llama 3.2:多模态人工智能的新纪元
在今天的Meta Connect大会上,Meta公司推出了Llama 3.2,这是其首个重大视觉模型,能够同时理解图像和文本。Llama 3.2包括小型和中型模型(分别为110亿和900亿参数),以及更加轻量的文本模型(10亿和30亿参数),适合移动和边缘设备使用。
Meta首席执行官马克·扎克伯格在开幕演讲中表示:“这是我们首个开源的多模态模型,能够支持需要视觉理解的多种应用。”与前版本类似,Llama 3.2提供高达128,000个令牌的上下文长度,能够处理大量文本,等同于数百页教材。参数数量增加通常会提升模型的准确性和处理复杂任务的能力。
Meta今天还发布了官方Llama堆栈分发版本,使开发者能够在不同环境中(包括本地、设备、云和单节点设置)使用这些模型。扎克伯格指出:“开源将继续是最具成本效益、可定制和可靠的选择。行业已经到达拐点,开源正逐步成为AI的标准,就像Linux一样。”
与Claude和GPT-4o竞争
在发布Llama 3.1仅两个月后,Meta报告称其能力增长了十倍。扎克伯格表示:“Llama继续迅速发展,正在解锁越来越多的功能。”Llama 3.2中最大的两个模型(110亿和900亿参数)现在支持图像使用,能够解读图表、生成图像描述,并根据自然语言提示识别物体。例如,用户可以询问公司的最佳销售月份,模型能根据提供的图表推导出答案。更大的模型可以从图像中提取信息,以创建详细的描述。
轻量级模型则方便开发个性化的应用程序,以便私人使用,例如总结近期的交流或管理后续会议的日历邀请。
Meta声称,Llama 3.2在图像识别和视觉理解任务方面与Anthropic的Claude 3 Haiku和OpenAI的GPT-4o-mini竞争。值得注意的是,它在遵循指令、摘要、工具利用和提示重写等任务上优于Gemma和Phi 3.5-mini。
用户可以在 llama.com、Hugging Face 及Meta的合作平台上下载Llama 3.2模型。
扩展商业AI与消费者互动功能
Meta还在提升其商业AI,帮助企业在WhatsApp和Messenger上利用点击消息广告。这包括开发能够回答常见问题、讨论产品细节并完成购买的代理。
公司报告称,已有超过100万广告主使用其生成式AI工具,过去一个月共创建了1500万条广告。使用Meta生成式AI的广告活动平均点击率提升了11%,转化率提高了7.6%。
对于消费者,Meta AI正在获得“声音”,其中包括多个名人声音,如朱迪·丹奇 (Dame Judi Dench)、约翰·塞纳 (John Cena)、基根·迈克尔·基 (Keegan-Michael Key)、克里斯汀·贝尔 (Kristen Bell) 和艾克华菲娜 (Awkwafina)。
扎克伯格表示:“我认为,语音将比文本更自然地与AI互动,这样的交流效果更好。”模型可以在WhatsApp、Messenger、Facebook和Instagram等平台上响应语音或文本指令,并能够处理共享照片,编辑图像、添加或修改背景。此外,Meta还在测试新的翻译、视频配音和同步工具。
扎克伯格强化了Meta AI的目标,即成为全球最广泛使用的助手,他表示:“它可能已经达成这个目标。”