Meta发布全新AI模型:音频、文本与水印创新解析

Meta的基础人工智能研究(FAIR)团队正在发布多个新模型和工具,专注于音频生成、文本到视觉的能力以及水印技术。

Meta在一份新闻稿中表示:“通过公开分享我们的早期研究,我们期望激发创新,推动人工智能的负责任发展。”

音频创作模型:JASCO和水印工具

Meta推出了JASCO,这代表了“联合音频与符号条件的时间控制文本到音乐生成”。该模型通过允许用户输入各种元素(如和弦或节拍),来增强音频创作的灵活性和效果。FAIR的研究表明,用户可以通过文本命令操控生成音频的特性,如和弦、鼓点和旋律,从而达到他们期望的声音效果。

FAIR将以MIT许可证发布JASCO推理代码,并在非商业的创作共享许可证下提供预训练模型。此外,Meta还推出了AudioSeal,这是一种创新工具,用于给AI生成的语音添加水印,帮助更有效地识别这类内容。

Meta指出:“AudioSeal是首个专为本地化检测AI生成语音而设计的音频水印技术,使得在较长的音频文件中识别AI创建的片段成为可能。”该工具显著提升了检测效率,检测速度比传统方法提高了485倍。与其它模型不同,AudioSeal将以商业许可发布。

变色龙模型发布

FAIR还计划发布其多模态文本模型变色龙(Chameleon)的两个版本,采用仅限研究使用的许可证。变色龙7B和34B模型专为需要视觉与文本理解的任务设计,例如图像描述。值得注意的是,Meta已宣布目前不会提供变色龙的图像生成模型,用户只能访问与文本相关的功能。

此外,研究人员将获得一种多标记预测方法,该方法可同时训练语言模型预测多个未来单词,而不是按顺序进行。此功能将仅在非商业和研究性质的许可证下提供。

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles