Meta AI推出“无缝”翻译器，实现轻松实时跨语言沟通

Home AI News CN Meta AI推出“无缝”翻译器，实现轻松实时跨语言沟通

Updated on 十二月 1 2023

Meta AI研究人员宣布推出“无缝交流”（Seamless Communication），这是一套开创性的人工智能模型，旨在促进不同语言之间的自然沟通，积极朝着通用语音翻译器的方向迈进。本周，该模型与详尽的研究论文和数据一同发布。

旗舰模型“无缝”（Seamless）将三个其他模型的功能整合为一个统一系统，包括无缝表达（SeamlessExpressive）、无缝流媒体（SeamlessStreaming）和无缝M4T v2（SeamlessM4T v2）。研究表明，“无缝”是“第一个公开的系统，可以实时实现富有表现力的跨语言沟通”。

无缝如何变革交流

无缝通过支持超过100种口头和书面语言的实时翻译，突破了人工智能驱动的沟通界限。它在保持说话者语音风格、情感和韵律的同时，增强了口头表达的效果。

- 无缝表达（SeamlessExpressive）: 该模型在翻译时优先考虑演讲的情感和风格元素，解决了传统翻译工具常常输出机械、单调的局限性。

- 无缝流媒体（SeamlessStreaming）: 拥有约两秒的惊人延迟，这个模型被称为“第一个大规模多语言模型”，实现了近100种语言的快速翻译。

- 无缝M4T v2（SeamlessM4T v2）: 作为其他模型的基础，这个升级版的原始无缝M4T模型提高了“文本与语音输出之间的一致性”。

总体而言，研究人员认为，无缝标志着将通用语音翻译器的概念从科幻变为现实的重要进步。

变革全球交流

这些模型的潜在应用范围广泛，可以实现创新的语音交流解决方案——从使用智能眼镜进行实时多语言讨论到为视频和播客自动配音。这项技术可能有助于弥合移民和其他面临沟通挑战者的语言障碍。

通过公开研究成果，研究人员鼓励进一步开发，旨在增强在日益互联的世界中多语言交流的连接性。然而，他们也认识到滥用的风险，比如语音钓鱼和深度伪造技术，因此引入了音频水印等安全措施以减轻这些威胁。

在Hugging Face和GitHub上的公开发布

秉持开放研究的承诺，Meta已将无缝交流模型发布在Hugging Face和GitHub上。这包括无缝、无缝表达、无缝流媒体和无缝M4T v2模型，以及重要的元数据。

通过分享这些前沿的自然语言处理模型，Meta旨在赋能研究人员和开发者拓展该技术，促进语言和文化之间的连接。此举巩固了Meta在开源人工智能领域的领导地位，并为研究社区提供了宝贵的资源。