Исследователи Meta AI объявили о запуске Seamless Communication — революционного набора моделей искусственного интеллекта, разработанных для обеспечения естественного общения на разных языках и приближающихся к созданию Универсального переводчика речи. На этой неделе модели были представлены вместе с обширными научными статьями и данными.
Флагманская модель, Seamless, интегрирует функции трех других моделей — SeamlessExpressive, SeamlessStreaming и SeamlessM4T v2 — в единую систему. Согласно исследованиям, Seamless является “первой публично доступной системой, которая обеспечивает выразительное межъязыковое общение в реальном времени.”
Как Seamless Преобразует Общение
Seamless расширяет рамки общения на основе ИИ, предоставляя возможность перевода более чем 100 разговорных и письменных языков в реальном времени. Она улучшает устное выражение, сохраняя голосовой стиль, эмоции и интонацию говорящего.
- SeamlessExpressive: Эта модель акцентирует внимание на эмоциональных и стилевых элементах речи во время перевода, устраняя распространенное ограничение традиционных инструментов перевода, которые часто дают роботообразные, монотонные результаты.
- SeamlessStreaming: С впечатляющей задержкой около двух секунд эта модель признана “первой массово многоязычной моделью,” достигшей высокой скорости перевода на почти 100 языках.
- SeamlessM4T v2: Служит основой для других моделей, эта усовершенствованная версия оригинальной модели SeamlessM4T повышает “согласованность данных между текстом и речевым выводом.”
В целом, исследователи считают, что Seamless представляет собой значительный шаг вперед в превращении концепции Универсального переводчика речи из научной фантастики в реальность.
Преобразование Глобальной Связи
Потенциальные применения этих моделей обширны, предоставляя инновационные решения для голосового общения — от многоязычных обсуждений в реальном времени с использованием умных очков до автоматического озвучивания видео и подкастов. Эта технология может помочь преодолеть языковые барьеры для иммигрантов и других, столкнувшихся с проблемами в общении.
Поделившись своими исследованиями с общественностью, ученые стремятся к дальнейшему развитию технологий, способствующих многоязыковым связям в все более взаимосвязанном мире. Однако они также осознают риски злоупотреблений, такие как голосовой фишинг и дипфейки, и ввели меры безопасности, такие как аудиоводяные знаки, для снижения этих угроз.
Публикация на Hugging Face и GitHub
В соответствии с обязательством к открытым исследованиям, Meta сделала модели Seamless Communication доступными на Hugging Face и GitHub. Это включает в себя модели Seamless, SeamlessExpressive, SeamlessStreaming и SeamlessM4T v2, а также необходимую метадату.
Делясь этими передовыми моделями обработки естественного языка, Meta стремится дать возможность исследователям и разработчикам развивать эту технологию, укрепляя связи между языками и культурами. Эта инициатива подтверждает лидерство Meta в области открытого ИИ и предоставляет ценную ресурсную базу для исследовательского сообщества.
“В целом, многогранные опыты, которые может предоставить Seamless, могут привести к значительному продвижению в машинном межъязыковом общении,” – заключили исследователи.