aiOla представляет молниеносную модель распознавания речи 'Multi-Head', которая превосходит OpenAI Whisper.

aiOla представляет Whisper-Medusa: революционная модель распознавания речи

Сегодня израильский стартап aiOla презентовал Whisper-Medusa — инновационную модель открытого кода для распознавания речи, работающую на 50% быстрее, чем популярная модель Whisper от OpenAI.

Whisper-Medusa использует новую архитектуру “многоуровенного внимания”, позволяя предсказывать несколько токенов одновременно, что значительно повышает скорость работы. Код и веса модели доступны на Hugging Face под лицензией MIT, что поддерживает как научные, так и коммерческие приложения.

Открывая этот продукт, aiOla стимулирует инновации и сотрудничество в сообществе ИИ. “Это может привести к еще большим улучшениям скорости, когда разработчики и исследователи будут развивать наши наработки,” — сказал Джилл Хец, вице-президент по исследованиям aiOla. Эти достижения могут проложить путь к ИИ-системам, способным понимать и реагировать на запросы пользователей практически в реальном времени.

Что отличает Whisper-Medusa?

С развитием базовых моделей, генерирующих все более разнообразный контент, важность современного распознавания речи остаётся критически значимой. Эта технология необходима в различных секторах, таких как здравоохранение и финтех, облегчая задачи, такие как транскрипция и поддержка сложных мультимодальных ИИ-систем. В прошлом году модель Whisper от OpenAI преобразовала пользовательский аудиофайл в текст для обработки крупными языковыми моделями (LLMs), которые затем предоставляли устные ответы.

Whisper стал золотым стандартом в области распознавания речи, обрабатывая сложные речевые паттерны и акценты почти в реальном времени. С более 5 миллионами загрузок в месяц он поддерживает десятки тысяч приложений.

Теперь aiOla утверждает, что Whisper-Medusa достигает еще более быстрой распознаваемости речи и транскрипции. Улучшенная архитектура Whisper с механизмом многоуровенного внимания позволяет модели предсказывать десять токенов за один проход, а не один, что приводит к увеличению скорости предсказания и эффективности работы на 50%.

aiOla Whisper-Medusa против OpenAI Whisper

Несмотря на повышенную скорость, Whisper-Medusa сохраняет такой же уровень точности, как оригинальная модель Whisper, благодаря своей базовой архитектуре. Хец отметил: “Мы первые в отрасли, кто применил этот подход к модели автоматического распознавания речи (ASR) и выпустил его для общественных исследований.”

“Увеличить скорость LLM проще, чем оптимизировать ASR-системы. Сложности непрерывных аудиосигналов и шума представляют собой уникальные вызовы. Благодаря нашему подходу многоуровенного внимания мы почти удвоили скорость предсказания без ущерба для точности,” — объяснил Хец.

Методология обучения Whisper-Medusa

aiOla использовала технику машинного обучения с ослабленным контролем для обучения Whisper-Medusa. Заморозив основные компоненты Whisper, компания использовала генерируемые моделью аудиотранскрипции как метки для обучения дополнительных модулей предсказания токенов.

Хец упомянул, что они начали с модели на 10 голов и планируют расширить её до версии на 20 голов, способной предсказывать 20 токенов одновременно, что обеспечит еще более быструю распознаваемость и транскрипцию без уменьшения точности. “Этот метод позволяет эффективно обрабатывать целые аудиозаписи речи сразу, снижая необходимость в нескольких проходах и повышая скорость,” — отметил он.

Хотя Хец был сдержан относительно раннего доступа для конкретных компаний, он подтвердил, что реальные корпоративные данные использовались для тестирования производительности в реальных приложениях. Ожидается, что улучшение скорости распознавания и транскрипции обеспечит более оперативные ответы в речевых приложениях. Представьте себе ИИ-помощника, такого как Alexa, который даёт ответы за считанные секунды.

“Отрасль значительно выиграет от систем распознавания речи в реальном времени, что повысит продуктивность, сократит затраты и ускорит доставку контента,” — заключил Хец.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles