aiOla представляет Whisper-Medusa: революционная модель распознавания речи
Сегодня израильский стартап aiOla презентовал Whisper-Medusa — инновационную модель открытого кода для распознавания речи, работающую на 50% быстрее, чем популярная модель Whisper от OpenAI.
Whisper-Medusa использует новую архитектуру “многоуровенного внимания”, позволяя предсказывать несколько токенов одновременно, что значительно повышает скорость работы. Код и веса модели доступны на Hugging Face под лицензией MIT, что поддерживает как научные, так и коммерческие приложения.
Открывая этот продукт, aiOla стимулирует инновации и сотрудничество в сообществе ИИ. “Это может привести к еще большим улучшениям скорости, когда разработчики и исследователи будут развивать наши наработки,” — сказал Джилл Хец, вице-президент по исследованиям aiOla. Эти достижения могут проложить путь к ИИ-системам, способным понимать и реагировать на запросы пользователей практически в реальном времени.
Что отличает Whisper-Medusa?
С развитием базовых моделей, генерирующих все более разнообразный контент, важность современного распознавания речи остаётся критически значимой. Эта технология необходима в различных секторах, таких как здравоохранение и финтех, облегчая задачи, такие как транскрипция и поддержка сложных мультимодальных ИИ-систем. В прошлом году модель Whisper от OpenAI преобразовала пользовательский аудиофайл в текст для обработки крупными языковыми моделями (LLMs), которые затем предоставляли устные ответы.
Whisper стал золотым стандартом в области распознавания речи, обрабатывая сложные речевые паттерны и акценты почти в реальном времени. С более 5 миллионами загрузок в месяц он поддерживает десятки тысяч приложений.
Теперь aiOla утверждает, что Whisper-Medusa достигает еще более быстрой распознаваемости речи и транскрипции. Улучшенная архитектура Whisper с механизмом многоуровенного внимания позволяет модели предсказывать десять токенов за один проход, а не один, что приводит к увеличению скорости предсказания и эффективности работы на 50%.
aiOla Whisper-Medusa против OpenAI Whisper
Несмотря на повышенную скорость, Whisper-Medusa сохраняет такой же уровень точности, как оригинальная модель Whisper, благодаря своей базовой архитектуре. Хец отметил: “Мы первые в отрасли, кто применил этот подход к модели автоматического распознавания речи (ASR) и выпустил его для общественных исследований.”
“Увеличить скорость LLM проще, чем оптимизировать ASR-системы. Сложности непрерывных аудиосигналов и шума представляют собой уникальные вызовы. Благодаря нашему подходу многоуровенного внимания мы почти удвоили скорость предсказания без ущерба для точности,” — объяснил Хец.
Методология обучения Whisper-Medusa
aiOla использовала технику машинного обучения с ослабленным контролем для обучения Whisper-Medusa. Заморозив основные компоненты Whisper, компания использовала генерируемые моделью аудиотранскрипции как метки для обучения дополнительных модулей предсказания токенов.
Хец упомянул, что они начали с модели на 10 голов и планируют расширить её до версии на 20 голов, способной предсказывать 20 токенов одновременно, что обеспечит еще более быструю распознаваемость и транскрипцию без уменьшения точности. “Этот метод позволяет эффективно обрабатывать целые аудиозаписи речи сразу, снижая необходимость в нескольких проходах и повышая скорость,” — отметил он.
Хотя Хец был сдержан относительно раннего доступа для конкретных компаний, он подтвердил, что реальные корпоративные данные использовались для тестирования производительности в реальных приложениях. Ожидается, что улучшение скорости распознавания и транскрипции обеспечит более оперативные ответы в речевых приложениях. Представьте себе ИИ-помощника, такого как Alexa, который даёт ответы за считанные секунды.
“Отрасль значительно выиграет от систем распознавания речи в реальном времени, что повысит продуктивность, сократит затраты и ускорит доставку контента,” — заключил Хец.