aiOla представляет молниеносную модель распознавания речи 'Multi-Head', которая превосходит OpenAI Whisper.

Home Новости ИИ aiOla представляет молниеносную модель распознавания речи 'Multi-Head', которая превосходит OpenAI Whisper.

Updated on август 1 2024

aiOla представляет Whisper-Medusa: революционная модель распознавания речи

Сегодня израильский стартап aiOla презентовал Whisper-Medusa — инновационную модель открытого кода для распознавания речи, работающую на 50% быстрее, чем популярная модель Whisper от OpenAI.

Whisper-Medusa использует новую архитектуру “многоуровенного внимания”, позволяя предсказывать несколько токенов одновременно, что значительно повышает скорость работы. Код и веса модели доступны на Hugging Face под лицензией MIT, что поддерживает как научные, так и коммерческие приложения.

Открывая этот продукт, aiOla стимулирует инновации и сотрудничество в сообществе ИИ. “Это может привести к еще большим улучшениям скорости, когда разработчики и исследователи будут развивать наши наработки,” — сказал Джилл Хец, вице-президент по исследованиям aiOla. Эти достижения могут проложить путь к ИИ-системам, способным понимать и реагировать на запросы пользователей практически в реальном времени.

Что отличает Whisper-Medusa?

С развитием базовых моделей, генерирующих все более разнообразный контент, важность современного распознавания речи остаётся критически значимой. Эта технология необходима в различных секторах, таких как здравоохранение и финтех, облегчая задачи, такие как транскрипция и поддержка сложных мультимодальных ИИ-систем. В прошлом году модель Whisper от OpenAI преобразовала пользовательский аудиофайл в текст для обработки крупными языковыми моделями (LLMs), которые затем предоставляли устные ответы.

Whisper стал золотым стандартом в области распознавания речи, обрабатывая сложные речевые паттерны и акценты почти в реальном времени. С более 5 миллионами загрузок в месяц он поддерживает десятки тысяч приложений.

Теперь aiOla утверждает, что Whisper-Medusa достигает еще более быстрой распознаваемости речи и транскрипции. Улучшенная архитектура Whisper с механизмом многоуровенного внимания позволяет модели предсказывать десять токенов за один проход, а не один, что приводит к увеличению скорости предсказания и эффективности работы на 50%.

aiOla Whisper-Medusa против OpenAI Whisper

Несмотря на повышенную скорость, Whisper-Medusa сохраняет такой же уровень точности, как оригинальная модель Whisper, благодаря своей базовой архитектуре. Хец отметил: “Мы первые в отрасли, кто применил этот подход к модели автоматического распознавания речи (ASR) и выпустил его для общественных исследований.”

“Увеличить скорость LLM проще, чем оптимизировать ASR-системы. Сложности непрерывных аудиосигналов и шума представляют собой уникальные вызовы. Благодаря нашему подходу многоуровенного внимания мы почти удвоили скорость предсказания без ущерба для точности,” — объяснил Хец.

Методология обучения Whisper-Medusa

aiOla использовала технику машинного обучения с ослабленным контролем для обучения Whisper-Medusa. Заморозив основные компоненты Whisper, компания использовала генерируемые моделью аудиотранскрипции как метки для обучения дополнительных модулей предсказания токенов.

Хец упомянул, что они начали с модели на 10 голов и планируют расширить её до версии на 20 голов, способной предсказывать 20 токенов одновременно, что обеспечит еще более быструю распознаваемость и транскрипцию без уменьшения точности. “Этот метод позволяет эффективно обрабатывать целые аудиозаписи речи сразу, снижая необходимость в нескольких проходах и повышая скорость,” — отметил он.

Хотя Хец был сдержан относительно раннего доступа для конкретных компаний, он подтвердил, что реальные корпоративные данные использовались для тестирования производительности в реальных приложениях. Ожидается, что улучшение скорости распознавания и транскрипции обеспечит более оперативные ответы в речевых приложениях. Представьте себе ИИ-помощника, такого как Alexa, который даёт ответы за считанные секунды.

“Отрасль значительно выиграет от систем распознавания речи в реальном времени, что повысит продуктивность, сократит затраты и ускорит доставку контента,” — заключил Хец.

Hedra запускает Character-1: современная базовая модель, ориентированная на видео.

Intel объявляет об увольнении 15% сотрудников, что затронет не менее 15,000 человек.

Most people like

DataVisor

49.4K

Представляем платформу управления мошенничеством на основе ИИ, разработанную специально для предприятий, чтобы эффективно минимизировать риски и защищать их активы. Это инновационное решение использует передовые алгоритмы для обнаружения и предотвращения мошеннических действий, обеспечивая безопасную среду для ваших бизнес-операций.

Обнаружение мошенничества Other

OneClickHuman

86.1K

В современном цифровом пространстве создание увлекательного контента, который находит отклик у читателей, стало важнее, чем когда-либо. Человечность в контенте, созданном ИИ, не только улучшает его читаемость, но и способствует искренней связи с аудиторией. Интегрируя понятный язык и разговорный стиль, мы можем превратить техническую информацию в доступные нарративы. Такой подход не только привлекает внимание, но и способствует более глубокому пониманию, выделяя ваш контент на фоне множества информации. Освойте искусство человечности в контенте ИИ, чтобы повысить качество вашего письма и эффективно взаимодействовать с читателями.

Преобразование контента из ИИ в человекочитаемый формат AI Content Generator

Vanchat

6.2K

Узнайте, как искусственный интеллект в виде помощника для Shopify может преобразить взаимодействие с клиентами, увеличивая вовлеченность и стимулируя продажи. Используя современные технологии, этот инновационный инструмент улучшает процесс покупок, делая его плавным и персонализированным для каждого пользователя. Поднимите свой магазин Shopify на новый уровень с помощником, который понимает потребности клиентов.

AI ЧатБот E-commerce Assistant

Lebesgue

64K

Лебег: мощный маркетинговый инструмент для интернет-магазинов, максимизирующий ROI с помощью глубокого анализа данных.

маркетинговый инструмент AI Advertising Assistant

Find AI tools in YBX