Распознавание речи является ключевым элементом многомодальных систем ИИ. Многие компании стремятся внедрить эту технологию, однако остаются проблемы, особенно с точностью интерпретации специализированной терминологии. Израильский стартап aiOla достиг значительных успехов в решении этой задачи. Компания представила новый подход, который помогает моделям распознавания речи лучше понимать специализированный словарь, адаптированный для определенных отраслей.
Это нововведение повышает точность и отзывчивость систем распознавания речи, делая их более эффективными в сложных корпоративных условиях, даже при неблагоприятных акустических обстоятельствах. В своем первом исследовании aiOla адаптировала модель Whisper от OpenAI, успешно уменьшив коэффициент ошибок при распознавании и улучшив общую точность обнаружения.
Проблема терминологии в распознавании речи
В последние годы достижения в области глубокого обучения способствовали появлению высокоэффективных систем автоматического распознавания речи (ASR) и транскрипции. Модель Whisper от OpenAI привлекла внимание своей надежностью и точностью в распознавании английской речи. Однако с момента ее запуска в 2022 году многие отметили, что производительность Whisper может снижаться в реальных условиях, особенно в шумной обстановке, что затрудняет точную интерпретацию аудио. Например, расшифровка предупреждений о безопасности на фоне шума тяжелого оборудования или понимание команд с использованием специализированной терминологии в таких областях, как медицина или право, могут стать настоящим вызовом.
Организации, использующие передовые модели ASR, такие как Whisper, часто стремятся адаптировать свои системы к уникальным потребностям отрасли. Хотя такая настройка может улучшить производительность, она обычно требует значительных затрат времени и финансов.
«Настройка моделей ASR занимает дни и тысячи долларов — и это если у вас уже есть данные. Если нет, то сбор и разметка аудиоданных могут занять месяцы и обойтись в десятки тысяч долларов», — говорит Гил Хетц, вице-президент по исследованиям aiOla.
Чтобы решить эти проблемы, aiOla разработала методику "контекстного байоса" в два этапа. Сначала модель AdaKWS идентифицирует отраслевую терминологию из аудиообразцов. Затем эти ключевые слова направляют декодер ASR в включении терминов в финальный транскрибированный текст, что улучшает способность модели эффективно распознавать специализированный язык.
В начальных испытаниях aiOla использовала Whisper и экспериментировала с двумя техниками для повышения производительности: KG-Whisper (ключевое руководство Whisper) и KG-Whisper-PT (настройка подсказок). Обе адаптации продемонстрировали улучшенные результаты по сравнению с оригинальной моделью Whisper на различных наборах данных, даже в сложных акустических условиях.
«Наша новая модель (KG-Whisper-PT) значительно уменьшает коэффициент ошибок при распознавании слов (WER) и повышает точность (F1 score). В тестах на медицинском наборе данных она достигла значения F1 96,58, в то время как Whisper показал 80,50, а WER составил 6,15 против 7,33 у Whisper», — отмечает Хетц.
Важно, что этот метод совместим с различными моделями ASR. Хотя aiOla использовала Whisper, тот же подход может быть применен к MMS от Meta и другим собственным моделям распознавания речи, позволяя компаниям создать адаптированную систему распознавания без необходимости перенастройки. Достаточно предоставить список отраслевых терминов для модели поиска ключевых слов.
«Эта модель обеспечивает полноценные возможности ASR, точно идентифицируя жаргон. Она позволяет нам быстро адаптироваться к различным отраслям, просто изменяя словарь терминов без перенастройки всей системы. По сути, это модель нулевого обучения, способная предсказывать без наличия конкретных примеров в обучении», — объясняет Хетц.
Экономия времени для компаний Fortune 500
Благодаря своей адаптивности, подход aiOla может принести пользу множеству отраслей с техническим жаргоном, включая авиацию, транспорт, производство и логистику. Компания начала внедрять свою адаптивную модель у клиентов из Fortune 500, значительно повышая их эффективность в управлении процессами, насыщенными жаргоном.
Например, один из лидеров в области глобальных грузоперевозок из Fortune 50 использовал модель aiOla для автоматизации ежедневных проверок грузовиков, сократив каждую проверку с 15 минут до менее чем 60 секунд. Аналогично, одна из крупнейших продуктовых сетей Канады использовала модель для мониторинга температур продуктов и мяса, что привело к прогнозируемой экономии времени в 110 000 часов в год, более 2,5 миллионов долларов в предполагаемой экономии и 5-кратной отдаче на инвестиции.
aiOla поделилась своими исследованиями в надежде вдохновить на дальнейшие достижения в области ИИ другие исследовательские группы. Однако в настоящее время компания не предоставляет доступ к API адаптированной модели и не выпускает ее веса. Компании могут получить доступ к этой технологии исключительно через продуктовую линейку aiOla на основе подписки.