Способность преобразовывать устную речь в текст часто недооценивается, особенно с учетом быстрой и точной работы новой модели AdaKWS от aiOla, израильского стартапа, основанного в 2020 году, который специализируется на распознавании речи.
AdaKWS улучшает модель Whisper AI от OpenAI, повышая точность обнаружения ключевых слов на 6,2% на 16 языках и на более чем 16% для английского. С показателем точности 94,6% в распознавании ключевых слов, она превосходит родственную модель Whisper с успехом 88,4%. AdaKWS поддерживает транскрипцию почти в реальном времени на 100 языках.
Хотя эти цифры могут показаться скромными, они представляют собой значительный скачок с 80-го на 90-й процентиль в точности. Эта усовершенствованная технология переходит от узкоспециализированных приложений к более широкому использованию, включая строго регламентированные сектора, такие как здравоохранение и безопасность продуктов питания. Важно также отметить, что AdaKWS транскрибирует текст примерно в 160 раз быстрее, чем модель Whisper-Large V2.
«Способность выявлять ключевые слова позволяет автоматизировать повседневные процессы в различных отраслях, от подачи отчетов о повреждении посылок до завершения проверок безопасности на пищевых заводах, превращая речь в действие», — заявил Амир Хараматі, генеральный директор и соучредитель aiOla.
Разнообразие промышленных приложений
Хотя легко связать ИИ для преобразования речи в текст с задачами, такими как транскрибирование звонков службы поддержки, технология aiOla достигает успеха и в менее традиционных областях. В ходе демонстрации в области СМИ Хараматі продемонстрировал возможности системы в больничной среде: спикер в области здравоохранения озвучив информацию из оборудования для мониторинга пациентов, а модель AdaKWS автоматически заполнила сложную текстовую форму за считанные секунды, устранив необходимость в ручном вводе.
Кроме того, aiOla подчеркивает применение своей технологии для мониторинга температур в холодильниках супермаркетов. Позволяя сотрудникам сообщать показатели устно, система экономит клиенту более 110,000 часов ежегодно, которые иначе были бы потрачены на ручной ввод данных.
Потенциал AdaKWS привлек внимание лидеров отрасли; Хараматі отметил, что получил звонок от генерального директора Oracle Ларри Эллисона, который выразил интерес к применению технологии для медицинских записей.
Как работает AdaKWS
AdaKWS использует современный метод распознавания ключевых слов, который легко интегрируется в бизнес-процессы, позволяя автоматизацию через голосовые команды. Это алгоритм машинного обучения, который улучшает существующие модели распознавания речи, такие как Whisper, вставляясь между энкодером модели — отвечающим за интерпретацию устной речи — и декодером, который преобразует звук в текст.
«Наш акцент на оптимизации», — объяснил Джозеф Кешет, главный ученый aiOla.
В отличие от традиционных моделей, которые требуют обширной переработки для новых ключевых слов, AdaKWS быстро адаптируется к более чем 100 языкам и диалектам. Эта адаптивность делает его идеальным для корпоративных сред.
«Отраслевые термины распространены и могут доминировать в коммуникации», — отметил Хараматі. Кешет добавил: «Наша система обучена обеспечивать точность для этих ключевых слов, представляя их в скрытом пространстве, которое эффективно обобщает информацию по языкам».
AdaKWS особенно полезен для организаций, где происходят многоязычные взаимодействия, так как его можно быстро адаптировать к специфическому жаргону отрасли. Пользователи могут предоставлять списки ключевых слов, чтобы модель могла обучаться самостоятельно, распознавая термины даже без предварительного ознакомления с устными версиями.
Модель может быть готова к использованию в течение нескольких часов, быстро осваивая новые языки, процессы и ключевые слова. Бенчмарковое тестирование на 16 языках показало, что AdaKWS не только превзошел точность Whisper, но и эффективно справлялся со сложными терминами, используя меньше вычислительных ресурсов. Основные исследовательские результаты были опубликованы в научной статье в сентябре 2023 года.
Оптимизация бизнес-процессов
Поскольку компании все больше стремятся к эффективным и надежным решениям для управления сложными данными и коммуникационными задачами, AdaKWS от aiOla представляет собой значительную возможность для оптимизации операций и снижения затрат. Технология доступна через веб- и мобильные приложения и работает по модели подписки «программное обеспечение как услуга» (SaaS), основанной на пользователе и сценарии использования.
Достижения aiOla в области ИИ для распознавания речи не только устанавливают новые отраслевые стандарты, но и прокладывают путь для инноваций, которые улучшают интеграцию ИИ в повседневные бизнес-процессы.
«Мне нравится разрушать стереотипы, но я пришел к пониманию, что большинство людей предпочитают, чтобы их не беспокоили», — заключил Хараматі, подчеркивая, что основная цель AdaKWS — дополнить и улучшить существующие бизнес-операции, а не заменить их.