С значительным прогрессом в технологии распознавания речи OpenAI представила Whisper v3, которая значительно улучшает понимание языка и снижает уровень ошибок, основываясь на впечатляющих пяти миллионах часов обучающих данных. Эта инновационная модель с открытым исходным кодом предназначена для бизнеса, стремящегося повысить качество обслуживания клиентов и не только. Недавно представленная на OpenAI DevDay, Whisper v3 демонстрирует улучшенное выполнение задач на нескольких языках, включая специальный языковой токен для кантонского.
Запущенная в сентябре 2022 года, Whisper зарекомендовала себя в преобразовании аудиофайлов в текст, предлагая функции перевода речи, определения языка и обнаружения голосовой активности, что делает её отличным выбором для голосовых помощников. С помощью Whisper компании могут легко транскрибировать звонки клиентов или создавать текстовые версии аудиоконтента. Интеграция Whisper с передовыми моделями генерации текста OpenAI, такими как новый GPT-4 Turbo, открывает возможности для разработки мощных мультимодальных приложений, которые без труда объединяют распознавание голоса и генерацию текста.
Ромен Уэ, ответственный за развитие опыта разработчиков в OpenAI, продемонстрировал потенциал этих интеграций. Используя Whisper для транскрибирования голосовых запросов в текст и сочетая с моделью GPT-4 Turbo, он показал создание интеллектуального помощника, который может говорить благодаря новому API текст-в-речь.
Whisper v3 выделяется не только объемом данных для обучения — пять миллионов часов, что является значительным ростом по сравнению с 680,000 часами предыдущей версии — но и сложными методами обучения. Примерно один миллион часов этих аудиоданных был слабо размечен, что означает, что он только указывал на наличие звука, тогда как четыре миллиона часов были псевдоразмечены с помощью предсказательных методов моделирования.
Модель использует архитектуру Transformer, которая обрабатывает последовательности токенов, представляющих аудиоданные, эффективно декодируя их для получения значимого текстового вывода. По сути, она разбивает звуковой ввод на управляемые части, позволяя точно определять сказанное.
Чтобы удовлетворить различные потребности приложений, Whisper v3 доступна в нескольких размерах. Самая маленькая модель Tiny состоит из 39 миллионов параметров и требует около 1 ГБ видеопамяти для работы. Базовая модель содержит 74 миллиона параметров и обладает скоростью обработки, примерно в 16 раз превышающей скорость предыдущих итераций. Самая крупная версия, получившая название Large, имеет колоссальные 1.55 миллиарда параметров и требует около 10 ГБ видеопамяти для развертывания.
Обширные тесты на аудиобенчмарках, таких как Common Voice 15 и Fleurs, показывают, что Whisper v3 достигает значительно более низкого уровня ошибок по сравнению с предыдущими версиями, выпущенными в декабре 2022 года. Генеральный директор OpenAI Сэм Олтман выразил уверенность в новом Whisper во время своего выступления, заявив: «Мы думаем, вам это действительно понравится».
Как получить доступ к Whisper v3?
Whisper v3 доступна на платформах, таких как Hugging Face и GitHub, предоставляя возможности для коммерческого использования согласно лицензии MIT. Это позволяет компаниям внедрять Whisper v3 при соблюдении условий лицензии, в том числе необходимых уведомлений о авторских правах и разрешениях во всех распределяемых версиях.
Важно отметить, что хотя лицензия допускает широкое использование, она также не подразумевает гарантий и ограничивает ответственность авторов или держателей прав на любые потенциальные проблемы, возникающие в результате её применения. Несмотря на то что Whisper является открытым исходным кодом, OpenAI объявила о планах поддержки последней версии своей модели автоматического распознавания речи через API в ближайшем будущем.
Хотя Whisper v3 представляет собой значительный шаг вперед в производительности, OpenAI признает, что её точность может снижаться в языках с ограниченными обучающими данными. Кроме того, продолжают существовать проблемы, связанные с различными акцентами и диалектами, что может способствовать повышению уровня ошибок.