음성 인식 기술의 획기적인 발전으로, OpenAI의 Whisper v3는 언어 이해력을 크게 향상시키고 오류율을 줄였습니다. 이는 500만 시간에 달하는 방대한 훈련 데이터에서 얻은 결과입니다. 이 혁신적인 오픈소스 모델은 고객 서비스 경험을 강화하고자 하는 기업을 위해 설계되었습니다. 최근 OpenAI DevDay에서 공개된 Whisper v3는 여러 언어에서 성능이 개선되었으며, 특히 광둥어를 위한 전용 언어 토큰을 도입했습니다.
2022년 9월에 처음 출시된 Whisper는 오디오 클립을 텍스트로 변환하는 데 유용성을 입증했습니다. 이 모델은 음성 번역, 언어 식별, 음성 활동 감지 기능을 제공하여 음성 비서에 적합합니다. Whisper를 활용하면 기업은 고객 통화를 손쉽게 텍스트로 전환하거나 오디오 콘텐츠의 텍스트 기반 버전을 만들 수 있습니다. Whisper와 OpenAI의 새로운 GPT-4 Turbo와 같은 고급 텍스트 생성 모델을 통합하면 음성 인식과 텍스트 생성을 원활하게 결합한 강력한 이중 모달 애플리케이션 개발의 기회가 열립니다.
OpenAI의 개발자 경험 책임자인 로맹 위에(Romain Huet)는 이러한 통합의 잠재력을 시연했습니다. Whisper를 사용해 음성 입력을 텍스트로 전환하고 GPT-4 Turbo 모델과 결합하여 말할 수 있는 지능형 비서를 생성하는 과정을 보여주었습니다. 이는 새로운 Text-to-Speech API 덕분입니다.
Whisper v3는 500만 시간이라는 압도적인 훈련 데이터 양 뿐만 아니라 정교한 훈련 방법으로도 두드러집니다. 이 오디오 데이터 중 약 100만 시간은 약한 라벨링이 되어 있으며, 소리의 존재만을 나타내는 방식입니다. 나머지 400만 시간은 예측 모델링 기법을 통해 의사 라벨링되었습니다.
이 모델은 트랜스포머 아키텍처를 사용하여 오디오 데이터를 표현하는 토큰 시퀀스를 처리하고, 이를 효과적으로 해독하여 의미 있는 텍스트 출력을 생성합니다. 본질적으로, Whisper는 오디오 입력을 관리하기 쉬운 조각으로 나누어, 언어를 정확히 파악할 수 있게 합니다.
Whisper v3는 다양한 응용 프로그램 요구에 맞춰 여러 크기로 제공됩니다. 가장 작은 모델인 Tiny는 3900만 개의 매개변수로 약 1GB의 VRAM을 필요로 합니다. 기본 모델은 7400만 개의 매개변수를 가지며, 이전 버전보다 약 16배 빠른 처리 속도를 자랑합니다. 가장 큰 모델인 Large는 15억 5000만 개의 매개변수를 포함하고 있으며, 배포를 위해 약 10GB의 VRAM이 필요합니다.
Common Voice 15 및 Fleurs와 같은 오디오 벤치마크에서 Whisper v3는 2022년 12월에 출시된 이전 버전 대비 현저히 낮은 오류율을 기록했습니다. OpenAI CEO인 샘 올트먼(Sam Altman)은 기조 연설에서 “여러분이 정말 좋아할 것이라고 생각합니다”라고 자신감을 나타냈습니다.
Whisper v3 접근 방법은?
Whisper v3는 Hugging Face 또는 GitHub와 같은 플랫폼을 통해 공개적으로 접근이 가능하며, MIT 라이센스 하에 상업적으로 활용할 수 있습니다. 이는 기업들이 특정 조건을 준수하는 경우 Whisper v3를 구현할 수 있게 합니다. 이러한 조건에는 배포되는 모든 버전에서 필요한 저작권 및 허가 고지가 포함됩니다.
이 라이센스는 광범위한 사용을 허용하지만 보증이 없으며, 구현으로 인해 발생할 수 있는 모든 문제에 대해 저자 또는 저작권 소유자의 책임을 제한합니다. Whisper는 오픈 소스이지만, OpenAI는 가까운 미래에 그들의 자동 음성 인식 모델 최신 버전을 API를 통해 지원할 계획을 발표했습니다.
Whisper v3는 성능에서 중요한 도약을 이뤘지만, OpenAI는 훈련 데이터가 제한된 언어에서 정확도가 떨어질 수 있음을 인정합니다. 또한 다양한 억양과 방언으로 인해 단어 오류율이 증가할 수 있는 문제도 여전히 존재합니다.