aiOla, 이스라엘 AI 스타트업, 혁신적인 음성 인식 모델 Whisper-Medusa 출시
이스라엘의 AI 스타트업 aiOla는 OpenAI의 인기 음성 인식 시스템 Whisper보다 50% 더 빠르게 작동하는 혁신적인 오픈 소스 음성 인식 모델 Whisper-Medusa를 공개했습니다. Whisper-Medusa는 새로운 "다중 헤드 주의" 아키텍처를 활용하여 여러 토큰을 동시에 예측, 속도를 크게 향상시킵니다. 모델의 코드와 가중치는 MIT 라이선스 하에 Hugging Face에서 제공되어 연구와 상업적 응용을 지원합니다.
aiOla는 이 솔루션을 오픈 소스로 제공함으로써 AI 커뮤니티 내에서 혁신과 협업을 촉진합니다. aiOla의 연구 부서 VP인 Gil Hetz는 "개발자와 연구자들이 우리의 작업을 기반으로 할 수 있다면, 더 큰 속도 개선이 이뤄질 수 있습니다"라고 말했습니다. 이러한 발전은 사용자 문의에 대한 즉각적인 이해와 반응이 가능한 AI 시스템으로 이어질 수 있습니다.
Whisper-Medusa의 차별점
기초 모델들이 점점 더 다양한 콘텐츠를 생성함에 따라, 고급 음성 인식 기술의 중요성은 더욱 강조되고 있습니다. 이 기술은 의료와 핀테크 등 여러 분야에서 필수적이며, 전사 작업과 정교한 다중 모드 AI 시스템을 지원합니다. 지난해 OpenAI의 Whisper 모델은 사용자 음성을 텍스트로 변환하여 대형 언어 모델(LLM)로 처리하고, 그 결과 음성 답변을 반환했습니다.
Whisper는 복잡한 음성 패턴과 억양을 거의 실시간으로 처리하면서 음성 인식의 표준이 되었습니다. 매달 500만 회 다운로드를 기록하며 수만 개의 응용 프로그램을 지원합니다. 현재 aiOla는 Whisper-Medusa가 더욱 빠른 음성 인식과 전사를 실현한다고 주장합니다. Whisper의 아키텍처를 다중 헤드 주의 메커니즘으로 개선하여 모델이 한 번에 하나가 아닌 열 개의 토큰을 예측할 수 있어 예측 속도와 실행 효율성이 50% 향상되었습니다.
aiOla Whisper-Medusa vs. OpenAI Whisper
속도가 증가했음에도 불구하고 Whisper-Medusa는 원래 Whisper 모델과 동일한 정확성을 유지합니다. Hetz는 "우리는 자동 음성 인식(ASR) 모델에 이 접근 방식을 적용하고 공개 연구를 위해 이를 출시한 업계 최초입니다"라고 밝혔습니다. “LLM의 속도를 개선하는 것은 ASR 시스템을 최적화하는 것보다 쉽습니다. 연속 오디오 신호와 소음의 복잡성이 고유한 도전 과제가 되기 때문입니다. 우리는 다중 헤드 주의 방식을 통해 정확성을 희생하지 않고도 예측 속도를 거의 두 배로 늘릴 수 있었습니다”라고 설명했습니다.
Whisper-Medusa의 훈련 방법
aiOla는 Whisper-Medusa를 훈련하기 위해 약한 감독의 기계 학습 기법을 사용했습니다. Whisper의 주요 구성 요소를 고정하여 모델 자체가 생성한 오디오 전사를 레이블로 활용하며 추가 토큰 예측 모듈을 훈련했습니다. Hetz는 그들이 10헤드 모델로 시작했으며, 동시에 20개 토큰을 예측할 수 있는 20헤드 모델로 확장할 계획이라고 밝혔습니다. 이를 통해 정확성을 유지하면서도 더욱 빠른 인식과 전사가 가능해집니다. “이 방법은 전체 음성을 한 번에 효율적으로 처리할 수 있어 여러 번의 패스를 줄이고 속도를 향상시킬 수 있게 합니다”라고 말했습니다.
Hetz는 특정 기업의 초기 접근에 대해 신중을 기했지만, 실제 엔터프라이즈 데이터 사용 사례를 테스트하여 실제 응용에서의 성능을 검증했다고 확인했습니다. 인식 및 전사 속도의 향상은 음성 애플리케이션에서 더 빠른 반응을 촉진할 것으로 예상됩니다. Alexa와 같은 AI 비서가 몇 초 안에 답변을 제공하는 모습을 상상해 보세요.
“산업계는 실시간 음성-텍스트 시스템으로부터 큰 혜택을 얻을 것이며, 생산성이 향상되고 비용이 절감되며 콘텐츠 제공 속도가 빨라질 것입니다”라고 Hetz는 결론지었습니다.