AI-as-a-service 제공업체 Assembly AI가 최신 음성 인식 모델 Universal-1을 출시했습니다. 1,250만 시간 이상의 다국어 오디오 데이터를 기반으로 훈련된 Universal-1은 영어, 스페인어, 프랑스어, 독일어에서 인상적인 음성-텍스트 정확도를 달성합니다. 회사에 따르면 Universal-1은 OpenAI의 Whisper Large-v3 모델에 비해 음성 데이터에서 환각을 30%, 주변 소음에서는 90% 줄여줍니다.
Assembly AI는 최근 블로그 게시물에서 Universal-1을 여러 언어에서 정확하고 신뢰할 수 있으며 견고한 음성-텍스트 기능을 제공하기 위한 중요한 단계로 설명했습니다. 이 모델은 코드 스위칭 기능이 탁월하여 단일 오디오 파일 내에서 여러 언어를 동시에 전사할 수 있습니다.
Universal-1은 오디오 및 비디오 편집, 대화 분석에 중요한 개선된 타임스탬프 추정에서 두각을 나타냅니다. 이전 모델 Conformer-2보다 13% 더 향상된 성능을 보이며, 더 나은 화자 분리를 제공하고 최소-순열 단어 오류율(cpWER)을 14%로 개선했습니다. 또한 화자 수 추정 정확도가 71%로 증가했습니다.
이 모델은 최적화된 병렬 추론 기능을 갖추고 있어 긴 오디오 파일의 처리 시간을 크게 단축합니다. Universal-1은 Nvidia Tesla T4 기기에서 1시간 분량의 오디오를 단 21초 만에 전사하며, Whisper Large-v3보다 5배 빠른 속도를 자랑합니다. Whisper Large-v3는 같은 작업을 수행하는 데 107초가 소요됩니다.
향상된 음성-텍스트 AI 모델은 더 정확하고 신뢰할 수 있는 노트를 생성하고, 작업 항목을 식별하며, 고유 명사, 화자 식별, 타이밍과 같은 메타데이터를 정리하는 등 많은 이점을 제공합니다. 이러한 개선은 AI 기반 비디오 편집에서 정밀한 임상 노트 입력 및 청구 제출이 필요한 원격 의료 플랫폼에 이르기까지 다양한 응용 프로그램에 도움이 될 것입니다.
Universal-1 모델은 Assembly AI의 API를 통해 지금 이용할 수 있습니다.