음성 인식은 다중 모달 AI 시스템의 필수 요소입니다. 많은 기업들이 이 기술 도입에 열정을 보이고 있지만, 산업별 전문 용어의 정확한 해석에는 여전히 도전 과제가 존재합니다. 이스라엘의 혁신적인 스타트업 aiOla는 이러한 문제를 해결하기 위해 중요한 진전을 이루어냈습니다. aiOla는 음성 인식 모델이 특정 산업에 맞춘 전문 용어를 보다 잘 이해할 수 있도록 돕는 새로운 접근 방식을 도입했습니다.
이러한 발전은 음성 인식 시스템의 정확성과 반응성을 향상시켜, 복잡한 기업 환경에서도 효과적으로 작동하게 만듭니다. aiOla는 초기 사례 연구에서 OpenAI의 Whisper 모델을 조정하여 단어 오류율을 줄이고 전반적인 탐지 정확성을 높이는 데 성공하였습니다.
음성 인식에서의 전문 용어 도전
최근 몇 년간 딥 러닝의 발전은 고성능 자동 음성 인식(ASR) 및 전사 시스템의 출현에 기여했습니다. OpenAI의 Whisper는 영어 음성 인식에서 인간 수준의 견고함과 정확성으로 주목받고 있습니다. 그러나 2022년 출시 이후 많은 사람들은 Whisper가 실제 환경, 특히 소음이 많은 환경에서의 성능이 저하된다는 점을 지적하고 있습니다. 예를 들어, 중장비 소음 속에서 안전 알림을 해독하거나 의학 및 법률과 같은 분야의 전문 용어가 포함된 명령을 이해하는 데 어려움이 발생할 수 있습니다.
최첨단 ASR 모델인 Whisper를 사용하는 조직들은 종종 고유한 산업 요구에 맞춰 시스템을 조정하고자 합니다. 이 조정은 성능을 향상시킬 수 있지만, 시간과 비용 측면에서 높은 비용이 발생하는 경우가 대부분입니다. aiOla의 연구 부사장인 길 해츠는 “ASR 모델 조정에는 며칠과 수천 달러가 소요되며, 데이터가 이미 확보된 경우에 해당합니다. 데이터가 없다면 오디오 데이터를 수집하고 라벨링하는 데 수개월과 수만 달러가 들어갈 수 있습니다.”라고 말합니다.
이러한 문제를 해결하기 위해 aiOla는 두 단계의 "상황적 편향" 접근법을 개발했습니다. 첫 번째 단계에서 AdaKWS 키워드 탐지 모델이 음성 샘플에서 산업별 전문 용어를 식별합니다. 그 다음, 식별된 키워드가 ASR 디코더에 제공되어 최종 전사 텍스트에 해당 용어를 포함시켜 모델의 전문 용어 인식 능력을 향상시킵니다.
aiOla는 초기 테스트에서 Whisper를 활용해 KG-Whisper(키워드 기반 Whisper)와 KG-Whisper-PT(프롬프트 튜닝) 두 가지 기술을 실험했습니다. 두 가지 변형 모두 다양한 데이터 세트에서 원래 Whisper 모델보다 성능 향상을 보였으며, 특히 도전적인 음향 환경에서 그러했습니다.
해츠는 “우리의 새로운 모델(KG-Whisper-PT)은 단어 오류률(WER)을 크게 줄이고 정확도(F1 점수)를 향상시킵니다. 의료 데이터 세트에 대한 테스트에서 F1 점수 96.58을 기록했으며, Whisper의 80.50과 비교됩니다. WER는 6.15로 Whisper의 7.33에 비해 개선되었습니다.”고 설명합니다.
이 방법은 다양한 ASR 모델과 호환 가능하다는 것이 중요합니다. aiOla는 Whisper를 활용했지만, 동일한 접근법이 Meta의 MMS 및 기타 독점 음성-텍스트 모델에도 적용될 수 있어, 기업들이 재학습 없이 맞춤형 인식 시스템을 구축할 수 있도록 합니다. 산업별 전문 용어 목록을 키워드 탐지 모델에 단순히 제공하는 것만으로 충분합니다.
해츠는 “이 모델은 전문 용어를 정확히 식별하는 완전한 ASR 기능을 제공합니다. 우리는 전문 용어 어휘만 변경함으로써 다양한 산업에 빠르게 적응할 수 있습니다. 본질적으로, 이는 특정 예제를 보지 않고도 예측할 수 있는 제로샷 모델입니다.”라고 설명합니다.
포춘 500대 기업을 위한 시간 절약 효과
aiOla의 적응력으로 인해 이 접근 방식은 항공, 운송, 제조, 물류 등 기술 용어가 많은 다양한 산업에 혜택을 줄 수 있습니다. 이 회사는 포춘 500대 기업 고객과 함께 적응형 모델을 배포하기 시작했으며, 전문 용어가 많은 프로세스를 관리하는 데 있어 효율성을 크게 향상시켰습니다.
예를 들어, 포춘 50대 글로벌 배송 및 물류 기업은 aiOla의 모델을 활용하여 매일의 트럭 점검을 자동화하여 각 점검 시간을 약 15분에서 60초 미만으로 줄였습니다. 캐나다의 주요 식료품 체인 중 하나 또한 이 모델을 활용해 제품과 고기 온도를 모니터링하여 연간 110,000시간의 시간 절약, 예상 절감액 250만 달러 이상, 5배의 ROI를 달성했습니다.
aiOla는 다른 연구팀들이 AI의 발전을 이끌어 내기를 바라며 연구 결과를 공유했습니다. 그러나 현재 이 회사는 조정된 모델에 대한 API 접근을 제공하지 않으며 모델의 가중치를 공개하지 않고 있습니다. 다음 기술은 aiOla의 구독 기반 제품군을 통해서만 이용 가능합니다.