음성을 텍스트로 변환하는 능력은 종종 과소평가되지만, 2020년 설립된 이스라엘 기술 스타트업 aiOla의 새로운 AdaKWS 모델은 빠르고 정확한 성능으로 주목받고 있습니다. AdaKWS는 OpenAI의 Whisper AI 음성 인식 모델을 개선하여 16개 언어에서 키워드 탐지 정확도를 6.2% 향상시키고, 영어의 경우 16% 이상 향상시킵니다. aiOla의 데이터에 따르면, 키워드 탐지 정확도가 94.6%에 달해 Whisper의 88.4%를 초과합니다. AdaKWS는 100개 언어에서 거의 실시간으로 전사 작업을 지원합니다.
이러한 통계는 처음에는 미미하게 보일 수 있지만, 80백 분위에서 90백 분위로의 큰 도약을 나타냅니다. 이 향상은 기술이 틈새 응용 분야에서 보다 넓은 사용 사례로 전환되도록 합니다. 이는 의료 및 식품 안전과 같은 규제가 엄격한 분야에서도 적용될 수 있습니다. 중요하게도, AdaKWS는 Whisper-Large V2 모델보다 약 160배 빠른 텍스트 전사를 제공합니다.
aiOla의 CEO이자 공동 창립자인 Amir Haramaty는 “키워드를 탐지하는 능력은 다양한 산업에서 일상적인 프로세스를 자동화하여, 화물 손상 보고서 작성부터 식품 공장에서의 안전 검사 완료까지 음성을 행동으로 전환합니다.”라고 말했습니다.
다양한 기업 응용 프로그램
음성 인식 AI를 고객 서비스 전화 전사와 연결 짓기 쉽지만, aiOla의 기술은 비범한 분야에서도 진전을 이루고 있습니다. Haramaty는 미디어 데모에서 의료 환경에서 시스템의 능력을 시연했습니다. 헬스테크 발표자가 환자 모니터링 장비의 메트릭을 읽어내자, AdaKWS 모델은 복잡한 텍스트 양식을 몇 초 만에 자동으로 작성했습니다.
또한, aiOla는 슈퍼마켓 냉장고 온도 모니터링 응용 프로그램을 강조했습니다. 인력 모니터가 구두로 측정값을 보고함으로써 시스템은 수동 데이터 입력에 소비되는 연간 11만 시간 이상의 시간을 절약할 수 있습니다. AdaKWS의 잠재력은 업계 리더들의 주목을 받고 있으며, Haramaty는 오라클 CEO인 래리 엘리슨으로부터 의료 기록에 적용하겠다는 관심을 받은 바 있습니다.
AdaKWS 음성-텍스트 전환 방식
AdaKWS는 비즈니스 워크플로우에 원활하게 통합되고 음성 명령을 통한 자동화를 가능하게 하는 최첨단 키워드 탐지 방법을 사용합니다. 이 시스템은 aiOla의 Whisper 같은 기존 음성 인식 모델을 보강하는 머신러닝 알고리즘으로 작동하며, 모델의 인코더(음성 해석 담당)와 디코더(오디오를 텍스트로 변환) 사이에 위치합니다.
aiOla의 수석 과학자인 Joseph Keshet는 “우리는 최적화에 집중하고 있습니다.”라고 설명했습니다. 기존 모델이 새로운 키워드에 대해 대규모 재교육이 필요한 것과 달리, AdaKWS는 100개 이상의 언어와 방언을 신속하게 수용합니다. 이러한 적응성 덕분에 기업 환경에 이상적입니다.
“산업별 용어는 흔히 사용되며, 의사소통에서 지배적일 수 있습니다.”라고 Haramaty는 언급했습니다. Keshet는 “우리 시스템은 이러한 키워드의 정확성을 보장하도록 훈련되었습니다."라고 덧붙였습니다.
AdaKWS는 다국적 상호작용이 발생하는 조직에 특히 유용하며, 업종에 특정한 전문 용어에도 신속하게 맞춤화될 수 있습니다. 사용자는 모델이 독립적으로 학습할 수 있도록 키워드 목록을 제출할 수 있으며, 사전 노출 없이도 용어를 탐지할 수 있습니다. 이 모델은 몇 시간 내에 새로운 언어, 프로세스 및 키워드를 신속하게 학습할 수 있습니다.
16개 언어에 대한 벤치마크 테스트 결과, AdaKWS는 Whisper의 정확도를 초과하며, 복잡한 용어를 효율적으로 처리하고 더 적은 계산 자원으로 운영됨을 입증했습니다. 관련 연구는 2023년 9월 과학 논문으로 발표되었습니다.
비즈니스 운영 향상
기업들이 복잡한 데이터 및 커뮤니케이션 작업을 효율적이고 신뢰할 수 있는 솔루션으로 관리하고자 할 때, aiOla의 AdaKWS는 운영을 간소화하고 비용을 절감하는 중요한 기회를 제공합니다. 이 기술은 웹 및 모바일 애플리케이션을 통해 제공되며, 사용자 및 활용 사례에 따른 소프트웨어 서비스(SaaS) 구독 모델로 운영됩니다.
aiOla의 음성 AI의 발전은 새로운 산업 기준을 세우고 일상 비즈니스 프로세스에 AI 통합을 향한 혁신의 길을 열어줍니다. Haramaty는 “나는 혼란을 즐기지만, 대부분의 사람들은 혼란을 피하고 싶어한다는 것을 깨달았습니다.”라며, AdaKWS가 기존 비즈니스 운영을 대체하는 것이 아닌 보완하고 개선하는 것을 목표로 하고 있음을 강조했습니다.