GPT-4o의 고급 음성 모드의 이점 알아보기: 감정을 담은 음성 AI 및 API 솔루션을 갖춘 Hume의 EVI 2 소개

휴미(Hume)는 앨런 코웬(Alan Cowen)이 공동 창립한 혁신적인 AI 스타트업으로, 지난 2024년 봄에 5천만 달러의 시리즈 B 펀딩을 확보한 바 있습니다. 18세기 스코틀랜드 철학자 데이비드 흄(David Hume)의 이름을 딴 이 회사는 다양한 문화의 음성 녹음과 자가 보고된 감정 조사를 결합하여 생동감 넘치는 음성 표현을 생성하고 여러 언어와 방언의 뉘앙스를 이해하는 AI 모델을 개발하고 있습니다.

최근 휴미는 자연스러움과 감정적 반응, 사용자 맞춤화를 향상시키고 개발자 및 기업의 비용을 절감하기 위한 개선 사항을 포함하는 Empathic Voice Interface 2 (EVI 2)를 출시했습니다. EVI 2는 지연 시간을 40% 줄이고 이전 모델보다 30% 저렴한 가격으로 API를 통해 제공됩니다.

코웬은 개발자들이 이 기술을 애플리케이션에 통합할 수 있도록 하여 신뢰할 수 있고 개인화된 사용자 경험을 제공하는 것이 목표라고 강조했습니다. EVI 2를 지원하는 음성 비서는 앱 내에서 직접 작동할 수 있어, 별도의 AI 비서 없이도 사용자 상호작용을 향상시킵니다.

EVI 2의 출시는 경쟁이 치열한 AI 시장에서 휴미의 우위를 강화하며, Anthropic 및 OpenAI와 같은 경쟁사들보다 앞서 나가는 능력을 보여줍니다. OpenAI의 ChatGPT 고급 음성 모드는 여전히 제한된 배포 중이지만, 코웬은 EVI 2가 감정 감지 및 반응에서 탁월하다고 주장합니다.

EVI 2는 더 빠르고 유창한 대화를 위해 설계되었으며, 반응 시간은 500~800 밀리초로 자연스러운 대화 흐름을 제공합니다. 주요 개선 사항은 다음과 같습니다:

- 빠른 반응 시간: EVI 2는 지연 시간을 40% 줄여 자연스러운 대화 흐름을 지원합니다.

- 감정 지능: 음성과 언어 통합을 통해 EVI 2는 감정적 맥락을 이해하고 적절하고 공감 있는 상호작용을 보장합니다.

- 사용자 맞춤형 음성: 새로운 음성 변조 방법을 통해 개발자는 음정과 성별과 같은 매개변수를 조정하여 다채로운 음성을 제공합니다.

- 대화 중 프롬프트: 사용자는 AI의 말하는 스타일을 동적으로 수정할 수 있어 상호작용을 더욱 풍부하게 만듭니다.

- 다국어 지원: EVI 2는 현재 영어를 지원하며, 2024년 말까지 스페인어, 프랑스어, 독일어를 추가할 계획입니다. 흥미롭게도 이 모델은 데이터 노출을 통해 여러 언어를 자율적으로 학습했습니다.

휴미 AI는 EVI 2의 가격을 분당 0.072달러로 조정했으며, 이는 기존 모델보다 30% 인하된 가격입니다. 기업 사용자는 대량 할인 혜택을 받아 고수요 비즈니스에서도 확장성을 더할 수 있습니다.

EVI 2는 현재 베타로 제공되며, 휴미의 API를 통해 통합할 수 있습니다. 개발자는 2024년 12월까지 EVI 1과 동일한 구성 옵션을 사용할 수 있습니다.

전반적으로 EVI 2는 AI를 통한 사용자 경험 개선에 대한 휴미 AI의 헌신을 보여주며, 감정적 정렬과 반응성을 중점적으로 다루고 있습니다. 향후 업데이트에는 언어 지원 확대와 다른 대형 언어 모델 및 도구와의 원활한 통합이 포함될 예정입니다. EVI 2 외에도 휴미 AI는 감정적으로 반응하는 AI 애플리케이션 개발을 위한 Expression Measurement API 및 Custom Models API를 계속 제공하여 개발자들의 역량을 강화하고 있습니다.

Most people like

Find AI tools in YBX