OpenAI, ChatGPT Plus 사용자들을 위해 GPT-4o 음성 모드를 출시하여 자연스러운 실시간 대화를 더욱 향상시켰습니다.

최근 OpenAI는 중요한 업데이트를 발표했습니다: 선택된 ChatGPT Plus 가입자에게 GPT-4o 음성 모드의 초기 접근(알파) 버전이 제공되며, 오는 가을에 더 넓은 배포 계획이 있습니다. 이 개발은 자연어 처리와 음성 상호작용 기술의 통합에서 중요한 진전을 의미합니다.

GPT-4o는 OpenAI의 최신 통합 모델로, 텍스트, 시각 및 오디오 입력을 동일한 신경망으로 처리하여 원활한 연결을 가능하게 합니다. 이 기능은 모델의 전반적인 처리 성능을 향상시키며 사용자에게 더 자연스럽고 즉각적인 대화 경험을 제공합니다.

오픈AI의 최고 기술 책임자 미라 무라티는 GPT-4o가 텍스트, 시각 및 오디오 모드를 통합하려는 회사의 첫 번째 종합적인 시도를 나타낸다고 설명했습니다. 모델은 아직 기능 탐색과 한계 평가의 초기 단계에 있지만, 팀은 잠재력에 대해 긍정적인 전망을 가지고 있으며 최적화를 위해 적극적으로 노력하고 있습니다.

원래 6月底에 테스트될 예정이었던 GPT-4o 음성 모드 시험은 모델 개선을 위해 연기되었습니다. OpenAI는 부적절한 콘텐츠를 감지하고 거부하는 능력을 향상시키고 있어 안전하고 긍정적인 사용자 경험을 보장하고 있습니다. 이러한 노력 덕분에 GPT-4o 음성 모드는 예정보다 앞서 출시되어 더 많은 사용자에게 제공됩니다.

GPT-3.5 및 GPT-4와 비교할 때, GPT-4o는 음성 통신에서 뛰어난 성능을 보입니다. 데이터에 따르면, GPT-3.5의 평균 음성 응답 지연 시간은 2.8초였고, GPT-4는 이를 5.4초로 늘려 대화의 유동성에 영향을 미쳤습니다. 그러나 기술 최적화를 통해 GPT-4o는 이 지연 시간을 극적으로 줄여 거의 원활한 대화 경험을 제공하고 있습니다. 또한 빠른 응답과 함께 슬픔이나 흥분 같은 감정을 인식하고 모방하는 고도로 현실감 있는 톤을 특징으로 하여 대화의 생동감을 더합니다.

OpenAI는 GPT-4o 음성 모드를 홍보하면서 사용자 프라이버시와 보안에 대한 약속을 강조하고 있습니다. 회사 대변인 린제이 맥컬럼은 ChatGPT가 어떤 개인이나 공인 목소리를 모방하지 않으며, 사전 설정된 목소리와 일치하지 않는 출력은 사용자 권리와 프라이버시 보호를 위해 엄격히 제한된다고 밝혔습니다.

GPT-4o 음성 모드를 도입함으로써 OpenAI는 인공지능 기술의 혁신을 지속적으로 이끌어 나가며, 보다 스마트하고 편리하며 안전한 음성 상호작용 경험을 제공하고자 합니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles