어제 OpenAI는 Google의 I/O 개발자 컨퍼런스에 앞서 최신 AI 언어 모델인 GPT-4o(즉, GPT-4 Omni)를 발표하며 큰 화제를 모았습니다. 이 강력한 모델은 ChatGPT의 엔진으로서 최종 사용자에게 무료로 제공되며, 소프트웨어 개발자에게는 OpenAI의 API를 통해 유료 서비스로 제공되어, 고객이나 팀을 위한 맞춤형 애플리케이션을 제작할 수 있는 기회를 제공합니다.
GPT-4o는 다중 모드 모델로 설계되어 있으며, 이전 모델보다 훨씬 빠르고 비용 효율적이며 강력합니다. 이는 AI 기능을 애플리케이션에 통합하고자 하는 소프트웨어 개발자에게 매우 중요한 발전입니다. OpenAI의 제품 API 책임자인 올리비에 고드망과 제품 관리자 오웬 캠벨-무어는 독점 미디어 컨퍼런스 전화에서 모델의 중요성을 상세히 설명했습니다.
고드망은 “컴퓨터가 인간의 상호작용에 맞춰야 하며, 우리가 기술적 한계에 맞출 필요는 없다”고 언급했습니다. GPT-4o를 통해 개발자는 고객 서비스 챗봇부터 정책, 비용, 지원 티켓에 대한 직원 용 도구까지 다양한 애플리케이션을 향상시킬 수 있습니다. GPT-4o의 다재다능함은 개발자가 이 첨단 기술을 기반으로 전체 비즈니스를 구축할 수 있게 합니다.
GPT-4o의 혁신
이전 모델은 음성 상호작용을 처리하기 위해 복잡한 설정이 필요했지만, GPT-4o는 이 과정을 간소화했습니다. 다양한 매체를 직접 토큰으로 처리하는 이 혁신적인 단계는 진정한 다중 모드 AI의 진전을 나타냅니다. GPT-4o는 오디오 입력에 232밀리초 만에 응답하며, 이는 인간의 대화 속도와 일치합니다. 반면, GPT-4는 몇 초가 걸리는 반응 속도를 보였습니다.
또한, GPT-4o는 복잡한 자극으로부터 더 미세한 정보를 포착하여 사용자 입력에 대한 이해도를 높입니다. 이전 모델이 감정이나 맥락을 이해하는 데 어려움을 겪었던 반면, GPT-4o는 톤과 화자 다이내믹을 능숙하게 해석하고, 상호작용을 통해 감정을 표현할 수 있습니다. 고드망은 “단일 모델을 사용함으로써 신호 손실이 없다”고 설명했습니다.
비용 효율성 및 확장성
OpenAI는 운영 비용 절감을 개발자에게 전달하여, GPT-4o의 가격을 GPT-4의 절반인 입력 토큰 1백만 개당 5달러, 출력 토큰은 15달러로 설정했습니다. 이미지 분석 비용 또한 저렴해져 개발자들이 접근할 수 있게 되었습니다. 게다가 메시지 제한이 분당 200만 토큰에서 1000만 토큰으로 증가하여 애플리케이션 성능이 크게 향상되었습니다.
“이러한 효율성은 개발자에게 매우 중요하다”며 캠벨-무어는 LLM(대형 언어 모델)에서의 속도와 비용 문제를 언급했습니다. “GPT-4o는 더 많은 개발자가 OpenAI를 애플리케이션에 통합하도록 유도할 것입니다.”
잠재적 응용 기회
GPT-4o는 타사 애플리케이션에서 기존 AI 프레임워크를 원활하게 대체할 수 있으며, 개인 비서 및 오디오 중심의 애플리케이션에서 특히 두드러집니다. 고드망은 이 모델이 혁신적인 오디오 중심 애플리케이션의 창출을 촉진하여 인간-컴퓨터 상호작용을 근본적으로 변화시킬 것이라고 믿고 있습니다.
데이터 보안 기준
ChatGPT 개별 사용자에게는 “설정” 메뉴에서 데이터 보존 선택이 제공됩니다. 반면 OpenAI는 API 사용자 데이터를 30일 이상 저장하지 않아 타사 개발자의 개인정보 보호와 보안을 보장합니다. 음성, 시각, 텍스트 입력은 신뢰 및 안전 감사를 위해 잠시 보존되다가 즉시 삭제됩니다.
경쟁사 대비 한계
GPT-4o는 인상적인 기능을 자랑하지만, 128,000 토큰의 컨텍스트 윈도우를 가지고 있어 Google Gemini 및 메타의 Llama 3과 같은 경쟁사보다 작습니다. 그럼에도 불구하고 이는 약 300 페이지에 해당하여 풍부한 상호작용을 위한 상당한 용량을 제공합니다.
현재 GPT-4o는 OpenAI의 API를 통해 개발자들이 접근할 수 있으며, 텍스트 및 비전 기능에 제한되어 있습니다. 오디오 및 비디오 기능은 곧 도입될 예정이며, 관련 발표는 OpenAI의 채널을 통해 진행될 것입니다.