ChatGPT 출시 1주년을 맞이하여 이 강력한 언어 모델은 상당한 발전을 이루었습니다. OpenAI는 DALL-E 3를 통한 이미지 생성 기능과 Bing을 통한 실시간 정보 접근과 같은 새로운 기능을 통합했습니다. 특히 음성과 이미지 기능의 도입은 사용자 상호작용을 혁신적으로 변화시키며 큰 업그레이드를 의미합니다.
이 혁신의 핵심은 GPT-4V, 즉 GPT-4 비전입니다. 이 첨단 멀티모달 모델은 사용자가 텍스트와 이미지를 원활하게 활용할 수 있도록 합니다. Microsoft의 연구자들이 수행한 테스트에서 GPT-4V는 이전에 테스트되지 않았던 뛰어난 능력을 보여주었습니다. "The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)"이라는 연구에서 발표된 결과는 이 모델이 메뉴 이미지와 그 텍스트처럼 복잡하게 얽힌 입력을 처리할 수 있는 잠재력을 강조합니다.
GPT-4V란?
GPT-4V(ision)는 OpenAI가 개발한 혁신적인 멀티모달 AI 모델로, 사용자가 업로드한 이미지에 대해 질문할 수 있는 기능인 시각적 질문 응답(VQA)을 제공합니다. 10월부터, 월 $20의 ChatGPT Plus 구독자 및 Enterprise 버전 사용자는 GPT-4V의 기능을 데스크톱과 iOS 플랫폼에서 이용할 수 있게 됩니다.
GPT-4V의 주요 기능
- 시각적 추론: 복잡한 시각적 관계와 맥락을 이해하고, 이미지를 기반으로 질문에 답할 수 있습니다.
- 명령 수행: 사용자로부터의 텍스트 명령을 이해하여 새로운 시각-언어 작업을 쉽게 수행합니다.
- 맥락 학습: 최소한의 예제로 새로운 작업에 적응하는 강력한 소수 샷 학습을 나타냅니다.
- 시각적 참조: 화살표와 상자와 같은 시각적 신호를 인식하여 정확한 명령 수행을 가능하게 합니다.
- 세밀한 설명 작성: 복잡한 내용 관계를 전달하는 다중 문장 설명을 생성할 수 있습니다.
- 객체 셈: 사용자 요청에 따라 이미지 내 객체를 정확히 세는 능력을 보입니다.
- 코드 생성: 시각적 입력을 기반으로 JSON 파싱과 같은 코드를 생성할 수 있는 능력을 보여주었습니다.
이전 멀티모달 모델과 비교할 때, GPT-4V는 시각-언어 이해에서 눈에 띄는 향상을 보여주며, AI 응용 분야에서의 혁신적인 가능성을 강조합니다.
GPT-4V의 한계
인상적인 능력에도 불구하고, GPT-4V는 한계가 있습니다. 복잡한 작업에 활용하고자 하는 사용자는 특정 설계된 프롬프트에 직면 시 어려움을 겪을 수 있습니다. 새로운 샘플이나 보지 않은 데이터를 적용할 때 성능이 제한되며, 일부 복잡한 시나리오는 맞춤형 프롬프트가 필요합니다.
대형 멀티모달 모델(LMMs)의 출현
멀티모달 AI의 발전은 기술의 중대한 진화를 나타냅니다. 텍스트 생성 모델이 이미지 처리 능력으로 향상되면서 사용자 쿼리와 상호작용이 간소화되고 있습니다. 이 진화는 OpenAI가 인공지능 일반 지능(AGI)을 달성하는 데 한 걸음 더 다가가게 하며, 안전한 사회를 위한 AGI 개발에 헌신하고 있습니다.
OpenAI는 이러한 노력에 혼자가 아닙니다. Meta와 같은 다른 기술 대기업들도 멀티모달 AI 연구에 투자하고 있으며, Turing Award 수상자인 Yann LeCun의 지도 아래 SeamlessM4T, AudioCraft, Voicebox 등 다양한 모델을 개발하여 포괄적인 메타버스를 만드는 데 힘쓰고 있습니다. 또한, OpenAI, Microsoft, Google, Anthropic과 같은 주요 AI 개발자가 참여하는 새로운 Frontier Model Forum이 차세대 멀티모달 모델의 발전에 전념하고 있습니다.
이와 같은 발전은 인공지능의 풍경을 빠르게 변화시키고 있으며, 창의적인 응용 프로그램과 enhanced 사용자 경험에 대한 엄청난 가능성을 보여주고 있습니다.