구글이 최신 혁신 모델인 제미니(Gemini)를 공개했습니다. 이 모델은 기업과 개발자들에게 강력한 대형 언어 기능을 제공하는 API를 통해 첫 번째 모습을 보여줍니다. 제미니는 울트라(Ultra), 프로(Pro), 나노(Nano) 세 가지 크기 옵션으로 제공됩니다. 오늘부터 개발자들은 구글의 무료 웹 기반 개발 도구인 AI 스튜디오(AI Studio, 이전의 메이커스위트)를 통해 제미니 프로 API에 접근할 수 있으며, 기업은 구글 클라우드의 버텍스 AI 플랫폼을 통해 통합하여 신속하게 애플리케이션을 제작할 수 있습니다.
구글은 향후 몇 주 내에 사용자 피드백을 바탕으로 제미니 프로를 더욱 개선할 계획이라고 발표했습니다. “우리는 개발자와 기업이 제미니를 통해 창출할 혁신적인 애플리케이션을 기대하고 있습니다,”라고 회사는 최근 블로그 게시물에서 전했습니다. 현재 제미니 프로는 구글의 대화형 AI인 바드(Bard)를 구동하고 있으며, 이는 ChatGPT와 경쟁하기 위해 설계되었습니다. 초기 버전의 주요 기능 중 하나는 32,000 토큰의 문맥 창으로, 약 5,333 단어를 처리할 수 있습니다. 반면에 OpenAI의 GPT-4 터보는 최대 128,000 토큰을 처리할 수 있습니다. 그러나 미래 버전의 제미니 프로는 이 용량을 크게 확장할 것으로 예상됩니다.
제미니 프로의 기능으로는 38개 언어 지원, 함수 호출, 임베딩, 의미 기반 검색 및 사용자 맞춤형 지식 기반이 포함됩니다. 현재 API는 텍스트 입력과 출력을 전적으로 운용하고 있습니다. 그래도 다중모드 엔드포인트인 제미니 프로 비전(Gemini Pro Vision)이 출범되어 이미지와 비디오와 같은 시각적 입력을 수용하고 이에 기반해 텍스트 출력을 생성할 수 있게 되었습니다.
현재 제미니 프로 API는 무료로 사용할 수 있지만, 분당 최대 60개의 쿼리로 제한됩니다. 곧 사용량 기반 결제 서비스가 도입될 예정이며, 구글은 "경쟁력 있는 가격" 구조를 약속했습니다. 제미니 프로의 가격은 천 자당 $0.00025, 이미지당 $0.0025로 설정되어 있으며, 출력은 천 자당 $0.0005로 청구됩니다. 무료 버전의 입력과 출력 데이터는 구글이 제품 개선에 활용하고, 유료 버전의 데이터는 비공개로 유지됩니다.
제미니 프로 외에도 구글은 버텍스 플랫폼을 확장하여 구글 딥마인드의 최신 AI 이미지 생성 모델인 이미전 2(Imagen 2)를 포함한 새로운 모델들을 출시하고 있습니다. 이 고급 텍스트-이미지 확산 모델은 고품질 이미지를 생성할 수 있으며, 기업을 위한 사실적인 로고도 제작할 수 있습니다. 또한 여러 언어로 텍스트를 렌더링할 수 있습니다.
또 하나의 중요한 추가 모델은 헬스케어 분야에 특별히 조정된 기초 모델 세트인 메드LM(MedLM)입니다. 메드-PaLM 2 모델을 기반으로 하여, 메드LM은 의료 기록 작성 및 헬스케어 관련 질문 응답과 같은 애플리케이션용으로 설계되었습니다. 현재 이 모델은 미국 내 버텍스 사용자에게만 제공되며, 향후 몇 주 내에 더 넓은 범위로 배포될 계획입니다. 구글은 또한 곧 메드LM 세트에 제미니 기반 모델을 통합할 예정이다.
마지막으로, 개발자를 위한 두엣 AI(Duet AI for Developers) 도구가 이제 일반에 공개되었습니다. 이 협업 도구는 개발자가 애플리케이션 구축 프로세스를 간소화할 수 있도록 도와주며, 코드 생성 및 채팅 지원을 위한 다양한 구글 클라우드 인터페이스에 통합할 수 있습니다. 향후 몇 주 동안 제미니가 두엣 AI에 통합되어 보안 운영으로도 확대될 예정입니다. 이를 통해 통합된 SecOps 플랫폼 내에서 방어자 간의 협력도 강화될 것입니다.
이러한 혁신적인 도구를 통해 구글은 산업 전반에 걸쳐 생산성, 창의성 및 보안을 향상시킬 AI 기반 애플리케이션의 새로운 시대를 열고 있습니다.