구글의 Imagen 3: Vertex AI에서 제공하는 향상된 텍스트-이미지 생성 모델 출시

구글의 고급 텍스트-이미지 생성 모델인 Imagen 3이 이제 Vertex AI 플랫폼에서 출시될 예정입니다. 이 차세대 AI 도구는 선택된 고객들에게 미리 사용해 볼 수 있는 기회를 제공하며, 개발자들에게는 빠른 이미지 생성, 향상된 프롬프트 이해력, 보다 사실적인 인물 묘사, 그리고 개선된 텍스트 렌더링 기능을 제공합니다.

Imagen 3은 5월 구글 I/O에서 처음 소개되었으며, 특정 창작자를 위한 ImageFX에서 비공식 미리보기가 시작되었습니다. 구글의 발표에 따르면, 이 강력한 AI 모델이 곧 Vertex AI를 통해 접근 가능해질 것이라고 합니다.

구글 딥마인드의 선임 연구 책임자인 더글라스 에크는 “지금까지 가장 뛰어난 이미지 생성 모델”이라며 그 역량을 강조했습니다. “Imagen 3은 더욱 사실적이고, 세부 사항이 풍부하며 시각적 결함을 최소화합니다. 자연스럽고 창의적인 방식으로 작성된 프롬프트를 이해하며, 상세한 지침이 최상의 결과를 제공합니다. 또한, 긴 프롬프트에서 섬세한 디테일을 통합하는 데 뛰어나고, 이전 이미지 생성 모델에서의 지속적인 도전과제였던 텍스트 렌더링을 개선했습니다.”

Vertex AI로의 전환과 함께 Imagen 3은 다국어 지원, 구글 딥마인드의 SynthID 디지털 워터마킹과 같은 강력한 안전 기능, 다양한 종횡비 지원을 도입합니다.

주식 사진 분야의 선두주자인 Shutterstock은 이미 이 모델을 통합했습니다. Shutterstock의 데이터 서비스 부사장인 저스틴 히자는 “Imagen을 AI 이미지 생성기에 통합한 이후, 우리 사용자들은 수백만 개의 이미지를 생성했습니다. Imagen 3의 개선 사항에 대해 매우 기대하고 있으며, 사용자가 품질을 타협하지 않고 아이디어를 더 빠르게 실현할 수 있도록 지원합니다. 이는 Shutterstock의 윤리적 AI 이미지 생성기 효율성을 더욱 강화하며, 구글 클라우드의 보상을 통해 안전과 보호를 보장합니다.”라고 전했습니다.

구글은 Imagen을 지속적으로 발전시키고 있으며, 이전의 정확성 문제로 인해 Gemini AI의 이미지 생성 재개 일정에 대해 공개하지 않았습니다. 최근 기자회견에서 구글 클라우드 CEO인 토마스 쿠리안은 “Gemini는 이미지, 비디오 및 오디오를 포함한 다양한 유형의 입력을 처리하도록 설계된 다중 모드 모델로, 이러한 모드 간의 추론을 가능하게 합니다. 반면 Imagen은 고품질 텍스트-이미지 출력을 생성하는 데 중점을 둔 확산 모델입니다. 두 모델은 각각의 고유한 목적을 가지고 있습니다.”라고 설명했습니다.

Gemini의 이미지 기능 재활성화 일정에 대한 질문은 여전히 미해결 상태입니다.

Most people like

Find AI tools in YBX