우리는 AI 생성 이미지의 진화를 한동안 경험해왔지만, 최근 이 분야의 주요 기업들이 상당한 발전을 이루었습니다. 이번 주에는 Midjourney, 구글의 최신 모델, 그리고 Grok에서 주목할 만한 업데이트가 발표되었습니다.
이들 각각의 기업은 AI 기술의 경계를 서로 다른 속도와 방향으로 확장하고 있습니다. 경쟁이 치열한 이 환경 속에서 그들이 이룬 발전을 보는 것은 흥미롭습니다.
Midjourney, 웹 편집기 도입
Midjourney는 최근 여러 이미지 편집 도구를 하나의 사용 친화적인 인터페이스로 통합한 새로운 웹 편집기를 출시했습니다. 이전에는 이미지 리프레이밍, 재페인팅, 팬닝, 캔버스 확장, 확대/축소 같은 기능을 위해 여러 메뉴를 이용해야 했습니다. 이 새로운 간소화된 UI는 편집 경험을 크게 향상시켜 Discord에서 웹 기반 애플리케이션으로의 전환을 상징합니다.
Midjourney CEO인 David Holz는 AI 생성 이미지 편집을 “훨씬 더 매끄럽게” 만들고자 한다고 밝혔습니다. 플랫폼은 Discord에서 웹 기반 애플리케이션으로 이동하면서 “daily-theme”, “prompt-craft”, “general-1”와 같은 인기 채널의 활동을 동기화할 예정입니다. 또한, 기존의 선택 도구를 대체하는 새로운 디지털 브러시 선택 도구가 도입되어, 플랫폼에서 열 개 이상의 이미지를 생성한 사용자에게 편리함을 제공합니다. 창작자 커뮤니티의 초기 피드백은 overwhelmingly positive 합니다. 이는 이미지 품질, 일관성(손 세부사항 개선 포함), 처리 속도를 크게 향상시킨 Midjourney 6.1 업데이트에 이어 나온 것입니다.
Grok-2의 논란이 된 출시
Midjourney 업데이트 이틀 후, Elon Musk의 xAI 스타트업이 Grok-2를 공개하며 또 다른 중대한 AI 이미지 생성 발전을 이뤘습니다. Black Forrest Lab의 Flux.1 모델을 기반으로 한 Grok-2는 인상적인 이미지 품질과 접근성으로 주목받고 있습니다.
그러나 Grok-2의 가이드라인은 우려를 불러일으키고 있습니다. 다른 AI 생성기와 달리 지적 재산, 폭력 및 노골적인 콘텐츠와 관련한 정책이 거의 없는 것으로 보입니다. 이러한 명확한 경계 부족은 논란을 촉발시켰고, 사용자들이 초기 AI 생성 시각 이미지와 유사한 불안하고 비정상적인 이미지를 만들어내고 있습니다. Musk는 Grok-2를 “세계에서 가장 재미있는 AI”라고 언급하며, 이런 유연성이 의도적인 선택일 수 있음을 시사하고 있습니다.
구글, Imagen 3 출시
마지막으로, 구글은 자사의 “최고 품질의 텍스트-투-이미지 모델”인 Imagen 3을 공개했습니다. 미국 사용자에게 출시된 Imagen 3은 이전 모델에 비해 향상된 세부 사항, 개선된 조명, 방해 요소가 적은 이미지를 약속합니다. 이 모델은 특히 텍스트 렌더링에 효과적이며, 빠른 스케치부터 고해상도 이미지까지 다양한 버전으로 제공됩니다. 현재 Imagen 3은 Google의 AI Test Kitchen 내 ImageFX의 일환으로 접근 가능하지만, 클로즈 베타 상태로 운영되어 참여를 원할 경우 대기 명단에 가입해야 합니다.