Stability AI는 차세대 텍스트-이미지 생성 AI 모델인 Stable Diffusion 3.0의 초기 미리보기를 공개했습니다. 이번 업데이트는 지난 한 해의 지속적인 개선을 바탕으로, 이미지 생성의 정교함과 품질이 더욱 향상되었습니다. 7월에 출시된 SDXL은 기본 모델의 성능을 크게 향상시켰으며, 이제 회사는 더 큰 발전을 목표로 하고 있습니다.
Stable Diffusion 3.0은 특히 다중 주제 프롬프트에서의 이미지 생성 성능과 품질 향상을 중점적으로 다룹니다. 가장 주목할 만한 개선점 중 하나는 타이포그래피로, 이전의 약점을 극복해 생성된 이미지 내에서 정확하고 일관된 철자를 제공합니다. 이러한 개선은 DALL-E 3, Ideogram 및 Midjourney와 같은 경쟁자들도 최근 업데이트에서 우선시한 중요한 특징입니다. Stability AI는 800M에서 8B 파라미터까지 다양한 모델 크기로 Stable Diffusion 3.0을 제공합니다.
이번 업데이트는 이전 모델의 단순한 개선이 아니라 새로운 아키텍처에 기반한 완전한 개편을 의미합니다. Stability AI의 CEO인 Emad Mostaque는 “Stable Diffusion 3은 OpenAI의 최근 Sora 모델과 유사한 새로운 아키텍처인 확산 변환기(diffusion transformer)”라고 설명하며, “이는 원래 Stable Diffusion의 진정한 후계자입니다.”라고 덧붙였습니다.
확산 변환기와 흐름 정합(flow matching)으로의 전환은 이미지 생성의 새로운 시대를 예고합니다. Stability AI는 다양한 기술을 실험하며, 최근에는 성능과 정확성을 향상시키기 위해 Würstchen 아키텍처를 활용한 Stable Cascade를 미리 보여주었습니다. 반면 Stable Diffusion 3.0은 그 전임자와의 큰 차별점인 확산 변환기를 사용합니다.
Mostaque는 “Stable Diffusion은 이전에 변환기가 없었습니다.”라고 설명했습니다. 이 아키텍처는 많은 생성 AI 발전의 기초로, 기존의 이미지 생성은 주로 확산 모델이 지배해왔습니다. 변환자(Transformer)를 잠재 이미지 패치에 적용한 Diffusion Transformers(DiTs)의 도입은 계산 자원의 활용을 최적화하고 성능을 향상시킵니다.
또한, Stable Diffusion 3.0은 복잡한 데이터 분포를 효과적으로 모델링하는 새로운 훈련 방법인 흐름 정합(Flow Matching)의 혜택을 누립니다. 연구자들은 최적 수송 경로를 사용한 Conditional Flow Matching(CFM) 적용이 기존 확산 방법에 비해 더 빠른 훈련, 효율적인 샘플링 및 성능 향상을 가져온다고 지적합니다.
이 모델은 타이포그래피에서 명백한 발전을 보여주며 생성된 이미지 내에서 보다 일관된 서사와 스타일 선택을 가능하게 합니다. Mostaque는 “이 개선은 변환기 아키텍처와 추가 텍스트 인코더 덕분입니다. 이제 완전한 문장과 일관된 스타일이 가능해졌습니다.”라고 말했습니다.
Stable Diffusion 3.0은 처음에는 텍스트-이미지 AI로 소개되지만, 미래 혁신의 기초 역할을 합니다. Stability AI는 향후 몇 달 내에 3D 및 비디오 생성 기능으로 확장할 계획입니다. Mostaque는 “우리는 다양한 필요에 맞춰 활용하고 조정할 수 있는 개방형 모델을 만듭니다.”라고 결론지으며, “이 모델 시리즈는 비디오, 3D 등 차세대 시각 솔루션 개발의 기반이 될 것입니다.”라고 덧붙였습니다.