스테이블 디퓨전(Stable Diffusion), 미드저니(Midjourney)와 달리 AI 이미지 생성기의 오픈 소스 대안, 버전 3.5를 출시했습니다. 이번 업데이트는 이전의 스테이블 디퓨전 3 미디엄(Stable Diffusion 3 Medium)에 대한 비판을 반영하고 있으며, 이 모델은 광범위한 불만을 받았습니다. 스테이블 AI는 3.5 모델이 향상된 프롬프트 준수성을 제공하며, 이미지 품질 면에서 더 큰 모델과 경쟁한다고 주장합니다. 또한, 명시적인 프롬프트 없이 다양한 스타일, 피부 톤, 특징을 생성할 수 있도록 설계되었습니다.
새로운 모델은 세 가지 버전으로 제공됩니다:
1. 스테이블 디퓨전 3.5 라지(Stable Diffusion 3.5 Large): 가장 강력한 변형으로, 최고 품질을 제공하며 프롬프트 준수에서 업계를 선도합니다. 스테이블 AI에 따르면, 1 MP 해상도로 전문가용 사용에 적합합니다.
2. 스테이블 디퓨전 3.5 라지 터보(Stable Diffusion 3.5 Large Turbo): 라지 모델의 최적화된 버전으로, 효율성을 우선시하면서도 4단계 만에 고품질 이미지를 생성합니다.
3. 스테이블 디퓨전 3.5 미디엄(Stable Diffusion 3.5 Medium): 소비자 하드웨어용으로 설계된 이 모델은 품질과 접근성을 조화롭게 맞추어 0.25에서 2 메가픽셀 사이의 이미지 생성을 가능하게 합니다. 하지만 이 버전은 10월 29일까지 이용할 수 없습니다.
3.5 릴리스는 6월에 출시된 스테이블 디퓨전 3 미디엄의 문제 있는 런칭 이후 이루어진 것으로, 당시 모델은 간단한 프롬프트에 대해 황당한 이미지를 생성했습니다. 스테이블 AI는 이전 버전이 "우리의 기준이나 커뮤니티의 기대를 충족하지 못했다"고 인정하며, 현재 릴리스에서 프롬프트 준수에 강력한 초점을 맞추었음을 강조했습니다.
더불어, 3.5 시리즈에는 인류의 다양성을 더 잘 표현하기 위한 새로운 필터가 포함되어 있어, 광범위한 프롬프트 없이 다양한 피부 톤과 특징을 보여줍니다. 이 개선은 구글의 논란처럼, 구글의 제미니 모델이 역사적으로 부정확한 이미지를 생성했던 사례를 반영한 것입니다. 이 사건으로 인해 구글은 인류 세대를 통합하는 일정을 6개월 지연시켰습니다.
이번 개선을 통해 스테이블 디퓨전 3.5가 인류의 다양성과 역사적 맥락을 효과적으로 포착할 수 있기를 기대합니다.