스테이블 AI, 스테이블 디퓨전 미디엄으로 이미지 생성 능력 확장

더 크다고 항상 더 나은 것은 아닙니다. 특히 일반 하드웨어에서 생성 AI 모델을 운영할 때 그렇습니다. 이러한 원칙은 Stability AI의 최신 출시 모델인 Stable Diffusion 3 Medium을 잘 보여줍니다. Stability AI의 주력 모델인 Stable Diffusion은 텍스트에서 이미지로의 생성 작업에서 뛰어난 성능을 발휘합니다. Stable Diffusion 3의 미리보기는 2월 22일에 공유되었으며, 공용 API의 접근은 4월 17일부터 가능해졌습니다.

새로운 Stable Diffusion Medium은 소비자용 GPU에서 효율적으로 작동하는 작지만 강력한 모델로 설계되었습니다. 이는 자원이 제한된 사용자와 조직에게 효과적인 이미지 생성 기술로서 Stable Diffusion 3를 매력적인 옵션으로 만듭니다. Stable Diffusion Medium은 API를 통해 테스트 가능하며, Discord의 Stable Artisan 서비스에서도 이용할 수 있습니다. 또한 모델 가중치는 비상업적 용도로 Hugging Face에서 접근 가능합니다.

Stable Diffusion Medium의 출시로 인해 초기 출시는 이제 Stable Diffusion 3 (SD3) Large로 불리며, 80억 개의 파라미터를 자랑합니다. 반면, SD3 Medium은 20억 개의 파라미터를 가지고 있습니다. Stability AI의 공동 CEO인 Christian Laforte는 "SD3 Large와 달리, SD3 Medium은 더 작지만 소비자 하드웨어에서 효율적으로 실행됩니다."라고 밝혔습니다.

Stable Diffusion Medium을 실행하기 위해 사용자는 5GB의 GPU VRAM만 필요하며, 이는 다양한 소비자용 PC와 고급 노트북에서 작동할 수 있도록 합니다. 이는 최소 요구 사항이며, Stability AI는 최적의 성능을 위해 16GB의 GPU VRAM을 권장하지만, 일부 노트북에서는 도전이 될 수 있습니다.

작은 사이즈임에도 불구하고 SD3 Medium은 SD3 Large와 견줄 만한 인상적인 기능을 제공합니다. Laforte는 SD3 Medium이 포토리얼리즘, 프롬프트 준수, 타이포그래피, 자원 효율성, 미세 조정에서 뛰어나다고 강조했습니다. "SD3 Medium은 오늘날 사용자들이 감상하는 SD3 Large API의 기능을 충족합니다."라고 그는 말했습니다.

SD3에서는 16채널 VAE(변분 오토인코더)에 힘입어 매우 사실적인 이미지 출력을 기대할 수 있으며, 이전 모델보다 메가픽셀 당 더 많은 세부 사항을 제공합니다. SD3는 이미지 구성에서의 공간 인식을 포함한 자연어 프롬프트 준수도 뛰어납니다.

모델의 미세 조정 기능은 세부 사항을 잘 반영하여 학습 데이터셋으로부터 높은 적응력과 효율성을 제공합니다. 개선된 타이포그래피는 SD3의 또 다른 중요한 향상 사항이며, 이는 SD3 Medium에도 적용됩니다.

SD3 Medium의 가장 두드러진 특징은 자원 효율성입니다. Laforte는 "2억 개의 파라미터 모델의 작은 크기와 모듈성은 성능을 희생하지 않으면서 계산 요구 사항을 줄입니다."라고 언급했습니다. "이는 자원 관리가 중요한 환경에서 SD3 Medium이 이상적인 선택이 되는 이유입니다."

Most people like

Find AI tools in YBX