Stable Diffusion 3.0이 차세대 텍스트-이미지 AI 생성의 혁신적인 확산 아키텍처를 출시합니다.

Home AI 뉴스 Stable Diffusion 3.0이 차세대 텍스트-이미지 AI 생성의 혁신적인 확산 아키텍처를 출시합니다.

Stability AI는 차세대 텍스트-이미지 생성 AI 모델인 Stable Diffusion 3.0의 초기 미리보기를 공개했습니다. 이번 업데이트는 지난 한 해의 지속적인 개선을 바탕으로, 이미지 생성의 정교함과 품질이 더욱 향상되었습니다. 7월에 출시된 SDXL은 기본 모델의 성능을 크게 향상시켰으며, 이제 회사는 더 큰 발전을 목표로 하고 있습니다.

Stable Diffusion 3.0은 특히 다중 주제 프롬프트에서의 이미지 생성 성능과 품질 향상을 중점적으로 다룹니다. 가장 주목할 만한 개선점 중 하나는 타이포그래피로, 이전의 약점을 극복해 생성된 이미지 내에서 정확하고 일관된 철자를 제공합니다. 이러한 개선은 DALL-E 3, Ideogram 및 Midjourney와 같은 경쟁자들도 최근 업데이트에서 우선시한 중요한 특징입니다. Stability AI는 800M에서 8B 파라미터까지 다양한 모델 크기로 Stable Diffusion 3.0을 제공합니다.

이번 업데이트는 이전 모델의 단순한 개선이 아니라 새로운 아키텍처에 기반한 완전한 개편을 의미합니다. Stability AI의 CEO인 Emad Mostaque는 “Stable Diffusion 3은 OpenAI의 최근 Sora 모델과 유사한 새로운 아키텍처인 확산 변환기(diffusion transformer)”라고 설명하며, “이는 원래 Stable Diffusion의 진정한 후계자입니다.”라고 덧붙였습니다.

확산 변환기와 흐름 정합(flow matching)으로의 전환은 이미지 생성의 새로운 시대를 예고합니다. Stability AI는 다양한 기술을 실험하며, 최근에는 성능과 정확성을 향상시키기 위해 Würstchen 아키텍처를 활용한 Stable Cascade를 미리 보여주었습니다. 반면 Stable Diffusion 3.0은 그 전임자와의 큰 차별점인 확산 변환기를 사용합니다.

Mostaque는 “Stable Diffusion은 이전에 변환기가 없었습니다.”라고 설명했습니다. 이 아키텍처는 많은 생성 AI 발전의 기초로, 기존의 이미지 생성은 주로 확산 모델이 지배해왔습니다. 변환자(Transformer)를 잠재 이미지 패치에 적용한 Diffusion Transformers(DiTs)의 도입은 계산 자원의 활용을 최적화하고 성능을 향상시킵니다.

또한, Stable Diffusion 3.0은 복잡한 데이터 분포를 효과적으로 모델링하는 새로운 훈련 방법인 흐름 정합(Flow Matching)의 혜택을 누립니다. 연구자들은 최적 수송 경로를 사용한 Conditional Flow Matching(CFM) 적용이 기존 확산 방법에 비해 더 빠른 훈련, 효율적인 샘플링 및 성능 향상을 가져온다고 지적합니다.

이 모델은 타이포그래피에서 명백한 발전을 보여주며 생성된 이미지 내에서 보다 일관된 서사와 스타일 선택을 가능하게 합니다. Mostaque는 “이 개선은 변환기 아키텍처와 추가 텍스트 인코더 덕분입니다. 이제 완전한 문장과 일관된 스타일이 가능해졌습니다.”라고 말했습니다.

Stable Diffusion 3.0은 처음에는 텍스트-이미지 AI로 소개되지만, 미래 혁신의 기초 역할을 합니다. Stability AI는 향후 몇 달 내에 3D 및 비디오 생성 기능으로 확장할 계획입니다. Mostaque는 “우리는 다양한 필요에 맞춰 활용하고 조정할 수 있는 개방형 모델을 만듭니다.”라고 결론지으며, “이 모델 시리즈는 비디오, 3D 등 차세대 시각 솔루션 개발의 기반이 될 것입니다.”라고 덧붙였습니다.

구글은 여러 차례의 '웍(woke)' 부정확성 문제로 인해 제미니의 인물 생성 기능을 중단했습니다.

생체 정보 해킹: 공격자들이 피해자의 은행 계좌에 접근하기 위해 개인 데이터를 탈취하다

Most people like

Nightfall AI

97.5K

Nightfall AI는 고급 머신 러닝 기술을 활용하여 SaaS 및 클라우드 애플리케이션 내의 민감한 데이터를 식별하고 보호합니다. 데이터 보호를 최우선으로 하여 Nightfall AI는 귀하의 정보가 안전하고 규정을 준수하도록 보장합니다.

데이터 유출 방지 AI Product Description Generator

Neurons AI

71.1K

신경 과학 도구로 광고 전략을 강화하여 최대 효과를 얻으세요.

신경과학 AI Advertising Assistant

Facetune

423.3K

페이스튠은 셀카를 강렬한 시각적 걸작으로 변환하기 위해 설계된 널리 사용되는 앱입니다. 이 강력한 도구는 사용자가 손쉽게 사진을 개선하고 온라인 존재감을 높일 수 있도록 도와줍니다.

셀카 앱 AI Photo Enhancer

Mito

24.7K

Mito는 스프레드시트 데이터 편집을 간소화하고 Python 코드를 손쉽게 생성할 수 있도록 설계된 강력한 도구입니다. 생산성을 높이거나 데이터 조작을 단순화하고자 할 때, Mito는 누구나 쉽게 코딩할 수 있도록 직관적인 인터페이스를 제공합니다. 오늘 Mito와 함께 스프레드시트 기능을 강화하고 데이터 워크플로를 혁신해 보세요!

파이썬 AI Code Assistant

Find AI tools in YBX