Stable Audio Open: 스테이블 AI의 오픈 소스 오디오 생성 모델로 오디오 제작의 새로운 선택 제공

최근 Stability AI는 Stable Audio Open이라는 혁신적인 오픈 소스 AI 모델을 출시하여 기존의 Stable Diffusion 텍스트-이미지 기술을 오디오 영역으로 확장했습니다. 이 모델은 사용자가 제공한 프롬프트에 기반하여 고품질의 다양한 오디오 샘플을 생성하여 음악 작곡과 사운드 디자인에 새로운 생명을 불어넣습니다.

Stable Audio Open은 변형기 기반의 확산 모델(DiT)을 활용하여 오토인코더의 잠재 공간에서 오디오를 생성하며, 생성된 사운드의 품질과 다양성을 크게 향상시킵니다. 최대 47초 길이의 음악 클립을 생성할 수 있어 드럼 비트, 기악 멜로디, 앰비언트 사운드, 사운드 효과 등 다양한 애플리케이션에 적합합니다.

이 모델은 현재 HuggingFace 플랫폼에서 공식적으로 오픈 소스로 제공되며, 사용자가 직접 실험할 수 있습니다. Stable Audio Open은 훈련 과정에서 FreeSound 및 Free Music Archive와 같은 음악 라이브러리에서 486,000개 이상의 샘플을 활용하여 생성된 오디오의 스타일과 장르를 다양화했습니다.

Stable Audio Open은 고품질의 짧은 음악 클립 생성에 뛰어나지만, 전체 곡, 멜로디, 보컬 트랙 생성을 위한 것이 아닙니다. 이 모델은 전문 음악 제작 소프트웨어의 대체가 아닌 빠르고 다재다능한 오디오 제작 도구로 설계되었습니다.

또한 Stable Audio Open은 최대 3분 길이의 풀 오디오 트랙을 생성할 수 있는 Stability AI의 이전 상업 모델인 Stable Audio 2.0과 다릅니다. Stable Audio Open은 짧은 오디오 스니펫과 사운드 효과에 중점을 두어 사용자에게 더 큰 맞춤화와 유연성을 제공합니다.

Stable Audio Open의 출시는 Stability AI가 오디오 생성 분야에서 한 단계 도약했다는 것을 의미합니다. 인공지능 기술이 계속 발전함에 따라 혁신적이고 실용적인 오디오 생성 모델과 그 응용 분야를 기대합니다.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles