스테이빌리티 AI가 Stable Audio Open 1.0을 통해 오디오를 위한 생성적 AI를 출시합니다. 텍스트를 이미지로 변환하는 Stable Diffusion 기술로 잘 알려진 스테이빌리티 AI는 코드, 텍스트, 그리고 오디오를 포함한 다양한 모델 포트폴리오를 제공합니다. 2023년 9월, 회사는 텍스트를 오디오로 변환하는 생성적 AI 도구인 Stable Audio를 공개했습니다. 이어서 2024년 4월 3일에 출시된 Stable Audio 2.0은 오디오의 선명도와 길이를 향상시켰습니다.
Stable Audio Open은 일반 상업적 사용에 적합하지만, 전체 곡보다는 음향 효과와 같은 짧은 오디오 조각을 제작하는 데 중점을 두고 있습니다. 이 모델은 완전히 오픈 소스는 아니며, 스테이빌리티 AI의 비상업적 연구 커뮤니티 라이선스 아래에서 제한된 사용이 가능합니다. 스테이빌리티 AI의 오디오 연구 책임자 잭 에반스는 "Stable Audio Open의 목표는 오디오 연구자와 제작자에게 생성적 오디오 모델에 직접 접근할 수 있는 기회를 제공하여 연구, 채택 및 창의적 탐색을 촉진하는 것입니다."라고 전했습니다.
Stable Audio Open은 무엇인가요?
Stable Audio Open은 드럼 비트, 악기 리프, 환경 음향 및 음악 제작 및 사운드 디자인을 위한 기타 오디오 샘플 생성에 특화되어 있습니다. 상업적 Stable Audio 제품은 최대 3분 길이의 일관된 음악 트랙을 생성하는 반면, Stable Audio Open은 텍스트 프롬프트에 의해 최대 47초 길이의 고품질 오디오 클립을 제작하는 데 집중하고 있습니다.
스테이빌리티 AI는 저작권 문제를 피하기 위해 FreeSound와 Free Music Archive의 오디오 데이터를 활용하여 책임 있는 훈련 관행을 우선시합니다.
창의적 자유를 위한 세부 조정
Stable Audio Open의 중요한 장점 중 하나는 세부 조정 기능으로, 사용자가 자신의 오디오 데이터를 활용하여 모델을 사용자화할 수 있습니다. 예를 들어, 드러머는 자신의 드럼 녹음을 사용해 모델을 세부 조정하여 독특한 비트를 생성할 수 있습니다. 세부 조정 과정은 오픈 소스 프레임워크 아래 라이선스된 Stable Audio Tools 라이브러리를 사용합니다. 모델 가중치는 Hugging Face에서도 제공됩니다.
에반스는 "오디오 연구팀은 우리의 생성적 오디오 모델의 품질과 제어 능력을 지속적으로 개선하고 있습니다."라고 덧붙였습니다. "우리는 연구 발전을 반영한 향후 상업적 및 오픈 모델 출시를 예상하고 있습니다."