스테이블 AI, Stable Audio 2.0 공개: 생성 AI 오디오 솔루션의 향상된 명료함과 강력함

Home AI 뉴스 스테이블 AI, Stable Audio 2.0 공개: 생성 AI 오디오 솔루션의 향상된 명료함과 강력함

Stability AI는 Stable Audio 2.0 모델을 출시하며 생성 AI의 비전을 한 단계 더 발전시킵니다. 텍스트-이미지 Stable Diffusion 모델로 잘 알려진 이 회사는 포트폴리오를 확장하고 있습니다. Stable Audio는 2023년 9월 처음 선보였으며, 사용자가 텍스트 프롬프트를 기반으로 짧은 오디오 클립을 생성할 수 있도록 합니다. Stable Audio 2.0에서는 사용자가 최대 3분 길이의 고품질 오디오 트랙을 생성할 수 있게 되었습니다. 이는 기존 90초에서 두 배로 늘어난 것입니다.

Stable Audio 2.0은 텍스트-오디오 생성 기능 외에도 오디오-오디오 기능을 도입하여 사용자가 샘플을 업로드하고 이를 프롬프트로 사용할 수 있습니다. 현재 Stable Audio 웹사이트에서 제한된 무료 사용이 가능하며, 혁신적인 서비스를 구축하려는 개발자를 위한 API 접근도 곧 제공될 예정입니다. Stable Audio 2.0의 출시는 전 CEO이자 창립자인 Emad Mostaque의 갑작스러운 사임 이후 Stability AI의 첫 주요 업데이트로, 업데이트가 운영 지속을 의미한다고 사용자에게 안내하고 있습니다.

Stable Audio 1.0에서 2.0으로의 개선 사항

Stable Audio 2.0의 개발은 이전 모델인 Stable Audio 1.0에서 얻은 귀중한 통찰력을 반영했습니다. Stability AI의 오디오 연구 책임자인 Zach Evans는 초기 출시의 초점이 우수한 오디오 충실도와 의미 있는 출력 지속 시간의 모델을 출시하는 것이었다고 설명했습니다. “그 이후로 우리는 음악성 향상, 출력 시간 연장, 세부 프롬프트에 대한 반응성 개선에 집중해왔습니다. 이러한 개선은 기술이 실제 상황에 더 적합하도록 만들기 위한 것입니다.”라고 Evans는 말했습니다.

Stable Audio 2.0은 이제 논리적인 구조를 가진 완전한 음악 트랙을 생성할 수 있으며, 잠재 확산 기술을 활용하여 최대 3분까지 지속되는 작곡물 제작이 가능해졌습니다. 이는 짧은 루프나 조각만을 생성하던 이전 모델에서 크게 발전한 것입니다.

Stable Audio 2.0의 기술

Stable Audio 2.0은 잠재 확산 모델(LDM)을 지속적으로 활용합니다. 2023년 12월에 출시된 Stable Audio 1.1 버전에서는 변환기 백본을 접목시켜 '확산 변환기' 아키텍처를 구현했습니다. “훈련 동안 오디오에 적용된 데이터 압축을 개선하여 출력 시간을 3분 이상으로 확장하면서도 효율적인 추론 시간을 유지할 수 있었습니다.”라고 Evans는 덧붙였습니다.

향상된 창의적 기능

Stable Audio 2.0에서는 텍스트 프롬프트뿐만 아니라 업로드된 오디오 샘플로부터도 오디오를 생성할 수 있습니다. 자연어 지시어를 사용하여 이 소리를 창의적으로 변형할 수 있으며, 반복적인 세분화 및 편집 과정을 가능하게 합니다. 또한 다양한 음향 효과 및 질감을 확장하여 몰입적인 환경, 배경 소음, 군중, 도시 풍경 등을 생성할 수 있습니다. 사용자는 생성된 오디오와 업로드된 오디오 모두의 스타일과 톤을 수정할 수 있게 되었습니다.

생성 AI 오디오의 저작권 우려 해결

저작권 문제는 생성 AI 분야에서 여전히 중요한 이슈입니다. Stability AI는 새로운 오디오 모델을 통해 지적 재산권을 준수할 것을 약속합니다. 저작권 우려를 해소하기 위해 Stable Audio 2.0은 AudioSparx의 라이센스 데이터를 독점적으로 학습하였으며, 옵트아웃 요청을 존중합니다. 콘텐츠 인식 기술을 통해 저작권이 있는 자료 처리를 방지하기 위해 오디오 업로드를 모니터링합니다.

저작권 보호는 Stability AI가 Stable Audio의 상업화를 성공적으로 추진하고 조직의 안전한 사용을 보장하는 데 필수적입니다. 현재 Stable Audio는 웹 애플리케이션에 대한 구독을 통해 수익을 창출하고 있으며, 곧 API가 출시될 예정입니다. 그러나 현재 Stable Audio는 오픈 모델이 아닙니다. “Stable Audio 2.0의 가중치는 다운로드할 수 없지만, 올해 말에 공개 오디오 모델을 개발하고 있습니다.”라고 Evans는 확인했습니다.

구글 클라우드와 CSA: C-스위트 리더십이 2024년 사이버 보안 분야의 빠른 생성적 AI 도입을 촉진하다

AWS, 아마존 베드락에 미스트랄 대형 모델 추가로 AI 기능 강화

Most people like

TopMediai

1.1M

오늘날의 빠르게 변화하는 디지털 환경에서 콘텐츠 제작자들은 생산성과 창의성을 향상시키기 위한 혁신적인 솔루션을 지속적으로 모색하고 있습니다. AI 기반의 온라인 도구들은 콘텐츠 제작 과정을 간소화하는 최첨단 기능을 제공하며 필수 자원으로 자리 잡았습니다. 자동화된 글쓰기 보조 도구부터 고급 이미지 편집 기능까지, 이러한 도구들은 제작자들이 더 효율적으로 고품질 콘텐츠를 제작할 수 있도록 돕습니다. 이 AI 솔루션들이 어떻게 당신의 창의적 작업 흐름을 변화시키고 디지털 존재감을 향상시킬 수 있는지 탐험해보세요.

AI 도구 AI Speech Synthesis

Melodio AI

36.2K

당신의 청취 경험을 향상시키기 위해 설계된 궁극적인 개인화 AI 음악 동반자를 만나보세요. 이 혁신적인 도구는 당신의 독특한 취향에 맞춰 음악 추천을 조정하여 특별한 사운드트랙을 만들어줍니다. 첨단 알고리즘을 통해 선호도를 학습하고, 당신의 기분과 잘 어우러지는 맞춤형 재생 목록을 제공합니다. 모든 음이 당신의 vibe에 완벽하게 어울리도록 보장합니다. 음악의 미래를 받아들이고, 음악 여정에 따라 진화하는 AI 동반자와 함께 매세션을 독특한 경험으로 만들어보세요.

개인화된 음악 AI Music Generator

SearchAI by Bocha

20.3K

광고 없는 답변 엔진 소개: 명확하고 편향 없는 정보를 위한 최고의 소스 광고와 마케팅의 혼잡함이 가득한 세상에서 직관적인 답변을 찾는 것은 어려운 일입니다. 우리 광고 없는 답변 엔진은 방해 요소나 홍보 내용 없이 정확하고 신뢰할 수 있는 정보를 제공하는 깔끔한 플랫폼을 제공합니다. 여러분의 지식 탐구가 최우선으로 여겨지는 경험에 뛰어들어 필요한 통찰력을 필요한 시간에 얻으세요. 소음 없이 명확함을 발견하십시오!

AI 검색 Large Language Models (LLMs)

SlidesGPT

537.9K

AI 기반 도구로 발표 경험을 혁신하세요. 몇 초 만에 멋진 슬라이드를 만들어보세요. 지루한 디자인 작업은 잊고, 관객의 시선을 사로잡는 손쉬운 발표를 만나보세요. 워크플로우를 간소화하고 메시지를 강화하는 기술과 함께 발표 제작의 미래를 경험하세요.

프레젠테이션 생성 AI Content Generator

Find AI tools in YBX