Stability AI präsentiert Stable Audio 2.0: Verbesserte Klarheit und Leistung in generativen KI-Audio-Lösungen.

Stability AI fördert seine Vision für generative KI mit der Einführung des Stable Audio 2.0 Modells. Obwohl das Unternehmen vor allem für seine Text-zu-Bild-Modelle wie Stable Diffusion bekannt ist, erweitert es nun sein Portfolio. Stable Audio wurde ursprünglich im September 2023 vorgestellt und ermöglicht es Nutzern, kurze Audioclips basierend auf Texteingaben zu erstellen. Mit Stable Audio 2.0 können nun hochwertige Audiospuren von bis zu drei Minuten – doppelt so lang wie die ursprünglichen 90 Sekunden – generiert werden.

Neben der Text-zu-Audio-Generierung führt Stable Audio 2.0 auch Audio-zu-Audio-Funktionen ein, die es Nutzern ermöglichen, Samples hochzuladen und diese als Eingabe zu verwenden. Das Modell ist derzeit für eine limitierte kostenlose Nutzung auf der Stable Audio-Website verfügbar, und der API-Zugang für Entwickler, die innovative Dienste schaffen möchten, wird bald bereitgestellt.

Die Veröffentlichung von Stable Audio 2.0 ist das erste große Update von Stability AI seit dem unerwarteten Rücktritt des ehemaligen CEO und Gründers Emad Mostaque im März. Das Unternehmen versichert den Nutzern, dass das Update die kontinuierlichen Geschäftstätigkeiten widerspiegelt.

Verbesserungen von Stable Audio 1.0 zu 2.0

Die Entwicklung von Stable Audio 2.0 basierte auf wertvollen Erkenntnissen aus seinem Vorgänger, Stable Audio 1.0. Zach Evans, Leiter der Audioforschung bei Stability AI, erklärte, dass der Schwerpunkt bei der ersten Veröffentlichung auf der Einführung eines bahnbrechenden Modells mit überlegener Audioqualität und angemessener Ausgabelänge lag. „Seitdem haben wir uns darauf konzentriert, die Musikalität zu verbessern, die Ausgabelänge zu verlängern und die Reaktionsfähigkeit auf detaillierte Eingaben zu steigern“, sagte Evans. „Diese Verbesserungen sollen die Technologie in realen Anwendungsszenarien nützlicher machen.“

Stable Audio 2.0 kann jetzt vollständige Musikstücke mit kohärenten Strukturen erzeugen. Mit der latenten Diffusionstechnologie kann das Modell Kompositionen von bis zu drei Minuten erstellen, einschließlich klarer Einleitungs-, Entwicklungs- und Schlussabschnitte – ein bedeutendes Upgrade im Vergleich zu seiner früheren Fähigkeit, nur kurze Loops oder Fragmente zu generieren.

Die Technologie hinter Stable Audio 2.0

Stable Audio 2.0 nutzt weiterhin ein latentes Diffusionsmodell (LDM). Nach der Beta-Veröffentlichung von Stable Audio 1.1 im Dezember 2023 wurde ein Transformer-Backbone integriert, was zu einer „Diffusions-Transformer“-Architektur führte. „Wir haben die Datenkompression angewendet, die während des Trainings auf Audio verwendet wird, wodurch wir Ausgaben von bis zu drei Minuten und darüber hinaus erstellen können, während wir effiziente Inferenzzeiten beibehalten“, fügte Evans hinzu.

Verbesserte kreative Möglichkeiten

Mit Stable Audio 2.0 können Nutzer Audio nicht nur aus Texteingaben, sondern auch aus hochgeladenen Audiodateien generieren. Natürliche Sprachbefehle ermöglichen eine kreative Transformation dieser Klänge, die iterative Verfeinerungs- und Bearbeitungsprozesse unterstützen.

Das Modell erweitert zudem das Spektrum an Klangeffekten und -texturen. Nutzer können es anweisen, immersive Umgebungen, Umgebungsgeräusche, Menschenmengen, Stadtlandschaften und mehr zu schaffen. Zudem können Stile und Töne sowohl von generiertem als auch von hochgeladenem Audio angepasst werden.

Urheberrechtsfragen in der generativen KI-Audio

Urheberrechtsaspekte sind im Bereich der generativen KI nach wie vor ein wichtiges Thema. Stability AI verpflichtet sich, die Rechte an geistigem Eigentum mit seinem neuen Audiomodell zu wahren. Um Urheberrechtsbedenken auszuräumen, wurde Stable Audio 2.0 ausschließlich mit lizenzierten Daten von AudioSparx trainiert und respektiert Opt-out-Anfragen. Eine Technologie zur Inhaltskennung überwacht Audio-Uploads, um die Verarbeitung urheberrechtlich geschützten Materials zu verhindern.

Der Schutz des Urheberrechts ist für Stability AI entscheidend, um Stable Audio erfolgreich zu kommerzialisieren und eine sichere Nutzung für Organisationen zu gewährleisten. Derzeit erzielt Stable Audio Einnahmen durch Abonnements seiner Webanwendung, und eine API wird bald eingeführt.

Jedoch ist Stable Audio derzeit kein offenes Modell. „Die Gewichte für Stable Audio 2.0 werden nicht zum Download verfügbar sein, aber wir entwickeln offene Audiomodelle, die später in diesem Jahr veröffentlicht werden“, bestätigte Evans.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles