Meta's Fundamental AI Research (FAIR) Team präsentiert neue KI-Modelle und Werkzeuge für Forscher, die sich auf Audiogenerierung, Text-zu-Visuellen-Funktionen und Wasserzeichen-Technologien konzentrieren. In einer Pressemitteilung erklärte das Unternehmen: „Durch die öffentliche Präsentation unserer frühen Forschung möchten wir Innovationen inspirieren und KI verantwortungsvoll vorantreiben.“
Audiomodell: JASCO und Wasserzeichenwerkzeuge
Meta führt JASCO ein, was für Joint Audio and Symbolic Conditioning for Temporally Controlled Text-to-Music Generation steht. Dieses Modell verbessert die Audiogenerierung, da Benutzer verschiedene Elemente wie Akkorde oder Beats eingeben können, um das Endergebnis zu verfeinern. Die Forschung von FAIR zeigt, dass JASCO es Nutzern ermöglicht, Charakteristika des erzeugten Audios – wie Akkorde, Drums und Melodien – durch Textbefehle zu manipulieren und so den gewünschten Klang zu erzeugen.
Der JASCO-Inferenzcode wird im Rahmen der AudioCraft-KI-Audiomodellebibliothek unter einer MIT-Lizenz veröffentlicht, während das vortrainierte Modell unter einer nicht-kommerziellen Creative Commons-Lizenz erhältlich sein wird. Darüber hinaus lanciert Meta AudioSeal, ein innovatives Werkzeug, das KI-generierte Sprache mit Wasserzeichen versieht und so die Identifikation solcher Inhalte erleichtert.
Meta betont: „AudioSeal ist die erste Audio-Wasserzeichen-Technik, die speziell für die lokale Erkennung von KI-generierter Sprache entwickelt wurde und die Identifizierung von KI-erstellten Segmenten innerhalb längerer Audiodateien ermöglicht.“ Dieses Werkzeug steigert die Erkennungseffizienz und erhöht die Geschwindigkeit um das 485-Fache im Vergleich zu herkömmlichen Methoden. Im Gegensatz zu anderen Modellen wird AudioSeal unter einer kommerziellen Lizenz veröffentlicht.
Veröffentlichung des Chameleon-Modells
FAIR plant außerdem die Veröffentlichung von zwei Versionen seines multimodalen Textmodells, Chameleon, unter einer Forschungs-lizenz. Die Modelle Chameleon 7B und 34B sind für Aufgaben konzipiert, die visuelles und textliches Verständnis erfordern, wie z.B. die Bildbeschriftung. Meta hat jedoch angekündigt, dass das Chameleon-Modell zur Bilderzeugung derzeit nicht verfügbar sein wird, sodass der Zugang auf die textbezogenen Funktionen beschränkt bleibt.
Darüber hinaus erhalten Forscher Zugang zu einer Multi-Token-Prädiktionsmethode, die Sprachmodelle auf mehrere zukünftige Wörter gleichzeitig trainiert und nicht sequenziell. Dieses Feature wird ausschließlich unter einer nicht-kommerziellen und forschungsbasierten Lizenz zugänglich sein.