Generative KI-Kunst hat sich schnell zu einer der faszinierendsten und beliebtesten Anwendungen neuer Technologie entwickelt und zieht Millionen von Nutzern auf Plattformen wie Stable Diffusion und Midjourney an. OpenAI hat kürzlich das DALL-E 3-Bildgenerierungsmodell in den weit verbreiteten ChatGPT-Dienst integriert, wodurch die Erstellung von Bildern einfacher denn je wird. Nutzer können durch die Eingabe einer Beschreibung beobachten, wie KI-Algorithmen ihre Ideen innerhalb weniger Sekunden in visuelle Kunst verwandeln. In unserer rasanten Welt kann das Warten auf die Generierung eines Bildes, selbst für ein paar Sekunden, jedoch mühsam erscheinen.
Diese Woche wird in der Online-Community für KI-Kunst über eine bahnbrechende Machine-Learning-Technik diskutiert, die als LCM-LoRA, oder Latent Consistency Model-Low-Rank Adaptation, bekannt ist. Entwickelt von Forschern der Tsinghua-Universität und der KI-Code-Sharing-Plattform HuggingFace, ermöglicht diese Technik die Erstellung von generativer KI-Kunst in Echtzeit.
Was bedeutet das konkret? Schauen Sie sich die Videos an, die KI-Künstler auf X und LinkedIn geteilt haben, um die Technik in Aktion zu sehen. Mit LCM-LoRA können Nutzer nun einfache Formen oder Strichzeichnungen zusammen mit beschreibendem Text skizzieren, während KI-Kunstanwendungen wie Krea.AI und Fal.AI sofort neue Kunstwerke generieren. Die Bilder können nahezu instantan verändert werden, während Nutzer ihre Formen und Zeichnungen auf der digitalen Leinwand anpassen.
Probieren Sie es selbst bei Fal.AI aus (sofern die Seite bei zunehmendem Traffic stabil bleibt).
Die LCM-LoRA-Technik funktioniert sowohl für 2D-Bilder als auch für 3D-Assets und ermöglicht es Künstlern, schnell immersive Umgebungen für Anwendungen in der erweiterten Realität (AR), virtuellen Realität (VR), Videospielen und potenziell Filmproduktionen zu schaffen – was den kreativen Prozess erheblich beschleunigt und Kosten senkt.
„Alles wird sich ändern“, äußerte ein Startup-Gründer und ehemaliger Google-KI-Ingenieur auf LinkedIn, ein Gefühl, das von vielen in der KI-Kunst-Community geteilt wird. Ein weiterer Nutzer auf X bemerkte: „Eine ganz neue Ära der generativen KI steht kurz bevor.“ Professor Ethan Mollick von der Wharton School of Business erklärte, dass „wir bald viele neue Benutzererfahrungen sehen werden“, dank dieser Technik.
Was ist LCM-LoRA und wie funktioniert es?
Die ersten Demonstrationen der Integration von LCM-LoRA in Anwendungen sind in der Tat überzeugend und deuten auf einen potenziellen Wendepunkt für generative KI in den visuellen Künsten hin.
Was ist also die technologische Innovation hinter LCM-LoRA? Laut den Forschern ist LCM-LoRA ein „universelles, trainingsfreies Beschleunigungsmodul“, das in verschiedene feinabgestimmte Modelle von Stable Diffusion integriert werden kann.
Einfacher ausgedrückt handelt es sich um einen Algorithmus, der den Prozess beschleunigt, mit dem Text oder Bilder in neue, von KI generierte Kunstwerke umgewandelt werden, unter Verwendung des beliebten Open-Source-Stable-Diffusion-Modells und seiner modifizierten Versionen. LCM-LoRA erreicht dies, indem es die erforderlichen „Sampling-Schritte“ reduziert, die das KI-Modell durchlaufen muss, um Quelltext oder -bilder in ein hochwertigeres Bild zu transformieren. Dadurch können Stable-Diffusion-Modelle schneller mit weniger Rechenressourcen arbeiten, was in Echtzeit auffällige Ergebnisse liefert.
Die „universelle“ Natur von LCM-LoRA bedeutet, dass es mit verschiedenen Anwendungen, die auf Stable Diffusion basieren, kompatibel ist. Ob es für proprietäre Modelle wie OpenAIs DALL-E 3 oder Midjourney angepasst werden kann, bleibt abzuwarten.
Wir haben einen der Autoren des LCM-LoRA-Papiers kontaktiert, um zusätzliche Einblicke zu erhalten, und werden diesen Artikel aktualisieren, sobald weitere Informationen verfügbar sind.