Stanford und Meta Näher an Menschlicher KI mit Innovativem 'CHOIS' Interaktionsmodell

Home KI-Nachrichten Stanford und Meta Näher an Menschlicher KI mit Innovativem 'CHOIS' Interaktionsmodell

Updated on Dezember 8 2023

Forscher der Stanford University und des Facebook AI Research (FAIR) Lab von Meta haben ein bahnbrechendes KI-System vorgestellt, das in der Lage ist, realistische und synchronisierte Bewegungen zwischen virtuellen Menschen und Objekten ausschließlich auf Basis von Textbeschreibungen zu generieren. Das innovative System, genannt CHOIS (Controllable Human-Object Interaction Synthesis), nutzt fortschrittliche Techniken des bedingten Diffusionsmodells, um nahtlose Interaktionen zu ermöglichen. Beispielsweise kann es Anweisungen wie „hebe den Tisch über deinen Kopf, gehe und stelle den Tisch ab“ interpretieren und animieren.

Die Studie, veröffentlicht auf arXiv, deutet auf eine Zukunft hin, in der virtuelle Wesen sprachliche Befehle ebenso flüssig interpretieren und ausführen können wie Menschen. “Die Generierung kontinuierlicher Mensch-Objekt-Interaktionen aus sprachlichen Beschreibungen in 3D-Szenen stellt mehrere Herausforderungen dar“, erklärten die Forscher. Sie setzten Prioritäten, um sicherzustellen, dass die Bewegungen realistisch wirken, indem menschliche Hände präzise mit Objekten interagieren und die Objekte als Reaktion auf menschliche Aktionen bewegt werden.

Funktionsweise von CHOIS

CHOIS punktet bei der Schaffung von Mensch-Objekt-Interaktionen im 3D-Raum. Kernstück ist ein bedingtes Diffusionsmodell, ein generativer Rahmen, der in der Lage ist, detaillierte Bewegungssequenzen zu simulieren. Basierend auf einem Anfangszustand der Positionen von Mensch und Objekt sowie einer sprachlichen Beschreibung der gewünschten Handlung generiert CHOIS eine Bewegungssequenz, um die Aufgabe zu erfüllen. Wenn beispielsweise gefordert wird, eine Lampe näher an ein Sofa zu bewegen, kann CHOIS eine lebensechte Animation eines menschlichen Avatars erstellen, der die Lampe aufnimmt und neben das Sofa stellt.

Ein Unterscheidungsmerkmal von CHOIS ist die Integration spärlicher Objekt-Wegpunkte und sprachlicher Eingaben zur Steuerung der Animationen. Diese Wegpunkte dienen als Marker für Schlüsselpunkte in der Bewegung eines Objekts und stellen sicher, dass die Animation nicht nur realistisch ist, sondern auch mit dem übergeordneten Ziel der sprachlichen Eingabe übereinstimmt.

Zusätzlich verbindet CHOIS das Sprachverständnis effektiver mit physikalischer Simulation als traditionelle Modelle, die oft Schwierigkeiten haben, Sprache mit räumlichen und physischen Aktionen über längere Interaktionen hinweg zu korrelieren. CHOIS interpretiert die Absicht und den Stil hinter sprachlichen Beschreibungen und übersetzt diese in eine Serie physischer Bewegungen, während die Einschränkungen des menschlichen Körpers und der beteiligten Objekte beachtet werden.

Dieses System gewährleistet eine genaue Darstellung von Kontaktpunkten, wie z. B. Händen, die Objekte berühren, und stimmt die Bewegung des Objekts mit den von dem menschlichen Avatar ausgeübten Kräften ab. Durch den Einsatz spezieller Verlustfunktionen und Leitparameter während der Trainings- und Generierungsphasen verstärkt CHOIS diese physischen Einschränkungen und stellt einen bedeutenden Fortschritt in der Fähigkeit der KI dar, die physische Welt wie Menschen zu verstehen und mit ihr zu interagieren.

Implikationen für Computergraphik, KI und Robotik

Die Auswirkungen des CHOIS-Systems auf die Computergraphik sind erheblich, insbesondere in der Animation und virtuellen Realität. Durch die Ermöglichung von KI, natürliche Sprachbefehle für realistische Mensch-Objekt-Interaktionen zu interpretieren, könnte CHOIS den Animationsprozess erheblich vereinfachen und die Zeit und den Aufwand für die Erstellung komplexer Szenen reduzieren.

Animatoren könnten diese Technologie nutzen, um Sequenzen zu automatisieren, die normalerweise eine akribische Keyframe-Animation erfordern. In der virtuellen Realität könnte CHOIS immersivere Erlebnisse ermöglichen, in denen Benutzer virtuelle Charaktere durch natürliche Sprache anleiten und lebensechte Aufgaben beobachten können, wodurch zuvor festgelegte Interaktionen in dynamische, reaktive Umgebungen verwandelt werden.

In der KI und Robotik stellt CHOIS einen bedeutenden Fortschritt in der Entwicklung autonomer, kontextbewusster Systeme dar. Anstatt auf vorprogrammierte Routinen angewiesen zu sein, könnten Roboter CHOIS nutzen, um Aufgaben, die in menschlicher Sprache beschrieben sind, zu verstehen und auszuführen. Dies könnte Dienstrobotern in Bereichen wie Gesundheitswesen, Gastgewerbe und im Haushalt eine revolutionäre Verbesserung ihrer Fähigkeit verleihen, vielfältige Aufgaben in physischen Räumen zu interpretieren und zu erledigen.

Darüber hinaus ermöglicht die Fähigkeit, Sprache und visuelle Eingaben gleichzeitig zu verarbeiten, der KI ein Maß an situativer und kontextueller Erkenntnis zu erlangen, das bislang hauptsächlich Menschen vorbehalten war. Diese Entwicklung könnte zu KI-Systemen führen, die als fähigere Helfer bei komplexen Aufgaben fungieren, indem sie nicht nur das „Was“, sondern auch das „Wie“ menschlicher Anweisungen verstehen und sich mit beispielloser Flexibilität neuen Herausforderungen anpassen.

Vielversprechende Ergebnisse und Ausblick

Zusammenfassend stellt die gemeinsame Forschung von Stanford und Meta einen bedeutenden Fortschritt an der Schnittstelle von Computer Vision, natürlicher Sprachverarbeitung (NLP) und Robotik dar. Die Forscher betrachten diese Arbeit als einen entscheidenden Schritt in Richtung Entwicklung ausgeklügelter KI-Systeme, die kontinuierliches menschliches Verhalten in verschiedenen 3D-Umgebungen simulieren können. Darüber hinaus ebnet sie den Weg für weitere Erkundungen zur Synthese von Mensch-Objekt-Interaktionen aus 3D-Szenen und sprachlichen Eingaben, was potenziell zu noch fortschrittlicheren KI-Technologien in der Zukunft führen könnte.

Ein Entwicklerleitfaden zum Start Ihrer Reise in die Generative KI: Ein maßgeschneiderter Anwendungsfallansatz

Arbeitseffizienz Transformieren: Wie KI eine zweistündige Aufgabe mit SAP-CTO Juergen Mueller auf nur 15 Minuten reduzieren kann

Most people like

Elements of AI

Erschließen Sie die Welt der kostenlosen Online-AI-Ausbildung für Anfänger Entdecken Sie das umfangreiche Reich der künstlichen Intelligenz mit unserem umfassenden Leitfaden zu kostenlosen Online-Ressourcen, die speziell für Nicht-Experten entwickelt wurden. Egal, ob Sie ein neugieriger Neuling sind oder Ihre Fähigkeiten erweitern möchten, diese zugänglichen Lernwerkzeuge werden Sie befähigen, AI-Konzepte und -Anwendungen zu verstehen, ohne technische Vorkenntnisse zu benötigen. Treten Sie einer wachsenden Gemeinschaft von Lernenden bei und machen Sie den ersten Schritt in die aufregende Zukunft der künstlichen Intelligenz.

KI-Ausbildung AI Course

ScholarBot

51K

Entfalten Sie intelligentes Lernen mit unserem KI-gestützten Hausaufgabenlöser. Dieses innovative Tool verwandelt, wie Schüler mit ihrem Studium umgehen, indem es künstliche Intelligenz nutzt, um sofortige Unterstützung zu bieten und das Verständnis zu fördern. Steigern Sie Ihre akademische Laufbahn und entdecken Sie heute eine effizientere Methode, um Aufgaben zu bewältigen und Ihre Noten zu verbessern!

KI-gestützt AI Education Assistant

Qwiet AI

9.6K

In der heutigen digitalen Landschaft ist der Schutz sensibler Informationen bei gleichzeitiger effektiver Datenanalyse für Unternehmen von entscheidender Bedeutung. KI-Lösungen für Datensicherheit und Analyse revolutionieren die Art und Weise, wie Organisationen ihre Ressourcen schützen und aus großen Datenmengen Erkenntnisse gewinnen. Diese innovativen Technologien stärken nicht nur die Sicherheitsmaßnahmen, sondern ermöglichen es Unternehmen auch, fundierte Entscheidungen auf der Grundlage von Echtzeitanalysen zu treffen. Durch die Integration von KI in ihre Betriebsabläufe können Unternehmen ein nahtloses Gleichgewicht zwischen Sicherheit und Intelligenz erreichen, sodass ihre Daten sicher bleiben und gleichzeitig ihr volles analytisches Potenzial entfaltet werden kann.

Datensicherheit Other

Imagine AI Art Generator

1.7M

Tauchen Sie ein in die fesselnde Welt der KI-generierten Kunst, die aus Texthinweisen entsteht. Entdecken Sie, wie künstliche Intelligenz geschriebene Worte in atemberaubende visuelle Meisterwerke verwandelt und dabei Kreativität und Technologie auf innovative Weise verbindet. Diese faszinierende Schnittstelle verbessert nicht nur den künstlerischen Ausdruck, sondern eröffnet auch neue Wege für Kreativität und macht Kunst für alle zugänglicher. Begleiten Sie uns, während wir in dieses aufregende Reich eintauchen, in dem Vorstellungskraft auf Algorithmen trifft.

KI-Kunst AI Art Generator

Find AI tools in YBX