كشف الباحثون من جامعة ستانفورد ومختبر أبحاث الذكاء الاصطناعي في فيسبوك (FAIR) عن نظام ذكاء اصطناعي رائد قادر على توليد حركات واقعية ومتزامنة بين البشر الافتراضيين والأشياء باستخدام أوصاف نصية فقط. يُعرف هذا النظام المبتكر باسم CHOIS (توليف تفاعل الإنسان-الشيء القابل للتحكم) ويستخدم تقنيات نموذج الانتشار الشرطي المتقدم لتسهيل التفاعلات السلسة. على سبيل المثال، يمكنه تفسير وتحريك التعليمات مثل "ارفع الطاولة فوق رأسك، ثم امشِ وضع الطاولة".
تشير الأبحاث التي نُشرت على arXiv إلى مستقبل يمكن فيه للكائنات الافتراضية تفسير الأوامر اللغوية والتفاعل معها بسلاسة مثل البشر. وذكر الباحثون: "إن توليد تفاعلات مستمرة بين البشر والأشياء من أوصاف لغوية ضمن مشاهد ثلاثية الأبعاد يمثل تحديات عدة". وقد ركزوا على ضمان أن تظهر الحركات واقعية، بحيث تتفاعل الأيادي البشرية بدقة مع الأشياء، وأن تتحرك الأشياء استجابةً لأفعال البشر.
كيف يعمل CHOIS
يتفوق CHOIS في إنشاء تفاعلات الإنسان-الشيء داخل مساحة ثلاثية الأبعاد. يعتمد بشكل أساسي على نموذج الانتشار الشرطي، وهو إطار توليدي قادر على محاكاة تسلسلات حركة مفصلة. مع وجود حالة أولية لمواقع الإنسان والشيء إلى جانب وصف لغوي للعمل المطلوب، يولد CHOIS تسلسلًا من الحركات لتحقيق المهمة.
على سبيل المثال، إذا طُلب منه تحريك مصباح أقرب إلى أريكة، يمكن أن ينتج CHOIS رسومًا متحركة حيوية لشخص افتراضي يلتقط المصباح ويضعه بجانب الأريكة.
ما يميز CHOIS هو دمجه لنقاط الهدف الموزعة ومدخلات اللغة لتوجيه الرسوم المتحركة. تعمل هذه النقاط كمؤشرات لنقاط رئيسية في حركة الشيء، مما يضمن أن تكون الرسوم المتحركة واقعية وتتوافق مع الهدف العام الموصوف في المدخلات اللغوية.
بالإضافة إلى ذلك، يدمج CHOIS فهم اللغة مع المحاكاة الفيزيائية بشكل أكثر فعالية من النماذج التقليدية، التي غالبًا ما تعاني من صعوبة ربط اللغة بالأفعال المكانية والفيزيائية خلال تفاعلات ممتدة. يفسر CHOIS النوايا والأسلوب وراء أوصاف اللغة ويترجمها إلى سلسلة من الحركات الفيزيائية مع الالتزام بقيود جسم الإنسان والأشياء المعنية.
يوفر هذا النظام تمثيلًا دقيقًا لنقاط الاتصال، مثل الأيدي التي تلمس الأشياء، وينسق حركة الشيء مع القوى المطبقة بواسطة الشخص الافتراضي. من خلال استخدام وظائف خسارة متخصصة وشروط توجيه خلال مراحل التدريب والتوليد، يعزز CHOIS هذه القيود الفيزيائية، مما يمثل تقدمًا كبيرًا في قدرة الذكاء الاصطناعي على فهم والتفاعل مع العالم الفيزيائي مثل البشر.
تداعيات على الرسوم المتحركة، الذكاء الاصطناعي، والروبوتات
تعد تداعيات نظام CHOIS على الرسوم المتحركة كبيرة، خاصة في الرسوم المتحركة والواقع الافتراضي. من خلال تمكين الذكاء الاصطناعي من تفسير أوامر اللغة الطبيعية لتفاعلات واقعية بين البشر والأشياء، قد يسهم CHOIS بشكل كبير في تسريع عملية الرسوم المتحركة، مما يقلل الوقت والجهد المطلوبين عادة لإنشاء مشاهد معقدة.
يمكن لمبدعي الرسوم المتحركة الاستفادة من هذه التقنية لأتمتة التسلسلات التي تتطلب عادةً رسومًا متحركة مفصلة باستخدام الإطارات الأساسية. في الواقع الافتراضي، يمكن أن يمكّن CHOIS من تجارب أكثر انغماسًا، حيث يمكن للمستخدمين توجيه الشخصيات الافتراضية من خلال اللغة الطبيعية ومراقبة تنفيذ المهام بشكل واقعي، مما يحول التفاعلات المكتوبة مسبقًا إلى بيئات ديناميكية واستجابة.
في مجال الذكاء الاصطناعي والروبوتات، يمثل CHOIS قفزة كبيرة نحو تطوير أنظمة مستقلة تتسم بالوعي السياقي. بدلاً من الاعتماد على الروتينات المبرمجة مسبقًا، يمكن للروبوتات استخدام CHOIS لفهم وتنفيذ المهام الموصوفة بلغة البشر. يمكن أن يحدث هذا ثورة في الروبوتات الخدمية في مجالات مثل الرعاية الصحية والضيافة والبيئات المنزلية من خلال تعزيز قدرتها على تفسير وتنفيذ مهام متنوعة داخل الفضاءات الفيزيائية.
علاوة على ذلك، تتيح القدرة على معالجة المدخلات اللغوية والبصرية في وقت واحد للذكاء الاصطناعي تحقيق مستوى من الفهم السياقي والوضع الذي كان في الأصل يقتصر على البشر. يمكن أن تؤدي هذه النقلة إلى أنظمة ذكاء اصطناعي تعمل كمساعدين أكثر قدرة في المهام المعقدة، ويفهمون ليس فقط "ما" ولكن "كيف" لتعليمات البشر، ويتكيفون مع التحديات الجديدة بمرونة غير مسبوقة.
نتائج واعدة وآفاق مستقبلية
باختصار، تمثل الأبحاث المشتركة من ستانفورد ومتا تقدمًا كبيرًا عند تقاطع الرؤية الحاسوبية ومعالجة اللغة الطبيعية (NLP) والروبوتات. يرى الباحثون في هذا العمل خطوة حاسمة نحو تطوير أنظمة ذكاء اصطناعي متطورة يمكنها محاكاة سلوكيات الإنسان المستمرة في بيئات ثلاثية الأبعاد متغيرة. علاوة على ذلك، تمهد الطريق لاستكشاف المزيد في توليف تفاعلات الإنسان-الشيء من المشاهد ثلاثية الأبعاد والمدخلات اللغوية، مما قد يؤدي إلى أنماط وتقنيات ذكاء اصطناعي أكثر تقدمًا في المستقبل.