كشف الباحثون من Meta وجامعة أكسفورد عن نموذج ذكاء اصطناعي رائد يسمى VFusion3D، والذي يمكنه إنشاء كائنات ثلاثية الأبعاد عالية الجودة من صور فردية أو أوصاف نصية. يمثل هذا النظام المبتكر قفزة كبيرة نحو الذكاء الاصطناعي القابل للتوسع ثلاثي الأبعاد، مما يعد بثورة في صناعات مثل الواقع الافتراضي، والألعاب، والتصميم الرقمي.
التصدي لتحدي بيانات 3D
قاد الفريق البحثي كل من جونلين هان، فيليبوس كوكينوس، وفيليب توري، حيث عالجوا المشكلة المستمرة المتعلقة بنقص بيانات التدريب ثلاثية الأبعاد مقارنة بالكم الهائل من الصور الثنائية الأبعاد والنصوص المتاحة على الإنترنت. استخدموا نماذج ذكاء اصطناعي مدربة مسبقاً على الفيديو لإنشاء بيانات ثلاثية الأبعاد صناعية، مما عزز تدريب VFusion3D.
تظهر المقارنات البصرية قدرات VFusion3D: على اليسار، صورة ثنائية الأبعاد لخنزير كرتوني يحمل حقيبة، وعلى اليمين، نموذج ثلاثي الأبعاد تم إنشاؤه بواسطة الذكاء الاصطناعي، مما يبرز قدرة النظام على تفسير العمق والملمس والشكل من إدخال واحد.
سد الفجوة في البيانات
"العائق الرئيسي في تطوير نماذج توليد ثلاثية الأبعاد الأساسية هو محدودية توفر بيانات 3D"، كما ذكر الباحثون. قاموا بتعديل نموذج ذكاء اصطناعي فيديو قائم لإنشاء تسلسلات متعددة المناظر، مما يمكّن VFusion3D من إنشاء أصول ثلاثية الأبعاد من صورة واحدة في ثوانٍ معدودة. فضل المحكّمون إعادة بناء VFusion3D ثلاثية الأبعاد على 90% من الأنظمة السابقة.
تم تقديم تحول بارز حيث تطور كوالا محارب ثنائي الأبعاد إلى نموذج ثلاثي الأبعاد، مسلطًا الضوء على إمكانات الذكاء الاصطناعي في تصميم الشخصيات.
وعد الذكاء الاصطناعي القابل للتوسع ثلاثي الأبعاد
هناك توقعات كبيرة حول قابلية VFusion3D للتوسع. مع تطوير نماذج ذكاء اصطناعي فيديو أكثر تقدمًا وتوافر المزيد من بيانات 3D، يتوقع الباحثون تحسينات سريعة في قدراته. يمكن أن تدفع هذه الابتكارات التغيير في القطاعات المعتمدة على المحتوى ثلاثي الأبعاد. قد يتمكن مطورو الألعاب من prototype سريع للشخصيات والبيئات، بينما يمكن للمعماريين ومصممي المنتجات تصور الأفكار بسهولة في 3D. علاوة على ذلك، قد تصبح تطبيقات VR/AR أكثر انغماسًا بفضل الأصول الثلاثية الأبعاد المولدة بواسطة الذكاء الاصطناعي.
تجربة VFusion3D: مستقبل إنشاء 3D
لقد اختبرت VFusion3D باستخدام العرض التوضيحي العام على Hugging Face عبر Gradio. تتيح لك الواجهة سهلة الاستخدام تحميل الصور أو اختيار من أمثلة مسبقة التحميل، بما في ذلك شخصيات أيقونية مثل بيكاتشو ودارث فيدر، اختيارات غريبة مثل خنزير يحمل حقيبة. أنتجت الأمثلة المحملة مسبقاً نماذج ثلاثية الأبعاد مثيرة للإعجاب عكست جوهر الصور الثنائية الأبعاد الأصلية بدقة.
تحدٍ حقيقي ظهر عندما حملت صورة مولدة بالذكاء الاصطناعي لآيس كريم. على نحو مفاجئ، تألق VFusion3D، مُنتجاً نموذجاً ثلاثي الأبعاد مكتملًا في ثوانٍ، مع تفاصيل وعمق.
توضح هذه التجربة إمكانية VFusion3D في تسريع سير العمل الإبداعي. يمكن للمصممين والفنانين تجاوز النمذجة اليدوية الطويلة، واستخدام الفنون الثنائية الأبعاد المولدة بالذكاء الاصطناعي كأساس لنماذج ثلاثية الأبعاد سريعة. يمكن أن تعزز هذه الكفاءة عمليات التفكير والتكرار بشكل كبير في تطوير الألعاب، وتصميم المنتجات، والتأثيرات البصرية.
علاوة على ذلك، تشير قدرة النظام على معالجة الصور المولدة بالذكاء الاصطناعي إلى مستقبل يمكن أن تكون فيه أنظمة إنشاء المحتوى ثلاثي الأبعاد مدفوعة بالكامل بالذكاء الاصطناعي، مما يجعل الأصول عالية الجودة متاحة للأفراد والفرق الصغيرة، بدلاً من الاستوديوهات الكبيرة فقط.
نظرة إلى الأمام: التحديات والفرص
بينما يظهر VFusion3D قدرات ملحوظة، إلا أنه ليس بلا قيود. يشير الباحثون إلى أن النظام قد يواجه صعوبة في التعامل مع أنواع معينة من الأجسام مثل المركبات والنصوص. قد تعالج التطورات المستقبلية في نماذج ذكاء اصطناعي الفيديو هذه التحديات.
بينما تعيد تقنية الذكاء الاصطناعي تشكيل الصناعات الإبداعية، يمثل VFusion3D من Meta مثالاً على كيفية توسع حوافز التعلم الآلي عبر أساليب مبتكرة لتوليد البيانات. مع استمرار التحسين، يمكن أن يُمكن هذه التقنية المصممين والمطورين والفنانين على مستوى العالم.
سيتم تقديم ورقة البحث المتعلقة بـ VFusion3D في المؤتمر الأوروبي لرؤية الكمبيوتر (ECCV) 2024، ويتوفر الكود على GitHub، مما يدعو إلى مزيد من الاستكشاف من قبل الباحثين. مع تطور VFusion3D، يعد بتحويل الإمكانيات في إنشاء المحتوى ثلاثي الأبعاد، مما يغير مختلف الصناعات ويوسع آفاق التعبير الإبداعي.