كشفت فريق بحثي من Adobe Research والجامعة الوطنية الأسترالية عن نموذج ذكاء اصطناعي (AI) رائد قادر على تحويل صورة ثنائية الأبعاد واحدة إلى نموذج ثلاثي الأبعاد عالي الجودة في خمس ثوانٍ فقط.
يتم تناول هذا العمل الابتكاري في ورقتهم البحثية بعنوان "LRM: نموذج إعادة بناء كبير للصورة الفردية إلى 3D"، والتي تملك القدرة على إحداث ثورة في مجالات مثل الألعاب، والرسوم المتحركة، والتصميم الصناعي، والواقع المعزز (AR)، والواقع الافتراضي (VR).
يقول الباحثون: "تخيل لو استطعنا فوراً إنشاء شكل ثلاثي الأبعاد من صورة واحدة لأي كائن. لقد دفعنا هذا الهدف للقيام بأبحاث واسعة النطاق، للعثور على نهج عام وفعال لإعادة البناء ثلاثي الأبعاد".
تدريب متقدم ببيانات ضخمة
على عكس الطرق التقليدية التي تركز على فئات محددة وبيانات أصغر، يعتمد LRM على بنية شبكة عصبية قائمة على المحولات القابلة للتوسع، مع أكثر من 500 مليون معلمة. تم تدريبه على نحو مليون كائن ثلاثي الأبعاد مستمدة من مجموعتي بيانات Objaverse وMVImgNet، مما يسمح له بالتنبؤ بحقل إشعاع عصبي (NeRF) مباشرة من الصور المدخلة.
توضح الباحثون: "يجعل هذا الجمع بين نموذج عالي السعة وبيانات تدريب واسعة نموذجنا قابلاً للتعميم للغاية، مما يمكنه من إنتاج إعادة بناء ثلاثية الأبعاد متميزة من مدخلات متنوعة، بما في ذلك اللقطات الحية والنماذج التوليدية".
يؤكد ييكونغ هونغ، المؤلف الرئيسي، على أهمية LRM في مجال إعادة البناء ثلاثي الأبعاد من صورة واحدة، مشيراً: "إلى علمنا، فإن LRM هو أول نموذج ثلاثي الأبعاد على نطاق واسع مع أكثر من 500 مليون معلمة قابلة للتعلم، تم تدريبه على مجموعة واسعة من الأشكال الثلاثية الأبعاد وبيانات الفيديو من فئات متنوعة".
إمكانات تحويلية عبر الصناعات
تتعدد تطبيقات LRM، حيث تشمل الاستخدامات العملية في التصميم الصناعي والتجارب الترفيهية والألعاب الشيقة. يمكن أن تسهل هذه التقنية إنشاء نماذج ثلاثية الأبعاد لألعاب الفيديو والرسوم المتحركة، مما يقلل بشكل كبير من الوقت ومتطلبات الموارد.
في التصميم الصناعي، يمكن أن يعجل LRM بعملية النمذجة عن طريق إنشاء نماذج ثلاثية الأبعاد دقيقة من الرسومات ثنائية الأبعاد. وفي بيئات AR/VR، يعد بتحسين تجارب المستخدمين من خلال إنشاء إعدادات ثلاثية الأبعاد معقدة من الصور ثنائية الأبعاد في الوقت الحقيقي. علاوة على ذلك، تتيح القدرة على تحليل اللقطات "في الحياة البرية" إنشاء محتوى من قبل المستخدمين، مما يعزز ديمقراطية النمذجة ثلاثية الأبعاد. ويمكن للمستخدمين إنشاء نماذج عالية الجودة مباشرة من صور الهواتف الذكية، مما يفتح آفاقاً جديدة للإبداع والفرص التجارية.
التطورات والقيود
على الرغم من الإمكانات الواعدة، يعترف الباحثون بأن LRM لديه قيود مثل إنتاج قوام ضبابي في المناطق المغطاة. ومع ذلك، يشيرون إلى نجاح النماذج الكبيرة القائمة على المحولات المدربة على مجموعات بيانات ضخمة في تعزيز قدرات إعادة البناء ثلاثي الأبعاد العامة.
يختتم الباحثون: "نأمل أن يلهم بحثنا مزيدًا من التحقيقات في نماذج إعادة البناء ثلاثية الأبعاد المدفوعة بالبيانات والتي يمكن أن تعمم بفعالية من الصور العشوائية".
لمزيد من المعلومات حول قدرات LRM المثيرة وأمثلة على نماذج ثلاثية الأبعاد عالية الدقة التي تم إنشاؤها من صور فردية، قم بزيارة صفحة المشروع الخاصة بالفريق.