فتح نموذج الذكاء الاصطناعي "الاستثنائي" الذي يعزز قدرات ChatGPT المتعددة الوسائط

Home أخبار الذكاء الاصطناعي فتح نموذج الذكاء الاصطناعي "الاستثنائي" الذي يعزز قدرات ChatGPT المتعددة الوسائط

Updated on أكتوبر 25 2024

مع اقتراب الذكرى السنوية الأولى لإطلاق ChatGPT، تم إحراز تقدم كبير في تعزيز نموذج اللغة القوي هذا. قامت OpenAI بإضافة ميزات جديدة، بما في ذلك القدرة على توليد الصور عبر DALL-E 3 والوصول إلى المعلومات في الوقت الفعلي من خلال Bing. ومع ذلك، كانت إدخال وظائف الصوت والصورة هي ما يميز هذا التحديث التحويلي، معيدًا تعريف تفاعلات المستخدمين.

في قلب هذه الابتكارات يوجد GPT-4V، المعروف أيضًا باسم GPT-4 Vision. هذا النموذج المتعدد الوسائط المتطور يمكّن المستخدمين من التفاعل بسلاسة مع النصوص والصور. في التجارب التي أجراها باحثون من Microsoft—الشريك والمستثمر الرئيسي لـ OpenAI—أظهر GPT-4V قدرات استثنائية، بعضها لم يتم اختباره من قبل. تسلط نتائجهم، المقدمة في الدراسة "فجر النماذج المتعددة الوسائط: استكشافات أولية مع GPT-4V(ision)"، الضوء على الإمكانيات الواسعة للنموذج في معالجة المدخلات المعقدة المترابطة، مثل صورة لقائمة بجانب نصها.

ما هو GPT-4V؟

GPT-4V(ision) هو نموذج ذكاء اصطناعي متطور متعدد الوسائط تم تطويره من قبل OpenAI. يمكنه تمكين المستخدمين من طرح أسئلة حول الصور المرفوعة من خلال وظيفة تعرف باسم الإجابة على الأسئلة البصرية (VQA). بدءًا من أكتوبر، سيتمكن مستخدمو اشتراك ChatGPT Plus بقيمة 20 دولارًا في الشهر أو النسخة المؤسسية من الوصول إلى إمكانيات GPT-4V على منصات سطح المكتب وiOS.

الميزات الرئيسية لـ GPT-4V

- التفكير البصري: يمكن لهذا النموذج فهم العلاقات البصرية المعقدة والتفاصيل السياقية، مما يتيح له الإجابة على الأسئلة بناءً على الصور بدلاً من مجرد التعرف على الكائنات.

- اتباع التعليمات: يمكن للمستخدمين تقديم أوامر نصية، مما يمكّن النموذج من أداء مهام جديدة في رؤية اللغة بسهولة.

- التعلم في السياق: يظهر GPT-4V قدرة قوية على التعلم من الأمثلة القليلة، مما يسمح له بالتكيف مع المهام الجديدة مع الحد الأدنى من الأمثلة.

- الإشارة البصرية: يتعرف النموذج على الإشارات البصرية مثل الأسهم والصناديق، مما يمكّن من اتباع التعليمات بدقة.

- التوصيف المكثف: يمكن لـ GPT-4V إنتاج أوصاف مفصلة تتكون من جمل متعددة تنقل العلاقات المعقدة بين المحتويات.

- العد: يمكن لهذا النموذج عد الكائنات في الصورة بدقة وفقًا لاستفسارات المستخدم.

- البرمجة: أظهر القدرة على توليد الشيفرات مثل تحليل JSON بناءً على المدخلات البصرية.

بالمقارنة مع النماذج المتعددة الوسائط السابقة، يمثل GPT-4V تحسينًا ملحوظًا في فهم رؤية اللغة، مما يبرز إمكانياته التحويلية في تطبيقات الذكاء الاصطناعي.

قيود GPT-4V

على الرغم من قدراته المثيرة للإعجاب، لا تخلو GPT-4V من العيوب. قد يواجه المستخدمون، الذين يأملون في استخدامه لمهام معقدة للغاية، تحديات، خاصة عند التعامل مع أوامر فريدة أو مصممة خصيصًا. كما أن أداؤه محدود عند تطبيقه على عينات جديدة أو غير مرئية، حيث تتطلب بعض السيناريوهات المعقدة وجود أوامر مصممة خصيصًا لتعمل بكفاءة.

ظهور النماذج المتعددة الوسائط الكبيرة (LMMs)

يمثل ظهور الذكاء الاصطناعي المتعدد الوسائط تطورًا محوريًا في التكنولوجيا. أصبحت نماذج توليد النص معززة الآن بقدرتها على معالجة الصور، مما يبسط استفسارات وتفاعلات المستخدمين. يقرب هذا التطور OpenAI من تحقيق الذكاء الاصطناعي العام (AGI)، وهو milestone طال انتظاره داخل مجتمع الذكاء الاصطناعي. تلتزم المنظمة بإنشاء AGI ليس فقط قويًا ولكن أيضًا آمنًا للمجتمع، مما يدفع الحكومات لوضع تنظيمات لمراقبة تطويره.

لا تعمل OpenAI وحدها في هذا الجهد؛ بل تستثمر شركات التقنية الأخرى مثل Meta في أبحاث الذكاء الاصطناعي المتعدد الوسائط. تحت إشراف العالم الحائز على جائزة تورينغ يان ليكون، تقوم Meta بتطوير نماذج مثل SeamlessM4T وAudioCraft وVoicebox لإنشاء ميتافيرس شامل. بالإضافة إلى ذلك، تم تأسيس منتدى النماذج المتطورة حديثًا—الذي يضم مطوري الذكاء الاصطناعي الرائدين مثل OpenAI وMicrosoft وGoogle وAnthropic—مكرسًا لتعزيز نماذج الجيل القادم المتعددة الوسائط، مما يبرز أهمية هذا المجال في أبحاث الذكاء الاصطناعي.

مع هذه التطورات، يتطور مشهد الذكاء الاصطناعي بسرعة، مما يظهر وعودًا هائلة للتطبيقات الإبداعية وتحسين تجارب المستخدمين.

دراسة هارفارد تكشف أن GPT-4 يعزز جودة العمل بأكثر من 40%

تقديم 'AI Supercloud' بقيمة مليار دولار: تحويل أعباء العمل في الذكاء الاصطناعي للأعمال نحو المستقبل

Most people like

Music.AI

123.1K

إنشاء وتوسيع حلول مبتكرة تعتمد على الصوت باستخدام تقنيات الذكاء الاصطناعي الحديثة.

نماذج الذكاء الاصطناعي AI Singing Generator

AirBrush

514.8K

حوّل وصقل صورك بلا جهد مع AirBrush – تطبيق تحرير الصور الأمثل! سواء كنت تبحث عن لمسة احترافية أو مجرد تحسين لقطاتك، يوفر AirBrush أدوات قوية لإعادة التلميع. اكتشف سهولة تحسين صورك اليوم!

صور رش الهواء Photo & Image Editor

Leap AI SEO Platform

336.8K

افتح آفاق وجودك على الإنترنت مع أداتنا المتقدمة لتحسين محركات البحث المعتمدة على الذكاء الصناعي، والمصممة خصيصاً لمساعدتك في إنتاج محتوى SEO عالي الجودة. عزز رؤية موقعك الإلكتروني وتفاعله من خلال الاستفادة من الخوارزميات المتطورة التي تحلل الاتجاهات وتحسن كتابتك لمحركات البحث. أنشئ محتوى جذاباً وذا صلة وغني بالكلمات المفتاحية يتفاعل مع جمهورك بينما تحسن ترتيبك في نتائج البحث. اعتنق مستقبل إنشاء المحتوى وشاهد رؤيتك ترتفع!

توليد محتوى SEO باستخدام الذكاء الاصطناعي AI Blog Writer

MailMaestro

22K

اكتشف كيف يعزز مساعد البريد الإلكتروني الذكي المعتمد على الذكاء الاصطناعي تجربتك في جيميل وآوتلوك، مما يسهل تواصلك ويزيد من إنتاجيتك. بفضل الميزات المتطورة المصممة لتنظيم وترتيب والرد على الرسائل، فإن هذه الأداة الذكية تحول طريقة إدارة صندوق الوارد لديك. وداعًا للفوضى وأهلاً بالكفاءة بينما تستفيد من قوة الذكاء الاصطناعي لتبسيط مهامك اليومية!

مساعد البريد الإلكتروني الذكي Writing Assistants

Find AI tools in YBX