اليوم، في مؤتمر I/O السنوي للمطورين في ماونتن فيو، كشفت Google عن مجموعة من الإعلانات المتعلقة بالذكاء الاصطناعي، بما في ذلك مشروع أسترا - مبادرة طموحة تهدف إلى تطوير وكيل ذكاء اصطناعي عالمي للمستقبل. خلال المؤتمر، تم عرض النسخة الأولية من الوكيل. الهدف هو إنشاء مساعد ذكاء اصطناعي متعدد الوسائط يفهم ويتفاعل مع بيئته، مستجيبًا في الوقت الفعلي للمساعدة في المهام اليومية والاستفسارات. يتماشى هذا المفهوم بشكل وثيق مع الكشف الأخير عن ChatGPT المدعوم بـ GPT-4o من OpenAI.
بينما تستعد OpenAI لإطلاق GPT-4o لمشتركي ChatGPT Plus في الأسابيع المقبلة، تتبنى Google نهجًا أكثر توازنًا مع مشروع أسترا. رغم أن Google تستمر في تحسين هذا المشروع، إلا أنها لم تعلن عن جدول زمني لطرح الوكيل الذكي بشكل كامل. ومع ذلك، من المتوقع دمج بعض ميزات مشروع أسترا في مساعدها جمنية لاحقًا هذا العام.
ماذا تتوقع من مشروع أسترا؟
مشروع أسترا - اختصار لـ "الوكيل المتجاوب المتقدم" - يبني على التقدم المحرز مع جمنية برو 1.5 ونماذج مخصصة أخرى. يسمح للمستخدمين بالتفاعل أثناء مشاركة الديناميات الدقيقة لبيئتهم. تم تصميم المساعد لفهم ما يراه ويسمعه، مما يوفر إجابات دقيقة في الوقت الفعلي.
قال ديميس هاسابيس، الرئيس التنفيذي لشركة Google DeepMind: "لكي يكون الوكيل مفيدًا حقًا، يجب أن يفهم ويرد على العالم المعقد والديناميكي كما يفعل البشر. يجب أن يستوعب ويذكر ما يراه ويسمعه لفهم السياق واتخاذ الإجراءات. بالإضافة إلى ذلك، يجب أن يكون استباقيًا، قابلًا للتعليم، وشخصيًا، مما يمكّن المحادثات الطبيعية بدون تأخير."
في فيديو توضيحي، قام نموذج أولي من وكيل مشروع أسترا يعمل على هاتف Pixel بتحديد الأشياء، ووصف مكوناتها، وتفسير الشيفرة المكتوبة على سبورة بيضاء. وقد تعرف الوكيل على الحي من خلال الكاميرا واستعاد المكان الذي وضعت فيه المستخدم نظاراته.
مشروع أسترا قيد العمل
سلط عرض ثانٍ الضوء على وظائف مشابهة، مثل اقتراح الوكيل تحسينات على بنية نظام، محسّنة من خلال overlays (الرسوم التوضيحية في الوقت الحقيقي) المرئية عبر النظارات. اعترف هاسابيس بالتحديات الهندسية الكبيرة التي تواجه تحقيق أوقات استجابة شبيهة بالبشر. حيث تقوم الأنظمة بتشفير إطارات الفيديو باستمرار، ودمج مدخلات الفيديو والكلام في جدول زمني لتيسير الاسترجاع.
وأضاف: "من خلال الاستفادة من نماذج الكلام المتقدمة لدينا، حسنّا قدرات الوكلاء الصوتية، مما يتيح لهم نطاقًا أكبر من التنغيم. هذه تحسينات تمكن الوكلاء من فهم سياقهم بشكل أفضل والرد بسرعة."
بالمقابل، تعالج OpenAI's GPT-4o جميع المدخلات والمخرجات في نموذج موحد، محققةً متوسط وقت استجابة يبلغ 320 مللي ثانية. لم تكشف Google بعد عن أوقات الاستجابة المحددة لمشروع أسترا، لكن يُتوقع تحسين زمن الاستجابة مع استمرار التطوير. يظل نطاق مشاعر وكلاء مشروع أسترا غير واضح مقارنةً بقدرات OpenAI.
التوافر
حاليًا، يمثل مشروع أسترا الجهود الأولية لـ Google نحو وكيل ذكاء اصطناعي شامل مصمم لمساعدة المستخدمين في المهام اليومية، سواء كانت شخصية أو مهنية، مع الحفاظ على الوعي السياقي والذاكرة. ولم تحدد الشركة موعدًا لتحويل هذه الرؤية إلى منتج ملموس لكنها أكدت أن القدرة على فهم والتفاعل مع العالم الحقيقي ستُدمج في تطبيق جمنية عبر منصات Android وiOS والويب.
في البداية، ستتيح ميزة جمنية لايف المحادثات الثنائية مع chatbot. ومن المتوقع أن تشمل التحديثات لاحقًا هذا العام القدرات البصرية التي تم عرضها، مما يسمح للمستخدمين بالتفاعل مع محيطهم من خلال كاميراتهم. والمثير للاهتمام أن المستخدمين سيتمكنون أيضًا من مقاطعة جمنية أثناء المحادثات، وهي ميزة مماثلة لـ ChatGPT من OpenAI.
اختتم هاسابيس بالقول: "مع تكنولوجيا مثل هذه، من السهل تصور مستقبل حيث يكون للفرد مساعد ذكاء اصطناعي خبير بجانبه، سواء من خلال هاتف ذكي أو نظارات."