سورا من OpenAI: استكشاف "تفاصيل البيانات" وراء ابتكاراتها

في حوار حصري مع صحيفة وول ستريت جورنال، ناقشت المديرة التقنية لـ OpenAI، ميرا مورات، نموذج "سورا" لتحويل النص إلى فيديو، الذي اقترحت أنه قد يكون متاحًا للجمهور خلال الأشهر القليلة المقبلة. عرض العرض التوضيحي مقاطع جذابة وملفتة للنظر، مما أثار فضول وتعاطف المشاهدين في آنٍ واحد.

ومع ذلك، تغيرت مجريات الحديث عندما تم سؤال مورات عن بيانات التدريب المستخدمة في "سورا". حيث قالت: "استخدمنا بيانات متاحة للجمهور ومرخصة"، لكنها واجهت صعوبة في توضيح ما إذا كان المحتوى من يوتيوب أو فيسبوك أو إنستغرام مدرجًا. وبينما اعترفت باستخدام محتوى من شترستوك، فإن عدم وضوحها بشأن المنصات الأخرى أثار استغراب الحضور. وذكرت "لست متأكدة في الحقيقة" عند الإشارة إلى يوتيوب، بينما قدمت بشأن فيسبوك وإنستغرام تأكيدًا غامضًا حول وجود مقاطع فيديو "قد تكون" متاحة للجمهور دون تأكيد أي تفاصيل.

من المحتمل أن هذه الغموض لم يعجب فريق العلاقات العامة في OpenAI، خاصةً في ظل الدعاوى القضائية المتعلقة بحقوق الطبع والنشر، بما في ذلك واحدة من نيويورك تايمز. تفاصيل بيانات التدريب حاسمة للعديد من المعنيين—المؤلفين والمصورين والفنانين—الذين يرغبون في معرفة المحتوى الذي تم استخدامه لتطوير نماذج مثل "سورا". كما أفادت تقارير The Information أن OpenAI استخدمت بيانات من مصادر متعددة على الإنترنت، مما زاد من التدقيق في ممارسات الشركة.

تمتد تداعيات بيانات التدريب إلى ما هو أبعد من القضايا القانونية؛ إذ تتعلق بالثقة والشفافية. إذا كانت OpenAI قد تدربت على محتوى اعتُبر "متاحًا للجمهور"، فما الذي سيحدث إذا لم يكن الجمهور على علم بذلك؟ علاوة على ذلك، تستخدم شركات التكنولوجيا الكبرى مثل جوجل وميتافيرس أيضًا المحتوى الذي يتم مشاركته علنًا من منصاتها الخاصة. وعلى الرغم من أن هذا قد يكون قانونيًا، فإن التحذيرات الأخيرة من لجنة التجارة الفيدرالية بشأن تغييرات هادئة في شروط الخدمة تثير تساؤلات حول مدى وعي الجمهور.

تظل المناقشات حول بيانات التدريب أساسية في الذكاء الاصطناعي التوليدي، ويُنتظر مواجهة كبيرة—لا سيما في المحاكم ولكن أيضًا في الإدراك العام. كما ذُكر سابقًا، فإن الاعتماد على مجموعات بيانات متنوعة لتدريب نماذج الذكاء الاصطناعي يعد اعت consideration من شأنه التأثير على أولئك الذين تساهم أعمالهم الإبداعية في هذه المجموعات.

تاريخيًا، كانت جمع البيانات للتسويق تعتمد على مبدأ العطاء مقابل الأخذ. حيث يقدم المستخدمون بيانات لتحسين التجارب، على الرغم من أن هذه المبادلة غالبًا ما تفيد الوسطاء بشكل غير متناسب. ويتغير هذا الديناميكية مع الذكاء الاصطناعي التوليدي، إذ يرى الكثيرون أن استخدام أعمالهم المشتركة علنًا هو استغلال، مما يهدد الوظائف والإبداع.

يدعو الخبراء إلى ضرورة وجود مجموعات بيانات تدريب مُنسقة جيدًا لتحسين النماذج، مع التأكيد على أهميتها للأبحاث وليس للاستغلال التجاري. ومع ذلك، مع تزايد وعي الناس بكيفية استخدام محتواهم لتدريب نماذج جني الأرباح، يبقى السؤال: هل ستضعف قبولهم إذا علموا أن مقاطع الفيديو الخاصة بهم ساهمت في إنتاجات الذكاء الاصطناعي التجارية؟

مع تطور المشهد، قد تستفيد شركات مثل OpenAI وGoogle وMeta من مزاياها في البداية. ومع ذلك، فإن التحديات المستمرة المتعلقة ببيانات تدريب الذكاء الاصطناعي قد تؤدي إلى عواقب طويلة الأمد، مما قد يحوّل مزايا اليوم إلى صفقة معقدة.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles