مع تقدم تكنولوجيا الذكاء الاصطناعي (AI) بسرعة، أصبحت البيانات محركًا أساسيًا في تطوير نماذج الذكاء الاصطناعي. ومع ذلك، يُسلط تقرير حديث من صحيفة وول ستريت جورنال الضوء على تحديات غير مسبوقة تواجهها شركات الذكاء الاصطناعي في الحصول على بيانات تدريب عالية الجودة. اليوم، تستعرض صحيفة نيويورك تايمز الاستراتيجيات التي تعتمدها هذه الشركات للتغلب على هذه القضية المعقدة، خاصة فيما يتعلق بقوانين حقوق الطبع والنشر.
تمتلك OpenAI، الرائدة في هذا المجال، حاجة ملحة إلى بيانات التدريب. وفقًا للتقارير، قامت الشركة بكتابة نصوص لأكثر من مليون ساعة من مقاطع فيديو يوتيوب لتطوير نموذجها المتقدم GPT-4 باستخدام تقنية تحويل الصوت Whisper. كما قامت OpenAI بتجميع موارد بيانات متنوعة، بما في ذلك الأكواد من GitHub، وقواعد البيانات لتحركات الشطرنج، والمحتوى التعليمي من Quizlet.
هذه النهج أثار جدلًا قانونيًا. بينما تؤكد OpenAI أن استخدام بياناتها يتوافق مع مبادئ الاستخدام العادل، تكشف صحيفة نيويورك تايمز أن رئيس OpenAI، جريج بروكمان، كان متورطًا شخصيًا في عملية جمع البيانات، مما يزيد الأمور تعقيدًا.
في مقابلة مع The Verge، صرح المتحدث باسم OpenAI أن الشركة تنظم مجموعات بيانات فريدة لكل نموذج، بهدف تحسين فهمها للعالم والحفاظ على تنافسية البحث على مستوى عالمي. كما ذكر المتحدث أن OpenAI تستكشف توليد بيانات صناعية لتقليل اعتمادها على مصادر البيانات الخارجية.
أعربت Google عن قلقها بشأن ممارسات OpenAI، حيث أشار متحدث باسمها عبر البريد الإلكتروني إلى أن الشركة لاحظت تقارير غير مؤكدة حول أنشطة OpenAI، مشددًا على أن ملف robots.txt وشروط خدمة Google تمنعان جمع أو تنزيل محتوى يوتيوب بدون إذن.
في مقابلة حديثة، أشار الرئيس التنفيذي ليوتيوب، نيل موهان، إلى أنه رغم عدم وجود دليل مباشر على أن OpenAI استخدمت مقاطع فيديو يوتيوب لتدريب نموذج Sora، فإن مثل هذه الأفعال ستشكل انتهاكًا لشروط خدمة يوتيوب.
في الوقت نفسه، تواجه Meta تحدياتها الخاصة المتعلقة بتوافر البيانات. وفقًا لنيويورك تايمز، بينما تسعى فريق الذكاء الاصطناعي في Meta لمنافسة OpenAI، فإنها تفكر في سيناريوهات تتعلق بالاستخدام غير المصرح به للأعمال المحمية بحقوق الطبع والنشر. لتوسيع مجموعات بياناتها، استعرضت Meta مجموعة واسعة من الكتب والمقالات والشعر والأخبار باللغة الإنجليزية، وناقشت إمكانية مدفوعات لترخيص الكتب أو شراء حقوق مباشرة من الناشرين الكبار.
تؤكد هذه التطورات التحديات القانونية والأخلاقية التي تواجهها صناعة الذكاء الاصطناعي في جمع البيانات واستخدامها. مع تقدم التكنولوجيا، تبرز السؤال الملح: كيف يمكن لنماذج الذكاء الاصطناعي أن تتطور مع احترام حقوق الطبع والنشر؟ من الضروري أن تتعاون شركات الذكاء الاصطناعي والجهات التنظيمية لوضع لوائح أكثر وضوحًا وعدلاً تعزز التطوير الصحي والمستدام لتكنولوجيا الذكاء الاصطناعي.