معهد ماساتشوستس للتكنولوجيا وكوهير يتعاونان لإطلاق منصة لتتبع وتصنيف مجموعات بيانات الذكاء الاصطناعي المدققة.

أطلق باحثون من MIT وCohere for AI و11 مؤسسة أخرى منصة بيانات المصدر اليوم لمواجهة قضية الشفافية في البيانات في مجال الذكاء الاصطناعي. في مبادرتهم، قاموا بتدقيق وتتبع ما يقرب من 2000 من أكثر مجموعات بيانات التخصيص دقة استخدامًا، والتي تم تنزيلها مجتمعة عشرات الملايين من المرات وتعتبر أساسًا للعديد من الإنجازات البارزة في معالجة اللغة الطبيعية. ووفقًا لمرشحة الدكتوراه في مختبر MIT ميديا، شين لونغبري، ورئيسة Cohere for AI، سارة هوكر، فإن "نتيجة هذا الجهد متعدد التخصصات هي أكبر تدقيق لمجموعات بيانات الذكاء الاصطناعي حتى الآن." لأول مرة، تحتوي هذه المجموعات على علامات تحدد المصادر الأصلية للبيانات، وإعادة الترخيص المتعددة، والمبدعين، وغيرها من الخصائص ذات الصلة.

لتعزيز إمكانية الاستخدام، يتيح "مستكشف مصدر البيانات"، وهو منصة تفاعلية، للمطورين تتبع وتصنيف الآلاف من مجموعات البيانات بناءً على المعايير القانونية والأخلاقية. كما تتيح هذه الموارد للباحثين والصحفيين استقصاء التركيبة والمصدر لمجموعات بيانات الذكاء الاصطناعي الشائعة.

تجاهل مجموعات البيانات لخط النسب

توجت المبادرة بنشر ورقة تحمل عنوان "مبادرة مصدر البيانات: تدقيق كبير لترخيص واعتراف مجموعات البيانات في الذكاء الاصطناعي"، والتي تسلط الضوء على مشكلة هامة: "غالبًا ما تُعتبر مجموعات البيانات المستخدمة على نطاق واسع ككيانات أحادية بدلاً من الاعتراف بتنوع مصادرها. تُجمع هذه البيانات وتُنتج وتُنسق وتُ annotate عبر دورات إعادة التعبئة والترخيص بواسطة ممارسين مختلفين."

تظهر التحديات المتعلقة بالاعتراف بهذا الخط من النسب نتيجة لحجم جمع البيانات الهائل، مما يعقد عملية الاعتراف، بالإضافة إلى زيادة التدقيق في حقوق النشر. ونتيجة لذلك، انخفض استخدام أوراق البيانات (Datasheets) وافتقر الأمر إلى الإفصاح عن مصادر التدريب، مما أدى إلى فهم أقل لمصادر التدريب. يمكن أن تؤدي هذه الفجوة المعرفية إلى تسريبات بيانات بين مجموعات بيانات التدريب والاختبار، وكشف معلومات تحدد الهوية الشخصية (PII)، وانحيازات وسلوكيات غير مقصودة، وفي النهاية نماذج ذات جودة أقل من المتوقع. علاوة على ذلك، تمثل هذه الفجوات مخاطر أخلاقية وقانونية كبيرة، مثل النزاعات بين إطلاق النماذج وشروط استخدام البيانات. نظرًا لأن التدريب على البيانات هو عملية مكلفة وغير قابلة للتراجع إلى حد كبير، فإن معالجة هذه التحديات ليست سهلة.

زيادة التدقيق في مجموعات بيانات التدريب في عام 2023

على مدار عام 2023، سلطت وسائل الإعلام الضوء على القضايا المتعلقة بمصدر البيانات وشفافية مجموعات بيانات التدريب. على سبيل المثال، في مارس، انتقد الرئيس التنفيذي لشركة Lightning AI، ويليام فالكون، ورقة GPT-4 من OpenAI لوصفها بأنها "تتظاهر بأنها بحث"، مؤكدًا انعدام التفاصيل المهمة. ولاحظ قسم "المدى والقيود" في التقرير بشكل خاص استبعاد المعلومات المتعلقة ببنية النموذج، وبناء مجموعة البيانات، وطرق التدريب بسبب المخاوف التنافسية والأمان المحيطة بالنماذج الكبيرة مثل GPT-4.

في سبتمبر، نُشر تحليل مفصل يعالج القضايا المتعلقة بحقوق النشر التي تؤثر على بيانات تدريب الذكاء الاصطناعي التوليدي. علق الدكتور أليكس هانا، مدير البحث في معهد الأبحاث الذكية الموزعة (DAIR)، على التحديات العاجلة التي تثيرها الانتشار السريع للذكاء الاصطناعي التوليدي، مشيرًا إلى أنه أثار مخاوف كبيرة حول استخدام المحتوى المحمي بحقوق النشر الذي تم جمعه دون موافقة.

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles