توسعة كبيرة لإحدى أكبر مجموعات بيانات تدريب الذكاء الاصطناعي في العالم تعد بتحسين الجودة والحجم

تعتبر مجموعات البيانات الضخمة المستخدمة في تدريب الذكاء الاصطناعي، والمعروفة عادةً باسم "كوربورا"، "العمود الفقري لنماذج اللغة الكبيرة" (LLMs). في عام 2023، لفتت EleutherAI الأنظار بإنشائها واحدة من أكبر مجموعات البيانات النصية مفتوحة المصدر في العالم، وهي Pile بحجم 825 جيجابايت. تأسست هذه المجموعة، التي تمثل منظمة غير ربحية ذات طابع جماعي في عام 2020، لدراسة GPT-3 من OpenAI، وقد واجهت تدقيقاً بسبب القضايا القانونية والأخلاقية المتزايدة المتعلقة بالبيانات المستخدمة في تدريب نماذج اللغة الكبيرة الشهيرة مثل GPT-4 من OpenAI وLlama من Meta.

تم ذكر EleutherAI في العديد من الدعاوى القضائية المتعلقة بالذكاء الاصطناعي التوليدي. ومن الحالات البارزة التي قُدمت في أكتوبر، تلك التي رفعها حاكم أركنساس السابق، مايك هكابي، وعدد من المؤلفين، حيث ادعوا أن كتبهم كانت ضمن مجموعة بيانات Books3، التي تضم أكثر من 180,000 عمل ساهمت في مشروع Pile. تم تحميل Books3 في عام 2020 بواسطة شون بريسير، وأزيلت في أغسطس 2023 بعد إشعار قانوني من مجموعة دانماركية لمكافحة القرصنة.

رغم هذه التحديات، تعمل EleutherAI على تطوير نسخة محدثة من مجموعة بيانات Pile بالتعاون مع مؤسسات مثل جامعة تورنتو ومعهد ألين للذكاء الاصطناعي، بالإضافة إلى باحثين مستقلين. كشفت ستيلا بيدرمان، المديرة التنفيذية لـ EleutherAI، وأفيا سكورن، رئيسة السياسة والأخلاق، في مقابلة مشتركة أن النسخة الجديدة من Pile من المتوقع أن تُنهي في غضون بضعة أشهر.

ستكون النسخة المحدثة من Pile أكبر بكثير و"أفضل بكثير" مقارنةً بسابقتها، وفقًا لبيدرمان. وأشارت إلى أنه "سيكون هناك الكثير من البيانات الجديدة"، مؤكدةً على تضمين معلومات لم يسبق رؤيتها من قبل. وستشمل مجموعة البيانات الجديدة معلومات أكثر حداثة مقارنةً بالسابق، الذي تم إصداره في ديسمبر 2020 واستخدم في تدريب نماذج مثل مجموعة Pythia ومجموعة Stable LM من Stability AI. مع الدروس المستفادة من تدريب ما يقرب من عشرة نماذج LLM، سلطت بيدرمان الضوء على تحسين طرق معالجة البيانات: "عندما أنشأنا Pile، لم يكن لدينا أي تجربة في تدريب LLM. الآن، حصلنا على رؤى قيمة حول كيفية تحسين استخدام البيانات في LLM."

سيلقي التحديث أيضًا الضوء على جودة أفضل وتنوع أكبر في البيانات. وأوضحت: "نخطط لتضمين المزيد من الكتب ونوع أكبر من الأعمال غير الأكاديمية."

تضم مجموعة Pile الأصلية 22 مجموعة فرعية، تشمل Books3 وPubMed Central وarXiv وStack Exchange وWikipedia وبيانات ترجمات YouTube وحتى رسائل Enron. وأشارت بيدرمان إلى أن Pile تظل مجموعة بيانات تدريب LLM الأكثر توثيقاً على مستوى العالم. كانت المبادرة تهدف إلى بناء مجموعة بيانات ضخمة تضم مليارات المقتطفات النصية، تتنافس في الحجم مع تدريب OpenAI لـ GPT-3.

قالت بيدرمان: "عند تقديم Pile في عام 2020، لعبت دورًا حاسمًا لأنها كانت فريدة." في ذلك الوقت، كانت هناك مجموعة نصية كبيرة واحدة متاحة للجمهور، وهي C4، التي استخدمتها Google لمجموعة متنوعة من نماذج اللغة. "لكن C4 أصغر وأقل تنوعًا"، كما أكدت، ووصفته بأنه تفريغ مُحسّن من Common Crawl.

شملت طريقة EleutherAI في إنشاء Pile انتقائية في تنسيق المعلومات والمواضيع التي تعتبر ضرورية لتغذية معرفة النموذج. ذكرت أن "أكثر من 75% من Pile تم تنسيقه من مجالات محددة". "كان هدفنا تقديم رؤى ذات مغزى حول العالم."

شددت سكورن على موقف EleutherAI بشأن تدريب النماذج والاستخدام العادل، قائلةً إن "النماذج الحالية تعتمد على بيانات محمية بحقوق الطبع والنشر." أحد أهداف مشروع Pile v2 هو معالجة القضايا المرتبطة بحقوق الطبع والنشر وترخيص البيانات. ستتضمن مجموعة البيانات الجديدة أعمالًا في الملكية العامة، ونصوص مرخصة تحت رخصة Creative Commons، ومستندات حكومية، مما يضمن الامتثال للمعايير القانونية. بالإضافة إلى ذلك، ستشمل مجموعات بيانات تم الحصول على إذن واضح من أصحاب الحقوق بشأنها.

تزايدت الانتقادات لمجموعات بيانات تدريب الذكاء الاصطناعي بعد إصدار ChatGPT في نوفمبر 2022، مما أثار قلقًا بشأن انتهاك حقوق الطبع والنشر. جاءت السلسلة من الدعاوى القضائية المتعلقة بالذكاء الاصطناعي من فنانين وكتّاب وناشرين، مما أدى إلى تحديات قانونية كبيرة، بما في ذلك واحدة من The New York Times ضد OpenAI وMicrosoft.

النقاش حول بيانات تدريب الذكاء الاصطناعي معقد. أكدت بيدرمان وسكورن على أهمية معالجة الحالات الأخلاقية المثيرة للقلق، مثل اكتشاف صور اعتداء جنسي على الأطفال في مجموعة بيانات LAION-5B، التي أدت مؤخرًا إلى إزالتها. أشارت بيدرمان إلى أن المنهجية المستخدمة للإشارة إلى مثل هذه المحتويات قد لا تكون متاحة قانونيًا للمنظمات مثل LAION.

علاوة على ذلك، اعترفتا بالقلق من المبدعين الذين استخدمت أعمالهم في تدريب نماذج الذكاء الاصطناعي، مشددتين على أن العديد منهم فعلوا ذلك بموجب تراخيص مرنة دون توقع تطور الذكاء الاصطناعي. "لو نظرنا للماضي، لكان العديد قد اختار خيارات ترخيص مختلفة"، تأمل بيدرمان.

بينما كانت مجموعات بيانات تدريب الذكاء الاصطناعي في السابق أدوات بحثية، فقد تحولت الآن إلى منتجات تجارية. قالت بيدرمان، "الهدف الأساسي الآن هو التصنيع"، مشيرة إلى الوعي المتزايد بالآثار التجارية لتدريب النماذج.

من المثير للاهتمام، أن بيدرمان وسكورن argued أن النماذج التي تم تدريبها على مجموعات بيانات مفتوحة مثل Pile تعتبر أكثر أمانًا، حيث يعزز زيادة الوضوح في البيانات الاستخدام الأخلاقي عبر سياقات متنوعة. وأكدت سكورن: "لتحقيق العديد من الأهداف السياسية، يجب أن تكون هناك شفافية، بما في ذلك توثيق التدريب بشكل شامل."

بينما تستمر EleutherAI في تحسين Pile، أعربت بيدرمان عن تفاؤلها بشأن إطلاق النماذج الجديدة قريبًا. "لقد عملنا على هذا المشروع لمدة عام ونصف، وانا متحمسة لرؤية النتائج. أعتقد أنه سيحدث فرقًا صغيرًا ولكنه ذو معنى."

Most people like

Find AI tools in YBX

Related Articles
Refresh Articles