الأسبوع الماضي، ناقشت رؤى مارك زوكربيرغ حول استراتيجية الذكاء الاصطناعي في شركة ميتا، مشيرًا إلى ميزة كبيرة: مجموعة بيانات داخلية شاسعة تتوسع باستمرار، تُستخدم لتدريب نماذج لاما. صرح زوكربيرغ بأن فيسبوك وإنستغرام يستضيفان "مئات المليارات من الصور المشتركة علنًا وعشرات المليارات من الفيديوهات العامة"، وهو ما يتجاوز حجم مجموعة بيانات Common Crawl. كما يشارك المستخدمون كميات هائلة من المنشورات النصية العامة على هذه المنصات.
الاحتياجات المتزايدة للبيانات في الذكاء الاصطناعي
ومع ذلك، فإن البيانات اللازمة لتدريب النماذج مثل تلك التي تقدمها ميتا، وأوبن أيه آي، وأنثروبك، ليست سوى البداية لفهم متطلبات البيانات للنماذج اللغوية الكبيرة اليوم. الطلب المستمر على الاستدلال - أي استخدام هذه النماذج لمختلف التطبيقات - هو ما يخلق حلقة لا تنتهي من استهلاك البيانات. إنه يشبه لعبة "التمساح الجائع" الشهيرة، حيث تجمع نماذج الذكاء الاصطناعي البيانات بلا هوادة للعمل بشكل فعال.
مجموعات بيانات محددة لاستدلال فعّال للذكاء الاصطناعي
أكد براد شنايدر، مؤسس ومدير عام Nomad Data، أن "[الاستدلال هو] السوق الأكبر، ولا أظن أن الناس يدركون ذلك." تعمل Nomad Data كمنصة لاكتشاف البيانات، تربط أكثر من 2500 بائع بيانات بالشركات التي تسعى إلى مجموعات بيانات محددة لاحتياجات استدلال نماذجها اللغوية الكبيرة. لا تعمل Nomad كوسيط بيانات، بل تتيح للشركات البحث عن البيانات بلغة طبيعية. على سبيل المثال، قد يطلب المستخدم "خدمة بيانات لكل سقف في مرحلة البناء في الولايات المتحدة كل شهر." وأوضح شنايدر أن العديد من المستخدمين غير واعين بالتسميات الدقيقة لمجموعات البيانات التي يحتاجونها. تساعد نماذج Nomad اللغوية الكبيرة في تحديد البائعين المعنيين الذين يمكنهم توفير البيانات.
المطابقات الفورية للبيانات
تعد المطابقة السريعة بين الطلب والعرض مثالاً على فعالية المنصة. استذكر شنايدر شركة تأمين سجلت بياناتها على Nomad: تقريبًا على الفور، بحثت شركة أخرى عن بيانات تفصيلية حول حوادث السيارات، غير مدركة أن هذه المعلومات تندرج تحت "بيانات التأمين". وأشار شنايدر إلى أنه "هذا هو السحر".
أهمية التغذية المستمرة للبيانات
على الرغم من أن بيانات التدريب أساسية، إلا أن شنايدر شدد على أن النماذج يتم تدريبها بشكل غير متكرر، بينما يحدث الاستدلال بشكل مستمر— أحيانًا آلاف المرات في الدقيقة. هذا الطلب المستمر على البيانات الجديدة حاسم للشركات التي تستفيد من الذكاء الاصطناعي التوليدي، لا سيما في خلق رؤى قيمة. وأوضح: "تحتاج إلى إطعامها بشيء لتفعل شيئًا مثيرًا."
يظل تحديد "طعام" البيانات الصحيح تحديًا أمام الشركات الكبرى. في البداية، يُعتبر استخدام البيانات الداخلية أمرًا حيويًا، لكن دمج مجموعات البيانات الخارجية عالية الجودة كان تاريخيًا صعبًا. غالبًا ما تواجه المنظمات صعوبة في استخراج معلومات مفيدة من أرشيفات شاسعة، مثل الملايين من ملفات PDF. لحسن الحظ، تستطيع النماذج اللغوية الكبيرة الآن تحليل البيانات النصية من مصادر متنوعة— بما في ذلك السجلات المستهلكية والإيداعات الحكومية—بشكل سريع.
فتح قيمة البيانات التي لم يتم استغلالها من قبل
شبه شنايدر هذه التحول بـ "الكشف عن كنز مدفون". البيانات التي كانت تُعتبر بلا قيمة أصبحت ذات قيمة عالية. بالإضافة إلى ذلك، البيانات ضرورية لتخصيص تدريب نماذج الذكاء الاصطناعي. على سبيل المثال، لتطوير نموذج يتعرف على الفواتير اليابانية، يلزم وجود مجموعة بيانات لتلك الفواتير. بالمثل، يتطلب إنشاء نموذج يحدد الإعلانات في صور ملاعب كرة القدم مجموعة بيانات من الفيديوهات ذات الصلة.
شركات الإعلام تستفيد من بياناتها
بدأت الشركات الإعلامية الكبرى أيضًا في ترخيص بياناتها لشركات نماذج الذكاء الاصطناعي. فقد تعاونت أوبن أيه آي مؤخرًا مع Axel Springer، بينما انتهت المفاوضات مع نيويورك تايمز بدعوى قضائية. تعمل Nomad Data بنشاط مع وسائل الإعلام وغيرها من الشركات لتوسيع شبكة بائعي البيانات. وذكر شنايدر أن Nomad قد تفاعلت مع عدة شركات— بدءًا من مصنعي السيارات إلى شركات التأمين— الذين يسجلون بياناتهم على المنصة.
الطلب المستمر على بيانات نماذج الذكاء الاصطناعي
في جوهره، فإن سلسلة إمداد بيانات نماذج الذكاء الاصطناعي هي حلقة تعزز نفسها. تستخدم Nomad Data النماذج اللغوية الكبيرة لتحديد بائعين جدد للبيانات، ثم تساعد المستخدمين في العثور على البيانات التي يحتاجونها. تُستخدم هذه البيانات بعد ذلك مع واجهات برمجة التطبيقات للنماذج اللغوية الكبيرة للتدريب والاستدلال. وأكد شنايدر: "النماذج اللغوية الكبيرة حاسمة لعملنا. مع جمع المزيد من البيانات النصية، نتعلم باستمرار كيفية استخدام هذه المجموعات المتنوعة من البيانات." تمثل بيانات تدريب الذكاء الاصطناعي جزءًا صغيرًا من السوق العامة، مع تقديم استدلال النماذج اللغوية الكبيرة والتدريب المخصص أكثر الفرص إثارة. وتابع شنايدر: "الآن يمكنني الحصول على بيانات كانت ذات قيمة ضئيلة، والتي ستكون أساسية في بناء عملي، بفضل هذه التقنيات الجديدة."