جيتي إيمجز تطلق "أنظف" مجموعة بيانات بصرية لتدريب نماذج الذكاء الاصطناعي الأساسية

تلتزم Getty Images بأن تكون شريكًا موثوقًا في مجال البيانات المرتبطة بالذكاء الاصطناعي. تشتهر الشركة بتسهيل اكتشاف ومشاركة وشراء المحتوى المرئي من مجموعة عالمية من المصورين ومصممي الفيديو، وقد أعلنت مؤخرًا عن إصدار مجموعة بيانات مفتوحة عينة على منصة Hugging Face.

بينما تتوفر العديد من مجموعات البيانات المرئية على منصة Hugging Face، تؤكد Getty Images أن عرضها يتميز بموثوقية فريدة وأمان تجاري. يتيح هذا التأكيد للمطورين من الشركات دمج مجموعة البيانات في خطوط تدريب الذكاء الاصطناعي الخاصة بهم بثقة، مما يقلل من المخاوف بشأن الجودة أو التعقيدات القانونية.

كما أوضحت أندريا غاليانو، رئيسة قسم علوم البيانات والذكاء الاصطناعي/تعلم الآلة في Getty Images، “تخيل كيف يمكن تعزيز قدرات الذكاء الاصطناعي/تعلم الآلة لديك ببيانات متنوعه وعالية الجودة، المستمدة بشكل مسؤول. هذا هو ما نقدمه.”

الهدف طويل الأمد لشركة Getty هو تعزيز نظام بيئي يفضل فيه مطورو الذكاء الاصطناعي استخدام المحتوى المرخص رسميًا من منصتها لتدريب نماذجهم.

ما هي محتويات مجموعة بيانات Getty Images؟

يواجه المطورون غالبًا تحديات عند التعامل مع بيانات ذات مصادر رديئة أو جودة منخفضة أثناء تدريب نماذج الذكاء الاصطناعي/تعلم الآلة. للتغلب على ذلك، غالبًا ما يقومون بجهود مكثفة لتنظيف وتعزيز مجموعات البيانات الخاصة بهم - من خلال إزالة التكرارات والملفات التالفة والمحتوى غير ذي الصلة مثل صور المشاهير، والعلامات التجارية، والصور ذات الدقة المنخفضة، والمواد التي تفتقر إلى بيانات وصفية مناسبة.

يمكن أن تؤدي هذه العملية المستغرقة للوقت إلى عدم الكفاءة والنزاعات القانونية المحتملة، حيث قد تتسرب مواد ضارة أو محمية حقوق الطبع والنشر إلى مخرجات النماذج. تسعى مجموعة البيانات المفتوحة من Getty Images إلى التغلب على هذه العقبات من خلال تقديم مجموعة مختارة من الصور عالية الجودة في 15 فئة.

“تتضمن مجموعة البيانات العينة 3,750 صورة من فئات مثل التجريدات، والبيئات المبنية، والأعمال، والتعليم، والرعاية الصحية، والصناعة، والطبيعة، والرسوم التوضيحية، والسفر”، كما أوضحت غاليانو.

محتوى نظيف ومنسق

تأتي مجموعة البيانات حصريًا من مكتبة Getty الإبداعية، مما يضمن أن جميع الصور آمنة للاستخدام التجاري. يمكن للمطورين الاستفادة من هذه المجموعة المنسقة دون عبء التنظيف أو التعزيز، حيث تم تصميمها خصيصًا لتدريب تعلم الآلة، وتتضمن صورًا عالية الدقة وبيانات وصفية غنية ومنظمة، خالية من العناصر غير المرغوب فيها مثل المحتوى غير اللائق. تصف غاليانو هذه المجموعة بأنها “أنظف مجموعة بيانات وأعلى جودة متاحة لتدريب نماذج تعلم الآلة”.

شروط الاستخدام

بينما تتوفر مجموعة البيانات العينة للاستخدام، تضمن شروط معينة أن يتم استخدام المحتوى المرخص بشكل مسؤول في التطبيقات التجارية والبحوث الأكاديمية. تشمل القيود:

- عدم إعادة توزيع مجموعة البيانات

- عدم تطوير نماذج أو برمجيات تعيد إنتاج أو تولد محتوى مجموعة البيانات

- عدم إنشاء منتجات أو خدمات تتنافس مباشرة مع Getty Images

- عدم استخدام معرفات بيومترية مستمدة من مجموعة البيانات

- الامتثال لجميع القوانين واللوائح ذات الصلة

من خلال هذه المبادرة، تهدف Getty Images إلى جذب مجتمع المطورين، مع عرض نطاق محتواها الواسع وتأكيد موقعها كشريك موثوق للمعلومات ذات الترخيص العالي لتدريب الذكاء الاصطناعي بشكل مسؤول.

تؤكد غاليانو قائلةً: “هدفنا هو إثبات أن من الممكن تلبية متطلبات الترخيص لكل المحتوى المطلوب لتدريب نماذج الذكاء الاصطناعي الوظيفية مع احترام حقوق المبدعين”. يمكن للمطورين الذين يبحثون عن بيانات إضافية التواصل مع Getty Images للحصول على خيارات ترخيص مخصصة.

تضمن هذه المقاربة أن يتلقى المبدعون الأصليون تعويضًا سنويًا، وهو نموذج عمل طبقته Getty Images أيضًا على أداتها لإنشاء الصور بالذكاء الاصطناعي، التي تم تطويرها بالشراكة مع Nvidia.

Most people like

Find AI tools in YBX