يمثل الروبوت الخيالي فولتورن، من السلسلة الكرتونية التي تحمل نفس الاسم، قوة دمج عدة أسود روبوتية في كيان واحد قوي قادر على تحقيق إنجازات عظيمة. أطلقت فولتورن داتا في عام 2022 برأس مال قدره 110 ملايين دولار، وتهدف إلى استغلال تقنيات مفتوحة المصدر، مثل أباتشي آرو وأباتشي باركيت وإيبس، لتعزيز الوصول إلى البيانات. اليوم، أعلنت فولتورن داتا عن محرك الاستعلام الموزع "ثيسيوس"، المصمم لتسريع استعلامات البيانات بشكل كبير لتلبية احتياجات العمل الجاد في مجال الذكاء الاصطناعي.
تم هندسة "ثيسيوس" لتحسين تدفقات البيانات الكبيرة واستعلاماتها من خلال الاستفادة من معالجات الرسوميات (GPUs) وغيرها من مسرعات الأجهزة. قال جوش باترسون، المؤسس المشارك والمدير التنفيذي لشركة فولتورن داتا، في مقابلة حصرية: "بنيت ثيسيوس على نفس المبادئ التي قادت مبادراتنا مفتوحة المصدر - مكتبات مرنة وقابلة للتكوين تسهم في تحسين أنظمة البيانات." وأضاف: "هذه هي الخطوة التالية لنا لتصبح رائدين في تصميم وبناء أنظمة بيانات متقدمة."
ثيسيوس: مصمم للتعامل مع كميات ضخمة من البيانات
تم تصميم "ثيسيوس" لتنفيذ استعلامات موزعة على مجموعات بيانات كبيرة تصل إلى 10 تيرابايت أو أكثر، مستهدفًا المؤسسات التي تحتاج إلى معالجة بيانات بمقياس بيتابايت، بما في ذلك شركات فورتشن 500، والوكالات الحكومية، وصناديق التحوط، وقطاع الاتصالات، وشركات الترفيه الإعلامي.
أحد الأهداف الرئيسية لـ "ثيسيوس" هو تسريع عمليات استخراج البيانات وتحويلها وتحميلها (ETL) وهندسة الميزات، مما يمكّن من دمج البيانات بشكل أسرع في نظم الذكاء الاصطناعي والتحليلات. مع تطور نظم الذكاء الاصطناعي، تزداد الحاجة إلى تحويل البيانات في الوقت الحقيقي. أوضح باترسون: "لقد أشار مستخدمونا إلى أن أكبر مشكلة يواجهونها هي عدم تزويد نظم الذكاء الاصطناعي بسرعة كافية."
واجهت الاستعلامات التقليدية قيودًا بسبب أداء المعالج المركزي (CPU)، لكن "ثيسيوس" يتجاوز تقنيات CPU القياسية من خلال الاستفادة من الحوسبة المعجلة، بما في ذلك معالجات الرسوميات. وصف باترسون "ثيسيوس" بأنه "مناسب للمسرعات"، وتم تحسينه للاستفادة الكاملة من تقنيات مثل معالجات Nvidia وحلول الشبكات والتخزين المتقدمة.
تتيح هذه المقاربة تسريع "ثيسيوس" لتنفيذ الاستعلامات بشكل أسرع من المحركات المعتمدة على CPU التقليدية مثل أباتشي سبارك.
تطبيقات الذكاء الاصطناعي مع ثيسيوس
تعد تحسين معلمات النموذج أحد التطبيقات المهمة لـ "ثيسيوس"، حيث يمكن للمؤسسات معالجة عدد كبير من المعلمات بكفاءة في هندسة الميزات، مما يمكّنها من تحسين مدخلات النماذج بشكل أفضل. وأشار باترسون: "كلما أسرعت في تنفيذ عمليات هندسة الميزات وETL، كانت بياناتك أكثر حداثة وكانت نماذجك أفضل."
التشغيل البيني في صميمه
يعتمد "ثيسيوس" على معايير مفتوحة مثل أباتشي آرو وأباتشي باركيت وإيبس لضمان التشغيل البيني. أوضح باترسون: "ليس نظامًا مغلقًا، يمكن استعلام أي بحيرة بيانات متوافقة مع أباتشي آرو باستخدام ثيسيوس." تتيح البنية المعمارية دمج البيانات بسلاسة مع مجموعة متنوعة من أدوات وأطر التعلم الآلي الشهيرة، بما في ذلك بايثورك وتينسر فلو.
"لقد أنشأنا طريقة بسيطة لنقل البيانات داخل أنظمتنا وخارجها"، أضاف باترسون. "ثيسيوس" هو في جوهره محرك استعلام موزع ولا يتضمن واجهته الخاصة. بدلاً من ذلك، يستخدم استعلامات SQL وإيبس، مما يمكّن من دمج سهل مع الأنظمة وأعمال الواجهة الأمامية الموجودة.
الشراكات والمبادرات المستقبلية
تدخل فولتورن داتا السوق مع "ثيسيوس" من خلال شراكات استراتيجية، بدءًا مع هيوليت باكارد إنتربرايز (HPE). ستدمج هذه الشراكة "ثيسيوس" ضمن منصة HPE GreenLake السحابية الهجينة، التي توفر البنية التحتية اللازمة مع السماح للعملاء بتوحيد الاستعلامات عبر محركات مختلفة باستخدام إيبس.
وفيما يتعلق بالمستقبل، أشار باترسون إلى أن فولتورن داتا تهدف إلى توسيع شراكات "ثيسيوس" وتعزيز وظائفه، بما في ذلك الوظائف المعرفة من قبل المستخدمين. سيكون التركيز في عام 2024 على تبسيط التكامل ضمن خطوط البيانات الضخمة الشاملة. اختتم باترسون قائلاً: "هدفنا هو جعل الاتصال بأجزاء مختلفة من خط أنابيب علم البيانات أسرع وأسهل، مما يمكّن المستخدمين في هذه العملية."