رأي | الثلاثاء 27 فبراير 2024 - 22:01

عصام واعيس: عَصْرُ “سُورا”

ص ص

يوم 15 فبراير 2024 خرج مارد جديد من قمقم الذكاء الاصطناعي. وُلدت “سورا” (Sora). “سورا” أداة يمكنها إنتاج مشاهد فيديو في مثل جودة مشاهد الأفلام التي تنتجها كبريات شركات الإنتاج السينمائي في العالم، مع فارق بسيط: لإنتاج تلك المشاهد السينمائية لا تحتاج “سورا” إلى البحث عن مكان للتصوير (يمكنها محاكاة طبيعة ورزازات بإتقان) ولا إلى ممثلين ولا مسؤول ديكور ولا مصممي ملابس وإكسسوارات ولا خبراء إضاءة وكهرباء وفناني مؤثرات خاصة، وبشكل عام لا تحتاج لفريق إنتاج، وأكيد لا تحتاج لأي دعم من المركز السينمائي المغربي!

“سورا” تحتاج فقط إلى سيناريست موهوب ينقل إليها الصور والمشاهد التي تزدحم في مخيّلته بدقة عالية، لتمده بمشاهد جاهزة. وفي حال كان لسانك لا يبين في الوصف، ف”سورا” تستخدم تلقائيا زميلها “تشات جي بي تي” لحل عقدة البيان، حيث يتولّى “جي بي تي” الاستفاضة في كلامك. والنتيجة مشاهد حقيقية بالمؤثرات التي تريد. كيف تفعل “سورا” كل هذا؟

استلهمت “أوبن إي آي”، الشركة الأمريكية التي تقف وراء عجائب الذكاء الاصطناعي العام (AGI)، هندسة “سورا” من “النماذج اللغوية العريضة، والنماذج اللغوية العريضة نماذج لغوية رقمية قادرة على فهم لغة البشر والتحدث بها بطلاقة والتنبؤ بالجملة المقبلة من نص أو الكلمة الناقصة فيه، وذلك نتيجة لافتراسها الكثير الكثير من الكتب والروايات والمعاجم والمقالات والنصوص منذ ظهور الكتابة إلى ما يشبه اختفاءها!

لتفهم هذه النماذج اللغوية المثال العربي “وراء الأكمة ما وراءها” تحتاج إلى قراءة الأكمة في صلة مع “وراء” و”ما” و”وراءها”، أي أن تقرأها دفعة واحدة، فتفهم السياق والمعنى ومواقع الكلمات من بعضها. لتفعل ذلك تستخدم آلية تستطيع التقاط المثال كاملا وليس بالتتابع، أي آلية لا تقرأ “وراء” ثم “الأكمة” ثم “ما” ثم “وراءها” وتحاول استخراج الصلة بين الكلمات، وإنما آلية تتعامل مع المثال كأنه كلمة واحدة، وتحول ألفاظه إلى رموز (tokens) دفعة واحدة (“وراء” – “الأكمة” – “ما”..) ثم إلى أرقام (7.0 – 0.3 – 4..) ثم ترصّها في وحدات متقاربة من المعنى جنب أمثال أخرى مسجلة لديها (عاد بخفيّ حنين، إياك أعني واسمعي يا جارة..). ولتفهم جيدا استخدام المثال تحتاج أن تقرأه في الفقرة التي ورد فيها، وهو ما تفعله أيضا بالطريقة نفسها أي تلتقط الفقرة كلها وترصها جنب فقرات أخرى، وتفعل هذا مع ملايين النصوص. هذا باختصار شديد.

“أوبن إي آي” تطبق هذه الطريقة في تدريب “سورا”، فقط بدل الرموز (Tokens) تقوم بتفتيت الفيديوهات إلى لقطات صغيرة جدا أو “رقع بصرية” (Visual patches) وتدرّب “سورا” على فهم خصائصها وطريقة تواردها وأحجامها ومكوناتها وصفّها مع بعض في وحدات من المعاني. كما تدرّبها على كميات هائلة من “الرقع”، وعلى نسخ رديئة وأخرى عالية الجودة منها، ولقطات مشوشة وأخرى واضحة من الفيديوهات، لتعزز قدراتها على إزالة التشويش والتنبؤ بالصور الأصلية.

وطبعا كل الفيديوهات التي “تشاهدها” “سورا” تقرأ معها في الوقت نفسه “أوصافها” عبر أداة ذكاء اصطناعي أخرى متخصصة في كتابة “توصيفات” (captions) عالية الدقة لكل الفيديوهات، ولكل جزء من أجزاء تلك الفيديوهات، وهي الأداة نفسها التي تقف وراء إبداعات “دالي 3″، الرسّام الرقمي العالمي.

هذه صورة عامة جدا عن طريقة اشتغال هذه الأداة، من باب كسر الانبهار لصالح بعض الفهم. “سورا” حاليا تتعرّض لهجمات الفرق الحمراء (Red Teamers) وهي فرق مكلفة بكشف الثغرات الأمنية والأخطار السيبرانية. وفتحتها “أوبن إي آي” أمام عيّنة مختارة من المصممين وصناع الأفلام والمختصين في الفنون البصرية. تقول “أوبن إي آي” إنها ستتخذ إجراءات أمان هامة قبل إتاحتها للجميع بما في ذلك عرضها على صناع القرار والأساتذة والفنانين والاستماع لهواجسهم بشأنها و”تحديد الاستعمالات الإيجابية لهذه التكنولوجيا”…

في العمق، نحن أمام واحدة من أخطر “الابتكارات المزعزعة” (Disruptive Innovation) التي تعد بميلاد عصر ثانٍ للصورة، يعتمد “الذكاء الاصطناعي العام” (AGI)، وأمام شركات تمعن في إطلاق الوحوش وحشا تلو الآخر، ثم تترك الدول والمجتمعات تركض وراءها من أجل ضبطها وتدجينها..