تصميم وتفاعل
يونيو 2026 ريبورتاج تقني 7 دقائق للقراءة
الرؤية الحاسوبية تجربة المستخدم XU المحاكاة العكسية صناديق الإحاطة روبوتات فيزيائية معضلة البيانات
→ العودة إلى المقالات
شارع ليلي يظهر من خلال مرشحات الرؤية الحاسوبية للذكاء الاصطناعي مع صناديق الإحاطة الهندسية
من تجربة المستخدم (UX) إلى تجربة الآلة للمستخدم (XU)

عبر عيون الخوارزمية:
كيف يرى الذكاء الاصطناعي عالمنا المادي؟

من إعلانات آي ماك القديمة إلى صناديق الإحاطة (Bounding Boxes) ومأساة سيارات أوبر ذاتية القيادة؛ كيف تؤثر النظرة الخوارزمية التبسيطية لعالمنا على أمننا المادي وهياكلنا الاجتماعية؟

ترجمة وإعداد: أحمد فاروق  |  مصادر التصميم ورؤية الحاسوب
2002 العام الذي أطلقت فيه أبل إعلان شاشة iMac المتفاعلة مع المارة
1,000+ موظف استعانت بهم أمازون يدوياً لمراجعة وتصنيف لقطات فيديو متاجرها
5.6 ثانية المدة التي تسبق التصادم حيث اكتشفت سيارة أوبر الضحية دون تصنيفها
Umwelt البيئة الإدراكية المحدودة والخاصة بالآلة أو الحيوان
النسخة الصوتية للمقال

01 — الشاشة التي ترد البصر

يسير رجل في شارع مزدحم ليلاً، وفجأة تلتفت إليه آلة لتلقي التحية. داخل نافذة متجر مضيئة تقف شاشة Apple iMac معلقة على ذراع معدنية مرنة تعلو قاعدة مستديرة تحتوي على العتاد الصلب للحاسوب.

في هذا الإعلان الشهير لشركة أبل عام 2002، تتأرجح شاشة الكمبيوتر بطريقة معجزة لتتبع حركة الرجل أثناء مروره. يتوقف الرجل متفاجئاً؛ يتنحى جانباً فتتبعه الشاشة. يهز رأسه، فتهز الشاشة رأسها؛ يقفز فتتأرجح الشاشة صعوداً وهبوطاً. وحين يخرج لسانه متلاعباً، ينفتح درج الأقراص المدمجة للكمبيوتر استجابةً له.

كانت الرسالة واضحة تماماً: لطالما رغبنا في تقنيات تستجيب بشكل بديهي لتفاعلاتنا. ولكن مع تأملنا لشاشاتنا اليوم، يبدو السؤال ملحاً: متى ستبدأ هذه الشاشات بالنظر إلينا فعلياً؟

نحن على أعتاب تحول كبير؛ حيث لم يعد التفاعل مقتصراً على تحسين تجربة الإنسان مع الحاسوب (UX)، بل يتجه لتصميم تجربة الحاسوب مع الإنسان (XU)، ليصبح التفاعل طريقاً ذا اتجاهين يؤهل الآلات لتجربة وفهم مستخدميها.

— من وثائق تصميم الواجهات المستقبلية

02 — مفهوم المحاكاة الفيزيائية العكسية

لتسهيل التحول التكنولوجي على البشر، اعتمد مصممو الواجهات الأوائل مثل دون نورمان على تصميم "المحاكاة الفيزيائية الكلاسيكية" (Skeuomorphic Design)؛ حيث تم تمثيل عمليات الكمبيوتر الداخلية باستعارات فيزيائية مألوفة، مثل فتح الملفات عبر مجلدات موضوعة على سطح المكتب.

ولكن مع انتقال حواسيب اليوم لإدراك عالمنا المادي، تبدو الآلة وكأنها تنظر إلينا عبر "محاكاة فيزيائية عكسية" (Reverse Skeuomorphic Perception). إذ يفهم الذكاء الاصطناعي الظواهر الطبيعية والمادية المعقدة عبر إسقاط استعاراته الرقمية الخاصة.

عندما ترقب مستشعرات سيارة ذاتية القيادة الشارع، تقوم خوارزميات الرؤية الحاسوبية بتحويل البيانات الخام إلى رموز رقمية بسيطة ومربعات إحاطة هندسية (Bounding Boxes) تحيط بالمشاة والدراجات، ملصقة بها علامات نصية مثل "سيارة" أو "إنسان" لتستوعبها قاعدة البيانات.

03 — حدود التبسيط والتسريب الإدراكي

هذا التبسيط الهندسي الشديد يخلق ثغرات وعقبات هائلة في إدراك الآلات للعالم. تصف الفنانة والباحثة إليزا جياردينا بابا في كتابها "صناديق الإحاطة والتسريب الإدراكي" عملها اليدوي في تصنيف الصور لتدريب خوارزميات الذكاء الاصطناعي.

كان عليها رسم مضلعات هندسية دقيقة لفصل صورة امرأة تجلس على أريكة وتصنيفهما بشكل منفصل. تعطل النظام بالكامل عندما تماثلت الأنماط والألوان على قميص المرأة مع ألوان الأريكة؛ حيث عجزت الخوارزمية عن تحديد أين تبدأ الأريكة وأين تنتهي المرأة، لتصنفهما في فئة مشتركة ومسربة أسمتها "امرأة/أريكة".

البيئة الإدراكية للآلة (Umwelt)

كتب عالم البيولوجيا جاكوب فون أويكسكول عام 1934 عن مفهوم "البيئة الإدراكية" (Umwelt) للحيوانات، مثل القراد الذي يرى العالم فقط عبر تغيرات الضغط والحرارة والرائحة. لتطوير تفاعل حقيقي، يجب علينا ممارسة "التعاطف المعرفي" لاستيعاب البيئة الإدراكية الفريدة والمحدودة للآلة بدلاً من افتراض امتلاكها وعياً إنسانياً مماثلاً لوعينا.

04 — معارك التوافق في المتاجر والشوارع

رغم وعود الراحة المطلقة التي قدمتها شركات التقنية، مثل تقنية "فقط اخرج وصحبك معك" (Just Walk Out) من أمازون في متاجر Amazon Go لتتبع المشتريات خوارزمياً وتلقائياً، إلا أن الواقع كان مختلفاً؛ حيث أعلنت أمازون إيقاف هذا المشروع التجاري في أوائل عام 2026.

كشفت التقارير أن النظام كان هشاً للغاية؛ إذ استعانت الشركة بأكثر من 1,000 موظف يدوياً لمراجعة وتصنيف لقطات الفيديو وتصحيح الأخطاء (بمعدل 700 مراجعة بشرية لكل 1,000 عملية بيع). وكان النظام ينهار لمجرد قيام مستهلك بوضع منتج في غير مكانه المخصص على الرفوف، مما يربك كاميرات المراقبة الحساسة.

⚠ الانحيازات وهياكل التصنيف العنصرية

يواجه المساعدون الصوتيون صعوبة بالغة في فهم مستخدمي اللهجات واللكنات المختلفة، مما يضطر المستخدمين إلى "تبييض" كلامهم لتفهمه الآلة. علاوة على ذلك، كشفت مراجعة واجهات مايكروسوفت لتصنيف الوجوه تقسيم البشر إلى فئات عرقية تعيد إحياء نظريات العنصرية العلمية للقرن التاسع عشر.

05 — مقارنة واجهات الإدراك بين الإنسان والآلة

التباين بين الفهم البشري والتمثيل الحسابي للأجسام يفرض مراجعة شاملة لأساليب التصميم والأمان الفسيولوجي:

صناديق الإحاطة (Bounding Boxes) تبسيط الخوارزمية

تحيط الآلة البشر والسيارات بمستطيلات رقمية وتصنفها كرموز في قاعدة بيانات، مهملةً التداخل والتعقيد البصري للأجسام المادية.

تجربة الآلة للمستخدم (XU Design) اتجاهان للتفاعل

لم يعد التفاعل مقتصراً على تسهيل فهم الإنسان للحاسوب (UX)، بل أصبح يركز على تهيئة سلوك الإنسان والبيئة لتفهمه الآلة (XU).

فخ المحاكاة العكسية الترجمة الخوارزمية

تفهم الآلة الظواهر الطبيعية عبر إسقاط مفاهيمها الخاصة (كالملصقات وقواعد البيانات)، تماماً كفهم البشر للبرمجة عبر المجلدات.

التعاطف المعرفي والـ Umwelt فهم الآخر الرقمي

استيعاب البيئة الإدراكية الفريدة والمحدودة للآلة (Umwelt) بدلاً من افتراض امتلاكها وعياً بشرياً يماثل وعينا وتوقعاتنا.

لتجاوز هذه العقبات، يقترح باحث التفاعل توم ويليامز استخدام "علامات تطوعية ملموسة" مثل رموز QR قابلة للارتداء أو بطاقات تعريف لاسلكية (RFID)، لإعلام الآلات مباشرة بالهوية دون الخضوع لرقابة مستمرة أو تصنيف عشوائي مشوه.

06 — مأساة سيارة أوبر والتحول نحو الهياكل المفصلة

تتضح التكلفة الفادحة لأخطاء التصنيف الخوارزمية في الحادثة المأساوية التي وقعت في أريزونا عام 2018؛ عندما صدمت سيارة تجارب ذاتية القيادة لشركة أوبر المشاة إيلاين هيرزبرغ وتسببت في وفاتها أثناء عبورها الشارع ليلاً وهي تدفع دراجتها الهوائية.

رصدت مستشعرات السيارة هيرزبرغ قبل 5.6 ثانية من التصادم، لكن البرنامج فشل في تصنيفها كـ "مشاة" أو توقع مسارها؛ إذ صنفها تارة كسيارة، وتارة كجسم مجهول، وتارة كراكبة دراجة، لأن شكلها وهي تدفع الدراجة لم يتوافق مع المعايير التبسيطية المحفوظة في قاعدة بيانات النظام.

دفع هذا الحادث المؤلم شركات مثل NVIDIA وWaymo لتطوير أساليب إدراك أدق مثل "التجزئة البانورامية البصرية" (Panoptic Segmentation) لرصد الأجسام متداخلة الحدود، وتطبيق الهياكل المفصلية الرقمية (Stick-figure armatures) التي تتبع مفاصل وحركة أطراف البشر بدقة لمعرفة نواياهم بالعبور، بدلاً من حشرهم داخل صناديق إحاطة تبسيطية عمياء.