ذكاء اصطناعي · نماذج·أبريل ٢٠٢٦·١٠ دقائق قراءة

كيف يعمل الـ Transformer — شرح بدون معادلات‏.

فيصل العنقودي · المؤسس والرئيس التنفيذي

ورقة «Attention Is All You Need» غيّرت الصناعة، لكنّها لا تُقرأ في اجتماع المنتج. هذا الشرح لمن يريد أن يفهم المحرّك دون أن يمسّ مطّاطاً: مفتاح واحد اسمه «انتباه»، يعيد ترتيب الأهمية بين الكلمات بناءً على السياق.

في غرفة المنتج، كلمة «Transformer» تُرمى كشرح كافٍ. في غرفة الهندسة، هي اسم معمارية: طريقة لتحويل تسلسل رموز إلى تنبؤ لاحق. الفصل بين الاثنين يكلف قرارات خاطئة: توقعات لا معنى لها عن «الذكاء»، وتوكيل مبالغ فيه لصندوق أسود.

هذا المقال يجيب على سؤال واحد بهدوء: ماذا يفعل الـTransformer خطوة بخطوة، بدون معادلات، وبما يكفي لتربط بين الوصف وبين ما يحدث في الاستدعاء الفعلي لنموذج لغة كبير. إن أردت الصورة التطبيقية الأوسع، اقرأ أيضاً مقال «ما هو نموذج اللغة الكبير — دليل كامل لعام ٢٠٢٦» في المجلّة.

ما المشكلة التي حلّها الـTransformer‏.

قبل الـTransformer، كان من الشائع معالجة النص كسلسلة تُقرأ من البداية إلى النهاية، خطوة بعد خطوة. هذا يناسب بعض المهام، لكنّه يضع سقفاً على المسافة بين كلمة في أول الجملة وكلمة في آخرها: المسار يطول، والإشارة تضعف.

الفكرة الجوهرية للـTransformer: تعامل مع كل الرموز معاً دفعةً واحدة داخل «نافذة»، ثم اسمح لكل موضع أن يسحب معلومة من المواضع الأخرى وفق الحاجة. لا نختصر المسألة بالهذيان عن «التوازي» فقط؛ نختصرها بعبارة واحدة: من يؤثّر على من يُقرَر من السياق، لا من الترتيب الزمني وحده [١].

من نصّ إلى أرقام: الترميز والتمثيل‏.

النموذج لا يرى حروفاً كما نراها. يقسم النص إلى وحدات رمزية (tokens)، لكلّ وحدة رقم تعريفي من جدول تدريب. ثم تُحوَّل هذه الأرقام إلى متجهات: قائمة أعداد تصف «موضع» الكلمة في فضاء عالٍ الأبعاد.

تُضاف معلومة ترتيب: أين وقعت الكلمة في الجملة؟ لأن «معنى» موضع الكلمة يختلف إن جاءت في البداية أو النهاية. بعد هذه الخطوة، عندك تمثيل رياضي قابل للمعالجة: مدخل متساوي الشكل لكل رمز داخل النافذة.

القلب: الانتباه كأوزان أهمية‏.

الانتباه (Self-Attention) فكرة بسيطة في وصفها: لكل رمز، اسأل «من بين الرموز الأخرى في هذه النافذة ينبغي أن أستعير منه الآن؟» ووزّن الإجابة. في جملة «الموظف وافق على الطلب بعد المراجعة»، قد يضع النموذج وزناً أكبر على «المراجعة» أو «الموظف» حسب ما يلزم للتنبؤ بالرمز التالي أو للمهمة المطلوبة.

لا تحتاج مصفوفات أمامك لتفهم هذا: هي آلية مطابقة وتليين. إن جُمِعت مع مسارات أخرى (رؤوس انتباه متعدّدة)، يصبح النموذج قادراً على التقاط أنواع مختلفة من العلاقات: نحوية، إشارية، بعيدة داخل الجملة.

الـTransformer لا يفهم اللغة كإنسان. يفصل بين الرموز أوزاناً تفضّل ما يخدم التنبؤ التالي وفق ما تدرّب عليه.

ما بعد الانتباه: التغذية الأمامية والطبقات‏.

بعد خطوة الانتباه، تأتي طبقة تغذية أمامية (تقريباً: تحويلات على كل موضع بشكل مستقل). تُكرَّر هذه «الكتلة» عشرات المرات في النماذج الكبيرة: انتباه ثم تغذية أمامية، ثم انتباه ثم تغذية، وهكذا. العمق يعني أن البناء يعيد ترتيب المعنى طبقة بعد طبقة، بدل أن يكون «قراراً واحداً» في السطح.

في أجهزة النماذج التوليدية (كما في GPT)، الهدف غالباً أن يخرج الطبقة الأخيرة توزيعاً على الرموز المحتملة للّاحق: أي رمز قادم هو الأكثر احتمالاً؟ هذا التنبؤ بالرمز التالي، بعد ضبط وتدريب ضخم، هو ما يبدو لنا كأسلوب ولغة وهيكل.

مخطّط التدفّق: من الرمز إلى الاحتمال‏.

FIG. 1 — DATA FLOW IN A GENERATIVE TRANSFORMER (SIMPLIFIED)

ماذا لا يشرحه الـTransformer وحده‏.

معمارية الـTransformer لا تغنيك عن بيانات التدريب والضبط والحوكمة. يمكن أن يبدو المخرج سلساً مع هلوسة. يمكن أن يبدو «محايداً» مع انحياز من البيانات. في نُقطة، نعالج ذلك باسترجاع مؤسسي، وسياسات مراجعة، وقياساً على عيناتكم أنتم لا على مثال واحد [٥].

الترميز tokenizer يقرر أين يُقسَم النص؛ وهذا له أثر ظاهر في العربية واللهجات. الفكرة المعمارية واحدة، لكن «قطعة» الكلمة تغيّر التجربة، وهذا سبب آخر لعدم الخلط بين «فهم الـTransformer» و«ضمان جودة الإخراج».

أسئلة شائعة‏.

هل الـTransformer شبكة عصبونية؟ نعم في المعنى الواسع: طبقات قابلة للتدريب تحسب من الأوزان. الفارق هو آلية الربط بين الموضع عبر الانتباه لا القناة المتسلسلة فقط.
ما الفرق بين encoder وdecoder؟ باختصار: مسارات تقسيم أدوار في بعض المعماريات؛ النماذج التوليدية العامة يهمّك فيها غالباً كيف يُفسَّر الرمز التالي لا التفريق النظري فقط.
هل أحتاج أن أحفظ «عدد الطبقات»؟ للمنتج: لا. لك القياس على مهمتك. للمهندس: تهمّك سعة الحوسبة والزمن.
لماذا تُذكر «رؤوس انتباه» متعددة؟ لأن علاقة واحدة بين الرموز لا تكفي؛ نسخ متوازية تلتقط أنماطاً مختلفة ثم تُدمَج.
هل هذا كافٍ لتشغيل نموذج خاص داخلياً؟ فهم المعمارية خطوة؛ الخطوة التالية هي البنية، الاستضافة، والسيادة على البيانات كقرار منفصل.

الخلاصة والدعوة‏.

الـTransformer ليس سحراً. هو بناء يجعل «من يؤثّر على من» قابلاً للتعلّم من البيانات على نطاق واسع. حين تفهمها بهذه الصورة، يتبدّد الكثير من اللغط في الاجتماعات، ويبقى ما يهمّ فعلاً: المهمة، القياس، والحوكمة.

في أسبوعك القادم، اختر جملة عربية طويلة ذات علاقات إشارية بين الأجزاء، وتتبّع: أي كلمة تعتمد على أي سياق قبل أن تُكمَل؟ إن توضّح هذا بلا معادلات، فقد فهمت قلب الأمر.

المصادر‏.

[١] Vaswani et al. — Attention Is All You Need — NeurIPS ٢٠١٧.

[٢] Hugging Face — NLP Course — How do Transformers work?

[٣] Google Research — The Transformer: A Novel Neural Network Architecture (announcement).

[٤] NVIDIA — Mastering LLM Techniques: Training (transformer foundations).

[٥] نقطة — ملاحظات داخلية من بناء منتجات لغوية وتدقيق مخرجات، أبريل ٢٠٢٦ (Nuqta internal notes, April 2026).