التقييم الهجومي للعربية قبل الإنتاج — بطاقات حمراء لا استطلاع رضا.
في مختبر داخلي في مسقط، مرّر مهندس ثلاثين توجيهاً «مهذّباً» على مساعد جديد: «لخّص السياسة بلطف». مرّ كلّها. ثم مرّر خمسة توجيهات خبيثة من تذاكر دعم حقيقية: أرقام حسابات، فقرات قانونية ممزوجة بالإنجليزية، وسؤالاً يطلب تجاهل التعليمات السابقة — فارتفع معدل الخروج عن السياسة فوق الحدّ المتفق عليه خلال ساعتين لا شهرين [١][٢].
هذا ليس تعطيلاً للإطلاق؛ هو بوابة قبول. في نُقطة نفرّق بين «عرض يبدو لطيفاً» وبين تقييم إنتاج يحاكي ضغط الموظف الحقيقي على العربية الفصحى والخلط التعاقدي [٥].
ما المقصود بالتقييم الهجومي لعربية الإنتاج في جملة واحدة.
تقييم هجوميّ يعني مجموعة أسئلة ومستندات مختارة لتضغط على حدود النموذج وسياسة المخرجات معاً — حقن توجيه، تلاعب بالسياق، وسبر استشهاد — وليس قائمة عرض تنتقي أسهل الفقرات [١][٢].
اربطوا القراءة بـ حقن التوجيه وتسميم المستندات وبـ خمس مقاييس قبل لوم النموذج ثم عُدوا إلى جدول القبول.
لماذا يفشل «اختبار القبول اللطيف» في الخليج تحديداً.
العقود ثنائية اللغة، والجداول الممسوحة ضوئياً، والمراسلات الداخلية بالعربية مع مصطلحات إنجليزية مدمجة، ترفع احتمال خطأ الاسترجاع قبل أن يخطئ النموذج في الصياغة. من يعتمد على أسئلة نظيفة يكرّر منحنى لماذا تفشل البوتات العربية — تقنيّاً مقبولاً، تشغيلياً هشّاً [٣][٥].
الرضا عن العرض ليس مؤشراً؛ المؤشر هو ما يحدث حين تُفتح الخدمة لتذكرة حقيقية تحمل رقماً وحساسية وتعارضاً بين فقرتين.
أرقام توجيهية من مراجعاتنا: عمق العيّنة قبل الإطلاق.
للمسارات المتوسطة الخطورة: ١٢٠–٢٠٠ إجابة على عيّنة ثابتة من الأسئلة قبل الإطلاق؛ للعقود والالتزامات: ٢٥٠–٤٠٠ مع تدقيق استشهاد عشوائي بنسبة لا تقل عن ١٥٪ يدوياً. الأرقام من مشاريع العملاء — اضبطوها بحجم الفريق لا باندفاع المورد [٥].
مسار عمليّ على خمس خطوات قبل توقيع الحاكمية.
- جمّدوا قائمة أسئلة الإصدار ١٫٠ — أي إضافة بعدها تمر بتذكرة مخاطرة؛ راجعوا مقياس تشغيل RAG.
- أدخلوا بياناتكم أنتم بنسبة لا تقل عن ٨٠٪ من الحجم المتوقع كما في مسرح تجربة الشراء.
- عرّفوا ثلاث فئات مخاطرة: مالية، تعاقدية، مواطنة — ولخصوا سياسة المخرج لكل فئة.
- سجّلوا الاستدلال أو المعرفات القابلة للتدقيق لكل إجابة عالية الخطورة.
- وقّعوا حدّ قبول رقميّاً بين مالك المنتج والامتثال؛ بدونه لا إطلاق مركزيّ.
محاذير: الهجوم بلا حدود يُرهق الفريق ويقتل الثقة بالأداة المعتمدة.
الهدف ليس إثبات أن النموذج «سيء»؛ إثبات أن السياسات والقياس يمسكان الخروج قبل أن يصل للعميل الخارجي. إن لم يُوجد بديل معتمد أسرع من الظلّ، فالتقييم الهجومي يدفع للعودة إلى حوكمة الظلّ — وهزيمة للبرنامج ككلّ [٤].
الخاتمة.
التقييم الهجومي للعربية قبل الإنتاج يحوّل مشتريات الذكاء من انطباع إلى عقد قابل للتحقق. إن لم تُعرَض بطاقة حمراء واحدة على الأقل خلال التجربة المغلقة، فغالباً لم تكن التجربة قاسية بما يكفي.
اطلبوا هذا الأسبوع قائمة العشرين سؤالاً الخبيثة من تذاكر الدعم؛ إن لم تُوجد، فأنت تعرف من أين يبدأ بناء العيّنة قبل أي موعد إطلاق.
أسئلة شائعة.
- هل يكفي اختبار آلّي؟ جزئياً؛ الإنسان يحدد ما إذا كان الاستشهاد مقبولاً قانونياً في سياقكم [٢].
- كم المدة؟ أسبوعان إلى أربعة لمسار RAG حقيقيّ مع فريقكم لا يوماً في القاعة.
- هل يختلف الحكومي عن التجاري؟ يزيد عمق التدقيق على المسارات المواطنة؛ راجع الذكاء في الخدمات العُمانية.
- هل الذكاء الخاص يلغي الهجوم؟ يضيّق الخروج لا يضيّق الأخطاء الداخلية؛ راجع الذكاء الخاص.
- من يمتلك القائمة؟ مالك المنتج مع الأمن والامتثال — لا المورد وحده [٣].
المصادر.
[١] OWASP — Top 10 for Large Language Model Applications.
[٢] NIST — AI Risk Management Framework (Measure & Manage).
[٣] ISO/IEC 42001 — AI management systems — operational planning.
[٤] ENISA — Artificial intelligence and cybersecurity.
[٥] نقطة — بروتوكولات قبول عربية داخلية، يونيو ٢٠٢٦ (Nuqta internal Arabic acceptance protocols, June 2026).
مقالات ذات صلة
- حقن التوجيه وتسميم مجموعة المستندات — ثغرة RAG التي يلطّفها العرض.
مستند يبدو عادياً يخفي تعليمات تخرج النموذج عن السياسة، أو تسرّب محتوى من فهرس آخر. هذا ليس خيالاً؛ هو نموذج هجوم واقعيّ يتطلب دفاعاً تشغيلياً لا شعاراً تسويقياً.
- خمس مقاييس لتقييم RAG قبل لوم النموذج اللغوي.
قبل أن ترفع ميزانية النموذج أو تغيّر المزود، قِس الاسترجاع والقطع والتصعيد. أغلب «الهلوسة» في الإنتاج تبدأ من المستندات والفهرس — لا من حجم الباراميترات.
- تقييم نماذج اللغة للعربية قبل توقيع عقد تنفيذ.
قبل اسم النموذج على ورقة الشراء ثلاث مهام ومائتا مثيل وعتبة قبول رقمية — حتى لا تصبح العربية الذريعة بعد فشل عيّنة نظيفة
- مناقصات الذكاء الاصطناعي الحكومية في الخليج: كيف تكتب شروطاً مرجعية لا تُنتج مسرح تجارب.
المجلّد التقني السميك لا يمنع فشل السنة الأولى؛ الذي يمنعه هو شروط مرجعية تقيس البيانات والامتثال والقبول قبل فتح المظاريف. هذا المقال يضع بوابة TOR يمكن لجنة فنية الدفاع عنها أمام المورد والمراجع الخارجي على السواء.
- سلسلة توريد نموذج الذكاء — من أين جاء الوزن ومن يوقع عند الثغرة.
النموذج ليس ملفاً مجرداً؛ هو منتج يمرّ بمرايا، وبناء، وتوقيع رقمي، وتحديثات أمنية. هذا المقال يضع قائمة تحقق تشغيلية لفرق الأمن والامتثال في الخليج قبل أن يُمنح المسار الإنتاجي اسم «معتمد».