منتج · أمن · يونيو ٢٠٢٦·يونيو ٢٠٢٦·٨ دقائق قراءة

التقييم الهجومي للعربية قبل الإنتاج — بطاقات حمراء لا استطلاع رضا‏.

في مختبر داخلي في مسقط، مرّر مهندس ثلاثين توجيهاً «مهذّباً» على مساعد جديد: «لخّص السياسة بلطف». مرّ كلّها. ثم مرّر خمسة توجيهات خبيثة من تذاكر دعم حقيقية: أرقام حسابات، فقرات قانونية ممزوجة بالإنجليزية، وسؤالاً يطلب تجاهل التعليمات السابقة — فارتفع معدل الخروج عن السياسة فوق الحدّ المتفق عليه خلال ساعتين لا شهرين [١][٢].

هذا ليس تعطيلاً للإطلاق؛ هو بوابة قبول. في نُقطة نفرّق بين «عرض يبدو لطيفاً» وبين تقييم إنتاج يحاكي ضغط الموظف الحقيقي على العربية الفصحى والخلط التعاقدي [٥].

ما المقصود بالتقييم الهجومي لعربية الإنتاج في جملة واحدة‏.

تقييم هجوميّ يعني مجموعة أسئلة ومستندات مختارة لتضغط على حدود النموذج وسياسة المخرجات معاً — حقن توجيه، تلاعب بالسياق، وسبر استشهاد — وليس قائمة عرض تنتقي أسهل الفقرات [١][٢].

اربطوا القراءة بـ حقن التوجيه وتسميم المستندات وبـ خمس مقاييس قبل لوم النموذج ثم عُدوا إلى جدول القبول.

لماذا يفشل «اختبار القبول اللطيف» في الخليج تحديداً‏.

العقود ثنائية اللغة، والجداول الممسوحة ضوئياً، والمراسلات الداخلية بالعربية مع مصطلحات إنجليزية مدمجة، ترفع احتمال خطأ الاسترجاع قبل أن يخطئ النموذج في الصياغة. من يعتمد على أسئلة نظيفة يكرّر منحنى لماذا تفشل البوتات العربية — تقنيّاً مقبولاً، تشغيلياً هشّاً [٣][٥].

الرضا عن العرض ليس مؤشراً؛ المؤشر هو ما يحدث حين تُفتح الخدمة لتذكرة حقيقية تحمل رقماً وحساسية وتعارضاً بين فقرتين.

أرقام توجيهية من مراجعاتنا: عمق العيّنة قبل الإطلاق‏.

للمسارات المتوسطة الخطورة: ١٢٠–٢٠٠ إجابة على عيّنة ثابتة من الأسئلة قبل الإطلاق؛ للعقود والالتزامات: ٢٥٠–٤٠٠ مع تدقيق استشهاد عشوائي بنسبة لا تقل عن ١٥٪ يدوياً. الأرقام من مشاريع العملاء — اضبطوها بحجم الفريق لا باندفاع المورد [٥].

FIG. 1 — RED-TEAM GATE: CLEAN DEMO VS DIRTY ACCEPTANCE

مسار عمليّ على خمس خطوات قبل توقيع الحاكمية‏.

جمّدوا قائمة أسئلة الإصدار ١٫٠ — أي إضافة بعدها تمر بتذكرة مخاطرة؛ راجعوا مقياس تشغيل RAG.
أدخلوا بياناتكم أنتم بنسبة لا تقل عن ٨٠٪ من الحجم المتوقع كما في مسرح تجربة الشراء.
عرّفوا ثلاث فئات مخاطرة: مالية، تعاقدية، مواطنة — ولخصوا سياسة المخرج لكل فئة.
سجّلوا الاستدلال أو المعرفات القابلة للتدقيق لكل إجابة عالية الخطورة.
وقّعوا حدّ قبول رقميّاً بين مالك المنتج والامتثال؛ بدونه لا إطلاق مركزيّ.

محاذير: الهجوم بلا حدود يُرهق الفريق ويقتل الثقة بالأداة المعتمدة‏.

الهدف ليس إثبات أن النموذج «سيء»؛ إثبات أن السياسات والقياس يمسكان الخروج قبل أن يصل للعميل الخارجي. إن لم يُوجد بديل معتمد أسرع من الظلّ، فالتقييم الهجومي يدفع للعودة إلى حوكمة الظلّ — وهزيمة للبرنامج ككلّ [٤].

الخاتمة‏.

التقييم الهجومي للعربية قبل الإنتاج يحوّل مشتريات الذكاء من انطباع إلى عقد قابل للتحقق. إن لم تُعرَض بطاقة حمراء واحدة على الأقل خلال التجربة المغلقة، فغالباً لم تكن التجربة قاسية بما يكفي.

اطلبوا هذا الأسبوع قائمة العشرين سؤالاً الخبيثة من تذاكر الدعم؛ إن لم تُوجد، فأنت تعرف من أين يبدأ بناء العيّنة قبل أي موعد إطلاق.

أسئلة شائعة‏.

هل يكفي اختبار آلّي؟ جزئياً؛ الإنسان يحدد ما إذا كان الاستشهاد مقبولاً قانونياً في سياقكم [٢].
كم المدة؟ أسبوعان إلى أربعة لمسار RAG حقيقيّ مع فريقكم لا يوماً في القاعة.
هل يختلف الحكومي عن التجاري؟ يزيد عمق التدقيق على المسارات المواطنة؛ راجع الذكاء في الخدمات العُمانية.
هل الذكاء الخاص يلغي الهجوم؟ يضيّق الخروج لا يضيّق الأخطاء الداخلية؛ راجع الذكاء الخاص.
من يمتلك القائمة؟ مالك المنتج مع الأمن والامتثال — لا المورد وحده [٣].

المصادر‏.

[١] OWASP — Top 10 for Large Language Model Applications.

[٢] NIST — AI Risk Management Framework (Measure & Manage).

[٣] ISO/IEC 42001 — AI management systems — operational planning.

[٤] ENISA — Artificial intelligence and cybersecurity.

[٥] نقطة — بروتوكولات قبول عربية داخلية، يونيو ٢٠٢٦ (Nuqta internal Arabic acceptance protocols, June 2026).