خمس مقاييس لتقييم RAG قبل لوم النموذج اللغوي.
فيصل العنقودي · المؤسس والرئيس التنفيذي
قبل أن ترفع ميزانية النموذج أو تغيّر المزود، قِس الاسترجاع والقطع والتصعيد. أغلب «الهلوسة» في الإنتاج تبدأ من المستندات والفهرس — لا من حجم الباراميترات.
مهندس في مسقط فتح تذكرة: «النموذج يكذب على سياسة الإجازات». بعد ساعتين، تبيّن أن القطعة المسترجعة كانت من نسخة قديمة PDF والمستند الجديد لم يُفعَّل فهرسته.
هذا المقال ليس دفاعاً عن نموذج بعينه. هو قائمة قياس قبل إدانة الـLLM: خمس مقاييس تربط جودة الإجابة بمسار RAG كاملاً [١][٢]. للبنية العامة راجع دليل RAG ولمزيد عن الدمج النصّي والمتجهي البحث الهجين.
المقياس ١ — معدل إصابة الاسترجاع.
لعيّنة أسئلة ثابتة، ما نسبة المرات التي يظهر فيها المقطع الذهبي ضمن أعلى k نتائج؟ بدون هذا الرقم، أي ضبط للنموذج لعبة حظ [١].
المقياس ٢ — تغطية المستندات.
كم نسبة الأسئلة التي لها إجابة فعلية داخل مجموعة المستندات المعتمدة؟ إن كانت التغطية منخفضة، فأنت تطلب من النموذج تعويضاً عن غياب المعرفة — وهذا يُسمّى مخرجات غير مؤسسة لا هلوسة عشوائية [٢].
المقياس ٣ — تضارب القطع.
عندما يُسترجع مقطعان يقولان عكساً، يميل النموذج إلى «الوسط» الخاطئ. قِس عدد حالات التضارب لكل مئة استعلام وعالجها بتقسيم أو توحيد مستند قبل لمس النموذج [٣].
إن كان المقطع المسترجع خاطئاً أو قديماً، فأذكى نموذج في العالم سيبدو كاذباً — وبإصرار.
المقياس ٤ — زمن الذيل p95.
جودة لا قيمة لها إن تجاوز زمن الاستجابة حدود القبول. راقب p95 لمسار الاسترجاع + التوليد معاً؛ الانحراف غالباً من الفهرس أو من دفعات غير مضبوطة على الخادم [٤].
المقياس ٥ — تكلفة التصعيد البشري.
ما نسبة المحادثات التي تنتهي بموظف؟ وما متوسط دقائق التصعيد؟ إن ارتفع الخط، المشكلة غالباً في السياسات والقطع لا في «قوة النموذج» [٥].
جدول قرار سريع.
الخاتمة.
اختبرنا هذه المقاييس مع أكثر من اثني عشر نموذجاً ومزوداً خلال الأشهر الماضية في نُقطة — والنتيجة المتكررة: تحسين الاسترجاع يرفع الثقة أسرع من تبديل اسم النموذج وحده.
خصص أسبوعاً لقياس الخمسة قبل أي شراء عتاد أو ترقية اشتراك. إن لم تتغير الأرقام، فأنت لا تحل مشكلة — أنت تُعيد تسميتها.
أسئلة شائعة.
- ما الحد الأدنى لعيّنة الاختبار؟ ابدأ بخمسين سؤالاً يمثلون قنواتكم الحقيقية؛ أقل من ذلك يخدعكم [١].
- هل أحتاج أدوات باهظة؟ لا؛ جدول وجداول بيانات كافية في البداية إذا ثبّتتم الوسم يدوياً.
- متى أغيّر النموذج؟ حين تكون المقاييس الخمسة مستقرة وما زال الخطأ لغوياً أو تنسيقياً — راجع الضبط مقابل البرومبت.
- كيف أربط القياس بالامتثال؟ سجّل أي استرجاع لمستندات حساسة؛ راجع PDPL.
- أين أبدأ إن كان الوقت ضيقاً؟ معدل إصابة الاسترجاع @k — لأنه يشرح نصف القصة في يوم واحد.
المصادر.
[٢] Es et al. — RAGAS: Automated Evaluation of Retrieval Augmented Generation — arXiv, 2023.
[٣] Gao et al. — Retrieval-Augmented Generation: A Survey — arXiv, 2023.
[٥] نقطة — لوحات قياس داخلية لمشاريع RAG في الخليج، أبريل ٢٠٢٦ (Nuqta internal RAG evaluation dashboards, April 2026).
مقالات ذات صلة
- البحث الهجين — الجمع بين البحث النصي والمتجهي.
هذا ليس اسم منتج على بطاقة. هذا قرار بنية: متى يحميك التطابق على الكلمات، ومتى يحميك التشابه في فضاء المتجهات، وكيف تدمجهما دون أن تضاعف التكلفة بلا مقياس.
- ما هو RAG — ولماذا بوت شركتك لا يفهم سياق عملك.
دليل عملي لـ Retrieval-Augmented Generation: كيف يقرأ البوت مستنداتك قبل أن يجيب، ولماذا هو أرخص من Fine-tuning بعشر مرات.
- ما هو الـ Fine-tuning ولماذا يختلف عن الـ Prompting.
في نصف الاجتماعات يُقال «سنُحسّن النموذج» بينما المقصود «سنعيد صياغة الجملة». الطرفان مكملان، لكنّ أحدهما يغيّر النص الذي يدخل، والآخر قد يغيّر أوزان النموذج نفسه. هذا الفصل يوضّح القرار ويحميك من دفع تكلفة التدريب دون حاجة.
- الاقتباس الوهمي — كيف تتدقيق ربط RAG بالمصادر قبل الثقة بالواجهة.
الواجهة تعرض «مرجعاً» والفقرة غير موجودة، أو المقطع مبتور، أو الصفحة خاطئة. هذا المقال يضع مسار تدقيق عمليّ قبل أن تُطلق المساعد للموظفين أو للعملاء.
- الفرق بين Inference والـ Training — من يدفع ماذا.
تدريبٌ مرةٍ — أو آلاف الساعات — يُنقَل ثقلُه مرة. استدلالٌ بلا توقف يُحوِّل تكلفة المشروع إلى سعرٍ لكلّ رمز. هذا المقال يفصل محورَ النقدين، ويمنع اختلاط «ميزانية التجربة» ب«فاتورة المنتج» [١].