ذكاء اصطناعي · تشغيل·أبريل ٢٠٢٦·٨ دقائق قراءة

خمس مقاييس لتقييم RAG قبل لوم النموذج اللغوي‏.

فيصل العنقودي · المؤسس والرئيس التنفيذي

قبل أن ترفع ميزانية النموذج أو تغيّر المزود، قِس الاسترجاع والقطع والتصعيد. أغلب «الهلوسة» في الإنتاج تبدأ من المستندات والفهرس — لا من حجم الباراميترات.

مهندس في مسقط فتح تذكرة: «النموذج يكذب على سياسة الإجازات». بعد ساعتين، تبيّن أن القطعة المسترجعة كانت من نسخة قديمة PDF والمستند الجديد لم يُفعَّل فهرسته.

هذا المقال ليس دفاعاً عن نموذج بعينه. هو قائمة قياس قبل إدانة الـLLM: خمس مقاييس تربط جودة الإجابة بمسار RAG كاملاً [١][٢]. للبنية العامة راجع دليل RAG ولمزيد عن الدمج النصّي والمتجهي البحث الهجين.

المقياس ١ — معدل إصابة الاسترجاع‏.

لعيّنة أسئلة ثابتة، ما نسبة المرات التي يظهر فيها المقطع الذهبي ضمن أعلى k نتائج؟ بدون هذا الرقم، أي ضبط للنموذج لعبة حظ [١].

المقياس ٢ — تغطية المستندات‏.

كم نسبة الأسئلة التي لها إجابة فعلية داخل مجموعة المستندات المعتمدة؟ إن كانت التغطية منخفضة، فأنت تطلب من النموذج تعويضاً عن غياب المعرفة — وهذا يُسمّى مخرجات غير مؤسسة لا هلوسة عشوائية [٢].

المقياس ٣ — تضارب القطع‏.

عندما يُسترجع مقطعان يقولان عكساً، يميل النموذج إلى «الوسط» الخاطئ. قِس عدد حالات التضارب لكل مئة استعلام وعالجها بتقسيم أو توحيد مستند قبل لمس النموذج [٣].

إن كان المقطع المسترجع خاطئاً أو قديماً، فأذكى نموذج في العالم سيبدو كاذباً — وبإصرار.

المقياس ٤ — زمن الذيل p95‏.

جودة لا قيمة لها إن تجاوز زمن الاستجابة حدود القبول. راقب p95 لمسار الاسترجاع + التوليد معاً؛ الانحراف غالباً من الفهرس أو من دفعات غير مضبوطة على الخادم [٤].

المقياس ٥ — تكلفة التصعيد البشري‏.

ما نسبة المحادثات التي تنتهي بموظف؟ وما متوسط دقائق التصعيد؟ إن ارتفع الخط، المشكلة غالباً في السياسات والقطع لا في «قوة النموذج» [٥].

جدول قرار سريع‏.

FIG. 1 — RAG DEBUG: WHICH LAYER TO FIX FIRST

الخاتمة‏.

اختبرنا هذه المقاييس مع أكثر من اثني عشر نموذجاً ومزوداً خلال الأشهر الماضية في نُقطة — والنتيجة المتكررة: تحسين الاسترجاع يرفع الثقة أسرع من تبديل اسم النموذج وحده.

خصص أسبوعاً لقياس الخمسة قبل أي شراء عتاد أو ترقية اشتراك. إن لم تتغير الأرقام، فأنت لا تحل مشكلة — أنت تُعيد تسميتها.

أسئلة شائعة‏.

ما الحد الأدنى لعيّنة الاختبار؟ ابدأ بخمسين سؤالاً يمثلون قنواتكم الحقيقية؛ أقل من ذلك يخدعكم [١].
هل أحتاج أدوات باهظة؟ لا؛ جدول وجداول بيانات كافية في البداية إذا ثبّتتم الوسم يدوياً.
متى أغيّر النموذج؟ حين تكون المقاييس الخمسة مستقرة وما زال الخطأ لغوياً أو تنسيقياً — راجع الضبط مقابل البرومبت.
كيف أربط القياس بالامتثال؟ سجّل أي استرجاع لمستندات حساسة؛ راجع PDPL.
أين أبدأ إن كان الوقت ضيقاً؟ معدل إصابة الاسترجاع @k — لأنه يشرح نصف القصة في يوم واحد.

المصادر‏.

[١] Lewis et al. — Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — NeurIPS 2020 / arXiv.

[٢] Es et al. — RAGAS: Automated Evaluation of Retrieval Augmented Generation — arXiv, 2023.

[٣] Gao et al. — Retrieval-Augmented Generation: A Survey — arXiv, 2023.

[٤] Kwon et al. — Efficient Memory Management for Large Language Model Serving with PagedAttention (vLLM) — SOSP 2023 / arXiv.

[٥] نقطة — لوحات قياس داخلية لمشاريع RAG في الخليج، أبريل ٢٠٢٦ (Nuqta internal RAG evaluation dashboards, April 2026).