تخطّي إلى المحتوى الرئيسي
← العودة إلى المجلّة
ذكاء اصطناعي · جودة · أبريل ٢٠٢٦·أبريل ٢٠٢٦·٧ دقائق قراءة

الاقتباس الوهمي — كيف تتدقيق ربط RAG بالمصادر قبل الثقة بالواجهة.

فيصل العنقودي · المؤسس والرئيس التنفيذي

الواجهة تعرض «مرجعاً» والفقرة غير موجودة، أو المقطع مبتور، أو الصفحة خاطئة. هذا المقال يضع مسار تدقيق عمليّ قبل أن تُطلق المساعد للموظفين أو للعملاء.

مدير امتثال في مسقط فتح تقريراً مُولَّداً من مساعد داخلي. بجانب الجملة ظهر رابط إلى ملف السياسة و رقم صفحة. بحث في الملف: الفقرة غير موجودة. لم يكن المدير يبحث عن خطأ؛ كان يبحث عن إمكانية التوقيع. ساعتان من التحقيق كشفتا أن القطعة المسترجعة كانت من نسخة قديمة لم تُحذف فهرستها.

الاقتباس الوهمي هنا ليس «كذباً لغوياً» فقط؛ هو كسر لسلسلة الثقة بين المنتج والامتثال. الحلّ ليس تغيير النموذج فوراً — بل تدقيق ربط الاسترجاع بالوثيقة قبل لوم الـLLM [١][٢].

ما المقصود بالاقتباس الوهمي في جملة واحدة.

الاقتباس الوهمي: إظهار مرجع يوحي بأن الجملة منسوبة لمستند محدد، بينما المستند لا يدعم الجملة عند التحقق الحرفي — إما لأن القطعة خاطئة، أو لأن التلخيص حرّف المعنى، أو لأن الملف نفسه لم يعد سارياً [٢].

لماذا يحدث هذا في العربية أكثر مما يتوقع الفريق.

تعدد الصياغات بين الفصحى والإنجليزية في نفس الوثيقة، والجداول المقطوعة أثناء الاستخراج، والعناوين الفرعية الطويلة، ترفع احتمال أن تُسترجع قطعة «قريبة معنوياً» لكنها ليست القطعة الصحيحة. راجع لماذا تفشل البوتات العربية لربط الخطأ اللغوي بخطأ الاستشهاد [٣][٥].

إن لم تتحقق من المستند، فأنت لا تملك استشهاداً — تملك زخرفة واجهة تبدو كاملاً.

مسار تدقيق على أربع طبقات.

الطبقة الأولى — مطابقة المعرف: كل إجابة تحمل معرف قطعة مستند ثابتاً. الطبقة الثانية — فتح الملف والتحقق من النصّ الحرفي. الطبقة الثالثة — سياسة إصدارات: أي ملف منتهٍ لا يبقى في الفهرس. الطبقة الرابعة — عيّنة بشرية شهرية على أسئلة عالية المخاطر [١][٤].

أرقام نستخدمها في نُقطة لتحديد عمق التدقيق.

للمخاطر المتوسطة: تدقيق بشري لـ٥٠–١٠٠ إجابة قبل الإطلاق. للعقود والسياسات: ٢٠٠–٣٠٠ إجابة على عيّنة من أسئلة العمل الحقيقية. الأرقام توجيهيةّ من مشاريعنا — اضبطها حسب حجم الفريق [٥].

محاذير: التدقيق المفرط يقتل السرعة إن لم يُؤتمت جزء منه.

لا تطلب يدوياً كل إجابة؛ اطلب يدوياً ما يمسّ التزاماً قانونياً أو مالياً. الباقي يُقاس آلياً مع تنبيه عند تعارض الدرجات بين الاسترجاع والتوليد.

الخاتمة.

الاقتباس الوهمي مسألة تشغيل RAG قبل أن تكون مسألة نموذج. اربط مقاييس RAG بتدقيق الاستشهاد، ثم قرّر الإطلاق. إن لم تُوجد قائمة أسئلة عالية المخاطر هذا الأسبوع، فأنت لا تزال تختبر الواجهة لا المنتج.

أسئلة شائعة.

  • هل يكفي عرض اسم الملف؟ لا؛ المعرف والصفحة أو الإزاحة تقلّل الجدل.
  • ماذا لو كان الملف PDF ضوئياً؟ جودة الاستخراج تصبح جزءاً من المخاطر؛ راجع بنية دليل RAG.
  • هل التلخيص يُبطّل الاستشهاد؟ قد يحرف؛ صنّف التلخيص كمخرج منخفض الثقة دون مراجعة.
  • كيف أتعامل مع النسخ المتعددة؟ سياسة إصدار واحد نشط في الفهرس.
  • من يوقع على الإطلاق؟ صاحب الصلاحية في الامتثال مع مالك المنتج — كتابة [٤].

المصادر.

[١] Lewis et al. — Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — NeurIPS 2020.

[٢] Ji et al. — Survey of Hallucination in Natural Language Generation — ACM Computing Surveys, 2023.

[٣] OWASP — LLM Top 10 (LLM07 insecure output handling).

[٤] سلطنة عُمان — قانون حماية البيانات الشخصية (٦/٢٠٢٢) — مسؤولية توثيق المعالجة.

[٥] نقطة — بروتوكولات تدقيق استشهاد داخلية لعملاء، أبريل ٢٠٢٦ (Nuqta internal citation QA protocols, April 2026).

مقالات ذات صلة

شارك المقال

← العودة إلى المجلّةنُقطة · المجلّة