# البحث الهجين — الجمع بين البحث النصي والمتجهي.


*ذكاء اصطناعي · استرجاع · أبريل ٢٠٢٦ · ٨ دقائق قراءة*


هذا ليس اسم منتج على بطاقة. هذا قرار بنية: متى يحميك التطابق على الكلمات، ومتى يحميك التشابه في فضاء المتجهات، وكيف تدمجهما دون أن تضاعف التكلفة بلا مقياس.

في اجتماع عن مساعد داخلي، قال أحدهم بثقة: «سنبحث بالمتجهات فقط». فسأل مهندس البيانات سؤالاً واحداً: كيف نجد رقم الحساب البنكي إذا كُتب حرفياً في الملحق دون أن يُذكر في المحادثة إلا بعبارة عامة؟ صمت قصير، ثم عاد الحديث إلى الواقع.

هنا يظهر البحث الهجين: الجمع بين البحث النصي التقليدي (sparse / lexical) والبحث المتجهي (dense / semantic) في مسار واحد يُقاس. هذا المقال يفصل المفردات، يشرح لماذا الاثنان يكملان بعضهما، ويعرض طريقة دمج شائعة دون أن يتحول العنوان إلى سحر.


## ما المقصود بالنصّي والمتجهي في جملة واحدة.
البحث النصي هنا يعني مطابقة مبنية على الرموز والفهارس المقلّلة: TF-IDF أو عائلة BM25 وأشباهها. قوته أنه يمسك التطابق الحرفي والمسمّيات الدقيقة: أرقام، رموز منتج، أسماء قانونية، وكوداً تقنياً [١].

البحث المتجهي يحوّل الاستعلام والمستندات إلى متجهات في فضاء عالٍ الأبعاد، ثم يقيس قرباً بينها. قوته أنه يمسك المرادفات والصياغات المختلفة لنفس المعنى، وهو ما يفيد حين يكتب المستخدم بلغة عميل لا بلغة وثيقة داخلية [٢].

البحث الهجين يمرّر الاستعلام عبر المسارين ثم يدمج النتائج: إما بأوزان، أو بإعادة ترتيب، أو بدمج ترتيب متكرر مثل RRF لا يتطلب معايرة معقّدة لكل استعلام [٣]؛ وتشرح منصات المتجهات العملية كيفية تشغيل المسارين معاً [٤].


## لماذا لا يكفي المتجه وحده، ولا النصّ وحده.
المتجه وحده قد يفوت التطابق الدقيق: معرفاً، رقماً، أو جملة قانونية نُسخت حرفياً. النصّ وحده قد يفوت المعنى: نفس الفكرة بصياغة مختلفة، أو سؤال بلهجة بعيدة عن صياغة السياسة.

في أنظمة RAG، الخطأ في الاسترجاع ليس «نتيجة أقل جمالاً»؛ هو مصدر هلوسة لاحق يبدو موثوقاً. لذلك نرى في نُقطة أن قرار الهجين ليس رفاهية، بل طريقة لرفع تغطية الاسترجاع وتقليل ثغرات كل مسار على حدة [٦].

- إن كانت مهمتك أرقاماً ومعرفات: ارفع وزن المسار النصّي أو أبقِه بوابة أولى.
- إن كانت مهمتك أسئلة لغوية عامة عن سياسات: المتجه غالباً يخدم، مع بقاء النصّي كشبكة أمان.
- إن كانت بياناتك عربية متنوعة الصياغة: قيّم على عيناتك؛ لا تنسخ إعدادات إنجليزية حرفياً.


> الهجين ليس «أضف متجهات فتصبح ذكياً». الهجين هو عقد تغطية: كل مسار يغطي ما يضعف فيه الآخر.


## كيف يُدمج عملياً: دمج ترتيب، أوزان، ثم إعادة ترتيب.
أسلوب شائع هو جلب قائمتين صغيرتين من كل مسار، ثم دمج الترتيب بـRRF: كل نتيجة تحصل على درجة من مرتبتها في القائمة أ وليس من درجة خام غير قابلة للمقارنة بين المسارين [٣].

أسلوب آخر: وزن ثابت أو تعلّمي بين درجة نصّية ودرجة تشابه متجه. يمنحك تحكماً مباشراً، لكنه يحتاج قياساً دورياً لأن توزيع الدرجات يتغيّر مع البيانات.

طبقة ثالثة اختيارية: إعادة ترتيب بـcross-encoder على المرشّحين القليلين لرفع الدقة قبل تمرير الفقرات إلى نموذج اللغة — مقابل تكلفة حوسبة أعلى، وهو نمط تذكره منصات البحث المختلطة في السحابة ضمن طبقات التحسين [٥].


## مخطط التدفّق: استعلام واحد، مساران، قائمة واحدة.
*[رسم: FIG. 1 — HYBRID RETRIEVAL (LEXICAL + DENSE → FUSION)]*


## مسار عمل للفرق: أربع خطوات بدل أربعين شرائح.
ابدأ بعشرين استعلاماً يمثّلون ألمك الحقيقي، وضع لكلٍّ منها «الفقرة الذهبية» المتوقعة. بدون هذه العينة، أي ضبط أوزان يبقى خرافات.

شغّل المسارين بمعزل مؤقت: ما نسبة النجاح لكلٍّ وحده؟ ثم شغّل الهجين وقِس الزيادة. إن لم ترتفع التغطية، فالمشكلة غالباً في التقطيع أو في جودة التضمين لا في «اسم الخوارزمية».

للمزيد عن سياق RAG كاملاً، راجع مقال [ما هو RAG — دليل كامل لعام ٢٠٢٦](/journal/what-is-rag-complete-guide-2026). ولأثر الذاكرة والدفعات على التشغيل بعد التوسّع، راجع [ما هو PagedAttention](/journal/what-is-pagedattention-llm-serving-2026).

- تقطيع واضح للمستندات مع حدود فقرة قابلة للاستشهاد.
- تضمين متّسق (نفس النموذج لقاعدة المستندات وللاستعلام عند المسار المتجه).
- قياس: استدعاء@k ودقة مراجعة بشرية على عينة ثابتة.
- حوكمة: سياسة عند تعارض النتيجة النصّية عن المتجهية.


## أسئلة شائعة.
- هل الهجين أبطأ دائماً؟ غالباً نعم قليلاً لأنك تشغّل مسارين؛ الفوز في التغطية والدقة يبرّر التكلفة إن قُست [٣].
- هل أحتاج نموذج تضمين ضخماً؟ ليس دائماً؛ أحياناً يكفي نموذج أصغر مع تقطيع جيد وهجين قوي.
- هل RRF أفضل من الأوزان؟ أسهل انطلاقاً حين تختلف مقاييس المسارين؛ الأوزان مفيدة حين لديك قياس مستمر.
- ماذا عن العربية؟ جودة التقطيع والتطبيع تؤثر على المسارين؛ لا تعتبر المتجه «حلاً سحرياً» للغة.
- هل يستبدل الهجين بحث Google العام؟ لا؛ هذا مسار داخل منتجك أو كتالوجك المعرفي.


## الخلاصة والدعوة.
البحث الهجين — الجمع بين البحث النصي والمتجهي — هو أداة لرفع تغطية الاسترجاع في أنظمة تعتمد على مستندات حقيقية. ليس عنوان تسويق، بل عقد بين مسارين مختلفيين الفشل فيهما.

اختر عشرين استعلاماً هذا الأسبوع، وقِس المسارين منفصلين ثم الهجين. إن لم يتغيّر استدعاء@٥ بشكل يمكن شرحه لمديرك، فأنت لا تزال في مرحلة «شراء متجهات» لا مرحلة منتج — وأنت تعرف من أين يبدأ العمل.


## المصادر.
[١] Manning، Raghavan، Schütze — Introduction to Information Retrieval (فصل الترتيب الإحصائي وBM25) — Cambridge University Press، ٢٠٠٨ (معاد على الويب عبر Stanford NLP). https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

[٢] Lewis et al. — Dense Passage Retrieval for Open-Domain Question Answering — EMNLP ٢٠٢٠. https://arxiv.org/abs/2004.04906

[٣] Elastic — Reciprocal rank fusion (RRF) retriever — Elasticsearch documentation. https://www.elastic.co/guide/en/elasticsearch/reference/current/rrf-retriever.html

[٤] Pinecone — Hybrid search — Pinecone docs. https://docs.pinecone.io/guides/search/hybrid-search

[٥] Microsoft Learn — Hybrid search in Azure AI Search — Microsoft. https://learn.microsoft.com/en-us/azure/search/hybrid-search-overview

[٦] نقطة — ملاحظات داخلية من نشر استرجاع ومقارنات مسارات، أبريل ٢٠٢٦ (Nuqta internal retrieval benchmarks, April 2026).
