تخطّي إلى المحتوى الرئيسي
← العودة إلى المجلّة
بنية تحتية · استدلال·مايو ٢٠٢٦·٦ دقائق قراءة

ما هو KV Cache في استدلال نماذج اللغة وكيف يقرأ ميزانية الذاكرة؟.

مهندس يرفع خدمة استدلال ليرى معدّل إنتاجاً أعلى في الاختبار، ثم ينهار في الإنتاج عند سياق أطول. السبب غالباً ليس ضبطاً سيئاً — بل ضغط KV والذاكرة مع عدد الرموز والطبقات والدُفعات المتوازية [١][٢].

اربطوا هذا بـ PagedAttention وvLLM ومصفوفة GPU ومجلة نقطة.

التعريف: ماذا يُخبَّأ في الـ KV؟.

في خطوات التوليد، يحتاج النموذج إلى تمثيلات المفتاح والقيمة لكل موضع لاحتساب الانتباه. تجميعها مسبقاً يقلّل إعادة الحساب — تخزين KV [١].

القراءة الفنية وأثر الإنتاج.

تقنيات مثل PagedAttention تنظّم ذاكرة KV على هيئة صفحات لتفادي التجزئة ورفع التوازي الفعلي [٢].

«بدون حساب KV، تظن أنك واجهت مشكلة GPU؛ وأنت في الحقيقة واجهت مشكلة ذاكرة ونمط توليد.»

ضغط الذاكرة يكبر مع السياق.

في بيانات عتاد NVIDIA وممارسة الخدمة، توسيع نوافذ السياق ورفع حجم الدفعة يضغطان VRAM أسرع مما يوحي به سعر بطاقة وحدها [٣].

FIG. 2 — KV MEMORY GROWS WITH CONTEXT

مسار عملي.

ملاحظات صريحة.

التكميم والتجزئة تبدّل الحسابات مع مقايضات جودة — ليست مجانية [١][٣].

أسئلة شائعة.

  • هل KV مثل كاش المتصفح؟ فكرة مشابهة — تخزين وسيط لإعادة الاستخدام؛ الأبعاد مرتبطة بالطبقات والرموز [١].
  • لماذا يهم batch size؟ يضاعف ضغط الذاكرة عند توليد متوازي [٢].
  • هل vLLM إلزامي؟ لا — لكنه يخفف تجزئة الذاكرة [٢].
  • أطول سياق = أعلى جودة دائماً؟ غالباً لا — قد يزيد الضجيج والتكلفة [١].
  • أين الأرقام الرسمية؟ أوراق بيانات GPU ووثائق البرمجيات [٣].

المصادر.

[١] NVIDIA — وثائق تقنية الاستدلال.

[٢] vLLM — PagedAttention documentation.

[٣] NVIDIA — H100 Tensor Core GPU.

مقالات ذات صلة

  • ما هو PagedAttention وما الذي غيّره في عالم الـ LLM Serving.

    المشكلة في Serving لم تكن دائماً سرعة المعالج، بل هدر الذاكرة في KV Cache. PagedAttention غيّر اللعبة لأنه عامل الذاكرة كصفحات قابلة للتخصيص بدل مساحات متجاورة ضخمة، فقلّ الهدر وارتفعت الإنتاجية على نفس العتاد.

  • ما هو الـ vLLM ولماذا يُستخدم في الإنتاج.

    vLLM محركٌ مفتوح المصدر لخدمة نماذج اللغة: جدولة، دفعات مستمرة، وذاكرة KV مُنظّمة بـ[PagedAttention](/journal/what-is-pagedattention-llm-serving-2026). الفكرة ليست «تغليف API» فقط — بل رفع كثافة العتاد تحت حملٍ حقيقي [١].

  • الفرق بين L40S وA100 وH100 — أي بطاقة لأي مهمة.

    ليست المسألة «أقوى شريحة». المسألة مطابقة الـworkload: تدريبٌ ثقيلٌ أم استدلالٌ عالٍ أم تسريعٌ بصريٌ؟ جدولٌ واحدٌ يختصر أين تضع L40S وأين A100 وأين [H100](/journal/nvidia-h100-gpu-ai-standard-2026) — بلا تخمينٍ في العقد [١].

  • الفرق بين Inference والـ Training — من يدفع ماذا.

    تدريبٌ مرةٍ — أو آلاف الساعات — يُنقَل ثقلُه مرة. استدلالٌ بلا توقف يُحوِّل تكلفة المشروع إلى سعرٍ لكلّ رمز. هذا المقال يفصل محورَ النقدين، ويمنع اختلاط «ميزانية التجربة» ب«فاتورة المنتج» [١].

  • تشغيل نموذج لغوي في سلطنة عُمان — حساب سنة أولى بلا تهويل.

    نضع ورقة واحدة: عتاد، كولوكيشن، ضغط التيار الصناعي، فريق تشغيل، تعطل GPU وتصعيد — ثم نقارنها بمسار اشتراك واجهة يحترم حدود المعالجة وقانون عُمان لحماية البيانات الشخصية.

استكشف المحور

الذكاء الاصطناعي الخاص

النشر الخاص، السيادة، البنية التحتية، والخدمة على مستوى المؤسسة.

شارك المقال

← العودة إلى المجلّةنُقطة · المجلّة