بنية تحتية · استدلال·مايو ٢٠٢٦·٦ دقائق قراءة

ما هو KV Cache في استدلال نماذج اللغة وكيف يقرأ ميزانية الذاكرة؟‏.

مهندس يرفع خدمة استدلال ليرى معدّل إنتاجاً أعلى في الاختبار، ثم ينهار في الإنتاج عند سياق أطول. السبب غالباً ليس ضبطاً سيئاً — بل ضغط KV والذاكرة مع عدد الرموز والطبقات والدُفعات المتوازية [١][٢].

اربطوا هذا بـ PagedAttention وvLLM ومصفوفة GPU ومجلة نقطة.

التعريف: ماذا يُخبَّأ في الـ KV؟‏.

في خطوات التوليد، يحتاج النموذج إلى تمثيلات المفتاح والقيمة لكل موضع لاحتساب الانتباه. تجميعها مسبقاً يقلّل إعادة الحساب — تخزين KV [١].

القراءة الفنية وأثر الإنتاج‏.

تقنيات مثل PagedAttention تنظّم ذاكرة KV على هيئة صفحات لتفادي التجزئة ورفع التوازي الفعلي [٢].

«بدون حساب KV، تظن أنك واجهت مشكلة GPU؛ وأنت في الحقيقة واجهت مشكلة ذاكرة ونمط توليد.»

ضغط الذاكرة يكبر مع السياق‏.

في بيانات عتاد NVIDIA وممارسة الخدمة، توسيع نوافذ السياق ورفع حجم الدفعة يضغطان VRAM أسرع مما يوحي به سعر بطاقة وحدها [٣].

FIG. 2 — KV MEMORY GROWS WITH CONTEXT

مسار عملي‏.

قيسوا زمن التوليد واستهلاك VRAM وطول السياق.
أعيدوا الاختبار عند تغيير حجم الدفعة.
اقتصاديات الاستدلال مقابل التدريب للسياق المالي.

ملاحظات صريحة‏.

التكميم والتجزئة تبدّل الحسابات مع مقايضات جودة — ليست مجانية [١][٣].

أسئلة شائعة‏.

هل KV مثل كاش المتصفح؟ فكرة مشابهة — تخزين وسيط لإعادة الاستخدام؛ الأبعاد مرتبطة بالطبقات والرموز [١].
لماذا يهم batch size؟ يضاعف ضغط الذاكرة عند توليد متوازي [٢].
هل vLLM إلزامي؟ لا — لكنه يخفف تجزئة الذاكرة [٢].
أطول سياق = أعلى جودة دائماً؟ غالباً لا — قد يزيد الضجيج والتكلفة [١].
أين الأرقام الرسمية؟ أوراق بيانات GPU ووثائق البرمجيات [٣].

المصادر‏.

[١] NVIDIA — وثائق تقنية الاستدلال.

[٢] vLLM — PagedAttention documentation.

[٣] NVIDIA — H100 Tensor Core GPU.