# الفرق بين Inference والـ Training — من يدفع ماذا.


*ذكاء اصطناعي · نماذج · أبريل ٢٠٢٦ · ٧ دقائق قراءة*


تدريبٌ مرةٍ — أو آلاف الساعات — يُنقَل ثقلُه مرة. استدلالٌ بلا توقف يُحوِّل تكلفة المشروع إلى سعرٍ لكلّ رمز. هذا المقال يفصل محورَ النقدين، ويمنع اختلاط «ميزانية التجربة» ب«فاتورة المنتج» [١].

في اجتماعٍ ماليٍ يسأل أحدهم: «كم تكلفنا النموذج؟» فيُجاب من طرفٍ بسعرٍ training job، ومن آخرٍ بسعرٍ per-token في الإنتاج. الاثنان صحيحان في سياقين مختلفين. الخلط يفسد الـOpex والCapex ويصنع وعوداً بلا ميزانيّة [٤].

الاستدلال inference هو تشغيل النموذج على طلبٍ: إجابة، تلخيص، مُولّد. التدريب training هو تعديلٌ (أو بنايةٌ) أُوزانٍ بانتشارٍ عكسيٍ على دُفعاتٍ. الفريق الذي يتعامل معهما كبندٍ واحدٍ يتفاجأ حين يرتفع حجمُ الاستدلال [١]؛ راجع أيضاً [اقتصاد الـSLM](/journal/slm-local-vs-api-economics-2026) و[دليل الـLLM](/journal/what-is-llm-complete-guide-2026).


## ماذا تدفع فعلياً عند الـTraining.
تدريبٌ مسبقٌ أو ضبطٌ دقيقٌ يلتهمُ GPU ساعاتٍ — ذاكرةً عاليةً، بياناتٍ مُنظّمةً، وتكراراً على الدُفعات. تُحسبُ التكلفة ساعةً GPU أو بـcluster-hour، وتُلحقُها تخزينٌ ونسخٌ ومراجَعةٌ [٤].

ليس كلّ مؤسسةٍ «تتدرّب من الصفر»؛ لكن حتى [LoRA](/journal/what-is-lora-efficient-fine-tuning-2026) يبقى تدريباً يُنشرُ ملفاتٍ ويحتاجُ قياساً [٣].


## ماذا تدفع عند الـInference.
الاستدلال يتكرر مع كلّ مستخدمٍ: يدفع دفقُ الطلبات، وطولُ السياق، ونسبةُ ذاكرةِ الـKV، والـSLO. التسعير السحابي يرتبط بمليون رمزٍ — والإنتاج الخاص يرتبط بساعةٍ وطاقةٍ [١][٥].

لذلك «نموذجٌ مدرَّبٌ مرة» لا يعني تكلفةً صفراً: بل تحويلٌ تدريجيٌ من CAPEX/مشروعٍ إلى Opex مستمرٍ [٤].


> التدريب يشتريك سلوكاً. الاستدلال يفرض عليك فاتورةً كلما استُخدم سلوكٌ. إن أخلطت الاثنين، أخلطت ميزانيتك.


## جدل قرار: متى يرتفع وزنٌ الاستدلال في المعادلة.
- عندما يتجاوز حجمٌ الاستدلال (tokens/month) ميزةَ التفوّق من التدريب الإضافي [٥].
- عندما يتطلّب المنتجٌ زمنَ استجابةٍ منخفضاً ودفقاً — يدخل [PagedAttention](/journal/what-is-pagedattention-llm-serving-2026) وvLLM في الحساب [٢].
- عندما تنتقل بياناتٌ عبر حدوداً — يلزمٌ [PDPL وAI](/journal/oman-pdpl-2022-impact-on-ai-2026) لكلٍ تدريبٍ واستدلالٍ [٤].


## أسئلة شائعة.
- هل API يعني دائماً استدلالاً؟ نعم من زاويةٍ اقتصاديّةٍ — أنت تدفع للاستدلال (وما حوله)، لا لملكيّة الأوزان [١].
- هل التدريب أغلى؟ ليس دائماً: تدريبٌ مكثّفٌ قصيرٌ قد يَكْفى مقابل سنواتٍ من استدلالٍ عالٍ [٥].
- ماذا أضع في عقدٍ؟ افرقْ سقفٌ الاستدلالٍ (tokens) عن سقفٍ الضبطٍ (adapter updates) [٣].
- كيف أقارن عروضٍ؟ اطلبٌ نفسَ الحملٍ: tokens/sec، p95، وتكلفةٌ/token — لا اختباراتٌ غيرٌ قابلةٍ للمقارنة [٥].
- أين تساعد [مقارنة عائلات GPU](/journal/l40s-a100-h100-gpu-task-matrix-2026)؟ اختلاف الرتبة ينعكس في التدريب والاستدلال [٢].


## الخلاصة والدعوة.
افصلٌ في الجدول المالي: صفٌ لمرّةٍ تدريبٍ/ضبطٍ — وصفٌ لرموزٍ/شهريٌ للاستدلال. بلا فصلٍ تُنسبُ النجاحاتُ لمهندسٍ والفشلُ للماليّة [٤].

هذا الربع: اكتب سطراً واحداً: كمٌ ملايينٌ token/month في الإنتاج؟ — إن تجاوزتَ التقديرات، فأنت لا «تتعدّل النموذج»؛ أنت تتعلّم اقتصادَ الاستدلالٍ [٥].


## المصادر.
[١] OpenAI — API pricing (per-token, verify current). https://openai.com/api/pricing/

[٢] NVIDIA — Data center GPU product families. https://www.nvidia.com/en-us/data-center/

[٣] Hu et al. — LoRA (ICLR 2022) — arXiv. https://arxiv.org/abs/2106.09685

[٤] نقطة — قوالبٌ ماليّةٌ داخليّةٌ لمشاريعٍ مؤسّسيّةٍ، أبريلٌ ٢٠٢٦ (Nuqta internal TCO, April 2026).

[٥] Cloud vendor pricing & internal TCO practice — match to your contract tier (verify with provider).