ذكاء اصطناعي · نماذج·أبريل ٢٠٢٦·٧ دقائق قراءة

الفرق بين Inference والـ Training — من يدفع ماذا‏.

فيصل العنقودي · المؤسس والرئيس التنفيذي

تدريبٌ مرةٍ — أو آلاف الساعات — يُنقَل ثقلُه مرة. استدلالٌ بلا توقف يُحوِّل تكلفة المشروع إلى سعرٍ لكلّ رمز. هذا المقال يفصل محورَ النقدين، ويمنع اختلاط «ميزانية التجربة» ب«فاتورة المنتج» [١].

في اجتماعٍ ماليٍ يسأل أحدهم: «كم تكلفنا النموذج؟» فيُجاب من طرفٍ بسعرٍ training job، ومن آخرٍ بسعرٍ per-token في الإنتاج. الاثنان صحيحان في سياقين مختلفين. الخلط يفسد الـOpex والCapex ويصنع وعوداً بلا ميزانيّة [٤].

الاستدلال inference هو تشغيل النموذج على طلبٍ: إجابة، تلخيص، مُولّد. التدريب training هو تعديلٌ (أو بنايةٌ) أُوزانٍ بانتشارٍ عكسيٍ على دُفعاتٍ. الفريق الذي يتعامل معهما كبندٍ واحدٍ يتفاجأ حين يرتفع حجمُ الاستدلال [١]؛ راجع أيضاً اقتصاد الـSLM ودليل الـLLM.

ماذا تدفع فعلياً عند الـTraining‏.

تدريبٌ مسبقٌ أو ضبطٌ دقيقٌ يلتهمُ GPU ساعاتٍ — ذاكرةً عاليةً، بياناتٍ مُنظّمةً، وتكراراً على الدُفعات. تُحسبُ التكلفة ساعةً GPU أو بـcluster-hour، وتُلحقُها تخزينٌ ونسخٌ ومراجَعةٌ [٤].

ليس كلّ مؤسسةٍ «تتدرّب من الصفر»؛ لكن حتى LoRA يبقى تدريباً يُنشرُ ملفاتٍ ويحتاجُ قياساً [٣].

ماذا تدفع عند الـInference‏.

الاستدلال يتكرر مع كلّ مستخدمٍ: يدفع دفقُ الطلبات، وطولُ السياق، ونسبةُ ذاكرةِ الـKV، والـSLO. التسعير السحابي يرتبط بمليون رمزٍ — والإنتاج الخاص يرتبط بساعةٍ وطاقةٍ [١][٥].

لذلك «نموذجٌ مدرَّبٌ مرة» لا يعني تكلفةً صفراً: بل تحويلٌ تدريجيٌ من CAPEX/مشروعٍ إلى Opex مستمرٍ [٤].

التدريب يشتريك سلوكاً. الاستدلال يفرض عليك فاتورةً كلما استُخدم سلوكٌ. إن أخلطت الاثنين، أخلطت ميزانيتك.

جدل قرار: متى يرتفع وزنٌ الاستدلال في المعادلة‏.

عندما يتجاوز حجمٌ الاستدلال (tokens/month) ميزةَ التفوّق من التدريب الإضافي [٥].
عندما يتطلّب المنتجٌ زمنَ استجابةٍ منخفضاً ودفقاً — يدخل PagedAttention وvLLM في الحساب [٢].
عندما تنتقل بياناتٌ عبر حدوداً — يلزمٌ PDPL وAI لكلٍ تدريبٍ واستدلالٍ [٤].

أسئلة شائعة‏.

هل API يعني دائماً استدلالاً؟ نعم من زاويةٍ اقتصاديّةٍ — أنت تدفع للاستدلال (وما حوله)، لا لملكيّة الأوزان [١].
هل التدريب أغلى؟ ليس دائماً: تدريبٌ مكثّفٌ قصيرٌ قد يَكْفى مقابل سنواتٍ من استدلالٍ عالٍ [٥].
ماذا أضع في عقدٍ؟ افرقْ سقفٌ الاستدلالٍ (tokens) عن سقفٍ الضبطٍ (adapter updates) [٣].
كيف أقارن عروضٍ؟ اطلبٌ نفسَ الحملٍ: tokens/sec، p95، وتكلفةٌ/token — لا اختباراتٌ غيرٌ قابلةٍ للمقارنة [٥].
أين تساعد مقارنة عائلات GPU؟ اختلاف الرتبة ينعكس في التدريب والاستدلال [٢].

الخلاصة والدعوة‏.

افصلٌ في الجدول المالي: صفٌ لمرّةٍ تدريبٍ/ضبطٍ — وصفٌ لرموزٍ/شهريٌ للاستدلال. بلا فصلٍ تُنسبُ النجاحاتُ لمهندسٍ والفشلُ للماليّة [٤].

هذا الربع: اكتب سطراً واحداً: كمٌ ملايينٌ token/month في الإنتاج؟ — إن تجاوزتَ التقديرات، فأنت لا «تتعدّل النموذج»؛ أنت تتعلّم اقتصادَ الاستدلالٍ [٥].

المصادر‏.

[١] OpenAI — API pricing (per-token, verify current).

[٢] NVIDIA — Data center GPU product families.

[٣] Hu et al. — LoRA (ICLR 2022) — arXiv.

[٤] نقطة — قوالبٌ ماليّةٌ داخليّةٌ لمشاريعٍ مؤسّسيّةٍ، أبريلٌ ٢٠٢٦ (Nuqta internal TCO, April 2026).

[٥] Cloud vendor pricing & internal TCO practice — match to your contract tier (verify with provider).