تخطّي إلى المحتوى الرئيسي
← العودة إلى المجلّة
ذكاء اصطناعي · نماذج·أبريل ٢٠٢٦·٧ دقائق قراءة

الفرق بين Inference والـ Training — من يدفع ماذا.

فيصل العنقودي · المؤسس والرئيس التنفيذي

تدريبٌ مرةٍ — أو آلاف الساعات — يُنقَل ثقلُه مرة. استدلالٌ بلا توقف يُحوِّل تكلفة المشروع إلى سعرٍ لكلّ رمز. هذا المقال يفصل محورَ النقدين، ويمنع اختلاط «ميزانية التجربة» ب«فاتورة المنتج» [١].

في اجتماعٍ ماليٍ يسأل أحدهم: «كم تكلفنا النموذج؟» فيُجاب من طرفٍ بسعرٍ training job، ومن آخرٍ بسعرٍ per-token في الإنتاج. الاثنان صحيحان في سياقين مختلفين. الخلط يفسد الـOpex والCapex ويصنع وعوداً بلا ميزانيّة [٤].

الاستدلال inference هو تشغيل النموذج على طلبٍ: إجابة، تلخيص، مُولّد. التدريب training هو تعديلٌ (أو بنايةٌ) أُوزانٍ بانتشارٍ عكسيٍ على دُفعاتٍ. الفريق الذي يتعامل معهما كبندٍ واحدٍ يتفاجأ حين يرتفع حجمُ الاستدلال [١]؛ راجع أيضاً اقتصاد الـSLM ودليل الـLLM.

ماذا تدفع فعلياً عند الـTraining.

تدريبٌ مسبقٌ أو ضبطٌ دقيقٌ يلتهمُ GPU ساعاتٍ — ذاكرةً عاليةً، بياناتٍ مُنظّمةً، وتكراراً على الدُفعات. تُحسبُ التكلفة ساعةً GPU أو بـcluster-hour، وتُلحقُها تخزينٌ ونسخٌ ومراجَعةٌ [٤].

ليس كلّ مؤسسةٍ «تتدرّب من الصفر»؛ لكن حتى LoRA يبقى تدريباً يُنشرُ ملفاتٍ ويحتاجُ قياساً [٣].

ماذا تدفع عند الـInference.

الاستدلال يتكرر مع كلّ مستخدمٍ: يدفع دفقُ الطلبات، وطولُ السياق، ونسبةُ ذاكرةِ الـKV، والـSLO. التسعير السحابي يرتبط بمليون رمزٍ — والإنتاج الخاص يرتبط بساعةٍ وطاقةٍ [١][٥].

لذلك «نموذجٌ مدرَّبٌ مرة» لا يعني تكلفةً صفراً: بل تحويلٌ تدريجيٌ من CAPEX/مشروعٍ إلى Opex مستمرٍ [٤].

التدريب يشتريك سلوكاً. الاستدلال يفرض عليك فاتورةً كلما استُخدم سلوكٌ. إن أخلطت الاثنين، أخلطت ميزانيتك.

جدل قرار: متى يرتفع وزنٌ الاستدلال في المعادلة.

  • عندما يتجاوز حجمٌ الاستدلال (tokens/month) ميزةَ التفوّق من التدريب الإضافي [٥].
  • عندما يتطلّب المنتجٌ زمنَ استجابةٍ منخفضاً ودفقاً — يدخل PagedAttention وvLLM في الحساب [٢].
  • عندما تنتقل بياناتٌ عبر حدوداً — يلزمٌ PDPL وAI لكلٍ تدريبٍ واستدلالٍ [٤].

أسئلة شائعة.

  • هل API يعني دائماً استدلالاً؟ نعم من زاويةٍ اقتصاديّةٍ — أنت تدفع للاستدلال (وما حوله)، لا لملكيّة الأوزان [١].
  • هل التدريب أغلى؟ ليس دائماً: تدريبٌ مكثّفٌ قصيرٌ قد يَكْفى مقابل سنواتٍ من استدلالٍ عالٍ [٥].
  • ماذا أضع في عقدٍ؟ افرقْ سقفٌ الاستدلالٍ (tokens) عن سقفٍ الضبطٍ (adapter updates) [٣].
  • كيف أقارن عروضٍ؟ اطلبٌ نفسَ الحملٍ: tokens/sec، p95، وتكلفةٌ/token — لا اختباراتٌ غيرٌ قابلةٍ للمقارنة [٥].
  • أين تساعد مقارنة عائلات GPU؟ اختلاف الرتبة ينعكس في التدريب والاستدلال [٢].

الخلاصة والدعوة.

افصلٌ في الجدول المالي: صفٌ لمرّةٍ تدريبٍ/ضبطٍ — وصفٌ لرموزٍ/شهريٌ للاستدلال. بلا فصلٍ تُنسبُ النجاحاتُ لمهندسٍ والفشلُ للماليّة [٤].

هذا الربع: اكتب سطراً واحداً: كمٌ ملايينٌ token/month في الإنتاج؟ — إن تجاوزتَ التقديرات، فأنت لا «تتعدّل النموذج»؛ أنت تتعلّم اقتصادَ الاستدلالٍ [٥].

المصادر.

[١] OpenAI — API pricing (per-token, verify current).

[٢] NVIDIA — Data center GPU product families.

[٣] Hu et al. — LoRA (ICLR 2022) — arXiv.

[٤] نقطة — قوالبٌ ماليّةٌ داخليّةٌ لمشاريعٍ مؤسّسيّةٍ، أبريلٌ ٢٠٢٦ (Nuqta internal TCO, April 2026).

[٥] Cloud vendor pricing & internal TCO practice — match to your contract tier (verify with provider).

مقالات ذات صلة

  • ما هو نموذج اللغة الكبير — دليل كامل لعام ٢٠٢٦.

    هذا ليس مقال تعريفات. هذا حساب قرار. إذا أردت استخدام نموذج لغة كبير في ٢٠٢٦، فهذه هي الصورة كاملة: كيف يعمل، أين يربح، أين يخذلك، وكيف تختار دون ضجيج.

  • ما هو الـ LoRA وكيف يُقلّل تكلفة ضبط النماذج.

    عندما يقال «ضبط دقيق» قد تتصوّر تحديث مليارات الأوزان في دورة مكلفة. LoRA طريقة تضيف طبقات بِرَنْك منخفض وتُحدِّث حصّة صغيرة جداً من المعاملات — قد تكفي لتحويل سلوك النموذج في مهام ضيّقة دون إعادة نسخ كلّ الأوزان. هذا المقال يشرح المبدأ بلا مبالغة، ومتى ينتقل الوفير من الورقة إلى الاستثمار [١].

  • متى يغلب النموذج الصغير محلياً اشتراك واجهة السحابة.

    هذا المقال ليس ضدّ السحابة. نحن نضع جدولاً: متى يكون تشغيل نموذج مفتوح صغير أو متوسط على GPU داخل حدودك أوفر من سطر API شهري — وسنة واحدة لا تكفي لحساب الحقيقة.

  • الفرق بين GPT-4 وClaude وGemini — مقارنة موضوعية.

    هذا ليس تصويتاً جماهيرياً. هذا إطار قرار: ما الذي يميّز كل عائلة، أين تتقدّم، وأين تضعف، وكيف تختار دون أن يبيعك أحد وهم «الأفضل».

  • كيف يعمل الـ Transformer — شرح بدون معادلات.

    ورقة «Attention Is All You Need» غيّرت الصناعة، لكنّها لا تُقرأ في اجتماع المنتج. هذا الشرح لمن يريد أن يفهم المحرّك دون أن يمسّ مطّاطاً: مفتاح واحد اسمه «انتباه»، يعيد ترتيب الأهمية بين الكلمات بناءً على السياق.

شارك المقال

← العودة إلى المجلّةنُقطة · المجلّة