اقتصاد · بنية تحتية·مايو ٢٠٢٦·١٤ دقيقة قراءة

الحساب الكامل لتكلفة LLM للسنة الأولى‏.

اتصل بنا مدير تقنية في مسقط قبل ستة أشهر بسؤال واحد لم يخرج عن عشر كلمات: «كم يكلفنا تشغيل نموذج لغوي داخل المركز؟» فكان جوابنا بسيطاً ومزعجاً: قبل أن نحسب السعر نحسب ماذا تريد حمايته وتكراره يومياً على أرض الواقع.

هذا النص ليس عرض أسعار لمزود. هو إطار تكلفة الملكية للسنة الأولى لتشغيل نموذج لغوي كبير تحت تحكمكم — نقطة مرجعية نستخدمها في نقطة قبل أي توقيع على GPUs أو عقود تشغيل. المغزى الذي نضعه على الطاولة: السنة الأولى ليست حيث «توفّر مقابل SaaS». السنة الأولى حيث تشتري سرعة وحوكمة وقدرة ضبط [١]. التوفير الذي يمكن قياسه يأتي بعد أن يستقر تشغيلك ويعرف فريقك أين الهدر الحقيقي.

لماذا السنة الأولى مُكلِّفة‏.

التعريف المختصر الذي نبدأ به في الاجتماعات: تكلفة الملكية للسنة الأولى تشمل شراء وتشغيل الأجهزة في المرة الأولى، وتجهيز الطاقة والتبريد، وبناء خط إصدار الإنتاج، وتدريب فريقك على خدمة النموذج، والاحتياطي التشغيلي عندما يحدث ما يحدث دائماً — تعطل، ازدحام، أو اكتشاف أن سياقكم أطول مما افترضتم.

ثلاثة عوامل ترفع الفاتورة فوق تقدير «سعر البطاقة» وحده: أولاً، مزيج رأس المال والتشغيل — الـGPU ثمنه واضح، لكن التركيب والفعالية الحرارية والاختبارات تأخذ أسابيع تُدفع فيها أجوراً قبل أول طلب إنتاج [٢]. ثانياً، منحنى التعلّم — حتى فريقاً قوياً يحتاج دورات أولى من ضبط الدُفعات، مراقبة الذاكرة، وسياسات الأمان حول الاستدعاءات. ثالثاً، التكامل مع أنظمتكم: الهوية، السجلات، صلاحيات البيانات، ومسارات النسخ الاحتياطي ليست «ملحقاً» بل جزءاً من السعر الكامل للسنة الأولى [٣].

شريط السنة الأولى: أين تذهب الدولارات‏.

نموذجنا المرجعي لعُمان — وليس عقداً لكم — يضع مظلّة سنة أولى نحو ٣٦٥ ألف دولار أمريكي لمنشأة متوسطة تستهدف نموذجاً كبيراً قابلاً للإنتاج مع فريق تشغيل صغير [٥]. التقسيم التقريبي الذي نعرضه للمجالس: نحو ٢٩٪ أجهزة وترخيص برمجيات خدمة، ٤٠٪ أشخاص (مهندسو منصة، أمن، ضبط أداء)، ١٥٪ طاقة وتبريد ومساحة، ١٠٪ شبكة ونسخ احتياطي، ٦٪ احتياطي تشغيلي لما لا يُخطط له.

هذا التقسيم يتغير إن اخترتم نموذجاً أصغر أو شاركتم كتلة GPU مع فرق أخرى، لكنه يجيب على سؤال المجلس الصامت: هل نحن نشتري «بطاقة» أم نشتري «قدرة تشغيل كاملة»؟ الجواب في السنة الأولى دائماً الثاني [١][٢].

التوفير لا يأتي من الساعة الأولى في التشغيل المحلي. يأتي من السنة الثانية حين يعرف فريقكم أين يُعاد استخدام السعة وكيف تُقاس التكلفة لكل مليون رمز فعلي.

FIG. 1 — YEAR-ONE LLM ON-PREM TCO (REFERENCE % SPLIT)

متى يصبح الـAPI أرخص ومتى يصبح المحلي منطقياً‏.

قاعدة القرار التي نكررها: قارنوا تكلفة مليون رمز فعلي في إنتاجكم — لا في ديمو — مع تكلفة حمل السعة الثابتة عندكم. نماذج OpenAI وغيرها تنشر جداول أسعار لكل مليون رمز؛ استخدموها كنقطة مرجعية صريحة، ثم أضيفوا فروق الحوكمة والاحتفاظ بالسجلات لديكم [٤].

عند حجم منخفض ومهام متنوعة، غالباً يفوز الـAPI في السنة الأولى لأنكم لا تدفعون فراغ السعة. عند حجم مرتفع أو بيانات لا تغادر حدودكم، يتحول خط التعادل — غالباً في نطاق عشرات الملايين من الرموز شهرياً حسب ضبطكم ومزودكم — إلى حجة للسيطرة المحلية [٥]. المهم أن تكتبوا ذلك الرقم قبل الشراء وليس بعده.

فعّلوا عدادات الرموز والاستدعاءات من الأسبوع الأول في الإنتاج التجريبي.
افصلوا «تجربة» عن «حمولة العمل»: التجربة تُشترى بالـAPI، الحمولة تُخطط بالسنوات.
ضعوا احتياطي ١٥٪ على تقدير السنة الأولى — نادراً ما يكفي أول جدول.

خمس مخاطر مالية خفية‏.

أولاً، فشل أو نقص قطعGPU فجأة — الاستبدال قد يستغرق أسابيع، والتوقف يترجم إلى تأخير منتج أو شكاوى عملاء [٢]. ثانياً، اكتشاف أن ذاكرة البطاقة لا تكفي لسياقكم بعد الضبط — ترقية من أربع بطاقات إلى ثمانٍ تعيد كتابة ميزانية السنة [٢]. ثالثاً، تكاليف نقل ونسخ خارجية لم تُحسب في العرض الأول. رابعاً، تكلفة الفرصة: فريق البنية لا يبني منتجاً بينما يثبت السيرفر. خامساً، إغراق سحابي غير مخطط إن بقيت قناة احتياطية مفتوحة [٥].

السنة الثانية: ماذا يتغير عادة‏.

حين يستقر ضبط الدُفعات وPagedAttention وتخزين الـKV، تتراجع عناصر من هامش الهدر: تعرفون كم رمزاً تستهلكون فعلياً، وتعيدون جدولة الترقيات، وتقللون ساعات الطوارئ. في مشاريعنا نرى غالباً انخفاضاً كبيراً في «تكلفة التشغيل المتكرر» مقارنة بالسنة الأولى — لكن ذلك يفترض أنكم لم تتوقفوا عن القياس بعد الإطلاق [٥].

للبنية التفصيلية للاستدلال والذاكرة، راجعوا ما هو PagedAttention واقتصاد التدريب مقابل الاستدلال في المجلّة.

تحفّظات نضعها صراحة‏.

الرقم ٣٦٥ ألف دولار مرجع تشغيلي — ليس عرضاً لكل عميل. يتغير باختيار النموذج، بدرجة التكرار الليلي، وبقراركم حول الفشل المزدوج. الذكاء الخاص في عُمان لا «يربح السعر» في السنة الأولى لعميل واحد صغير إن كان هدفه فقط تجربة؛ يربح السيادة والضبط والقدرة على تدقيق كل طلب.

التكلفة ليست المشكلة الوحيدة. المشكلة هي هل امتلاك المسار يستحق ذلك لبياناتكم ومجالكم التنظيمي؟ إن لم تستطيعوا شرح ذلك لمجلسكم في ورقة واحدة، فالتشغيل المحلي قد يكون شراء قلقاً لا استثماراً.

الدعوة‏.

هذا ليس سجلاً ضد الـAPI. نحن نبنيه ونبيعه عندما يكون هو القرار الصحيح. لكننا نرفض جداول تكلفة تغفل الناس والطاقة والمخاطر.

قبل أي توقيع هذا الربع، اطلبوا من مزودكم أو من فريقكم الداخلي ثلاثة أرقام: تكلفة سنة أولى كاملة، تكلفة لكل مليون رمز عند ٧٥٪ استخدام سعة، وخطة عند تعطل GPU. إن لم تُجب الأرقام في صفحة، فأنت تعرف من أين يبدأ العمل — وربما يبدأ بقراءة حل الذكاء الخاص ثم العودة إلى الجدول.

أسئلة شائعة‏.

ما هي تكلفة الملكية للسنة الأولى لتشغيل نموذج لغوي محلي؟ هي مجموع الأجهزة، البرمجيات، الطاقة، الشبكة، الفريق، والاحتياطي التشغيلي قبل أن تستقر خطوط الإنتاج — وليس ثمن وحدة المعالجة وحدها [٥].
كم تستغرق السنة الأولى حتى تصبح الخدمة مستقرة؟ غالباً ٨–١٢ أسبوعاً من التركيب حتى إنتاج أول دفعات مع قياسات موثوقة، ثم ٣–٦ أشهر لضبط التكلفة الفعلية لكل مليون رمز [٥].
هل التشغيل المحلي أوفر من OpenAI دائماً؟ لا. عند أحجام منخفضة وفترات تجريبية، الـAPI غالباً أرخص؛ عند حجم مستقر وبيانات حساسة يزحف خط التعادل لصالح السيطرة المحلية [٤][٥].
ما أكبر مفاجأة في الميزانية؟ غالباً تكلفة الأشخاص والطاقة، لأن جداول المبيعات تبرز «سعر البطاقة» فقط [١][٥].
كيف نربط هذا بعُمان؟ راجعوا PDPL والمسارات السيادية في السيادة الرقمية في عُمان قبل أن تختاروا مكان البيانات والنموذج.

المصادر‏.

[١] SemiAnalysis — «The GPU Rich and GPU Poor» — SemiAnalysis، ٢٠٢٤.

[٢] NVIDIA — H100 Tensor Core GPU Datasheet — NVIDIA.

[٣] NIST — AI Risk Management Framework (AI RMF 1.0).

[٤] OpenAI — API pricing (per-million-token reference).

[٥] نقطة — نموذج تكلفة سنة أولى لتشغيل LLM في عُمان، مايو ٢٠٢٦ (Nuqta internal TCO worksheet, May 2026).