تخطّي إلى المحتوى الرئيسي
← العودة إلى المجلّة
ذكاء اصطناعي · بنية·أبريل ٢٠٢٦·١١ دقائق قراءة

متى يغلب النموذج الصغير محلياً اشتراك واجهة السحابة.

فيصل العنقودي · المؤسس والرئيس التنفيذي

هذا المقال ليس ضدّ السحابة. نحن نضع جدولاً: متى يكون تشغيل نموذج مفتوح صغير أو متوسط على GPU داخل حدودك أوفر من سطر API شهري — وسنة واحدة لا تكفي لحساب الحقيقة.

في اجتماع لجنة مشتريات، وُضع سطران جنباً إلى جنب: اشتراك API بمئة ألف دولار سنوياً، ومشروع «نموذج داخلي» بمئتي ألف دولار سنوياً. فاز السطر الأول بالتصويت خلال دقيقتين. بعد ستة أشهر، اكتشفت المالية أنّ فاتورة السياق والتخزين والتصعيد البشري ضاعفت ما ظهر في العرض.

النماذج الصغيرة والمتوسطة محلياً — Small / Medium Language Models على عتاد تملكه أو تستأجره في مركز بيانات تختاره — عادت قابلة للتشغيل الإنتاجي بفضل ضبط كمّي أدق، ومحركات خدمة أوفر، وحوكمة بيانات أوضح [١][٢]. السؤال لم يعد «هل نقدر نشتري أذكى نموذج؟» بل «أين تذهب البايتات، ومن يدفع ثمنها على ثلاث سنوات؟» راجع محور الذكاء الخاص في عُمان في المجلّة إذا أردت ربط القرار بالسيادة لا بالسعر فقط.

ما المقصود بالنموذج الصغير محلياً في جملة واحدة.

نقصد نموذج لغة مفتوح الوزن يُشغَّل على بنية تحتك: إما على GPU في مركز بيانات محلي أو سحابة إقليمية ضمن حدود تعاقدية واضحة، مع إمكانية منع الاتصال الخارجي للبيانات الحساسة أثناء الاستنتاج [٣].

هذا مختلف عن «نموذج صغير» كشعار تسويقي: المهم حجم المعاملات، طول السياق الفعلي، وجودة الاسترجاع إن كنت تستخدم RAG — لا اسم الطبقة على البطاقة التقنية وحدها [٤].

الدليل التقني: لماذا عاد الحديث عن SLM جدياً في ٢٠٢٦.

ورقتان مرجعيتان شكلتا النقاش: تقييم كفاءة نماذج مضغوطة مقابل كبيرة على مهام محددة، وما يعنيه ذلك لخطط التشغيل [١]؛ ومسار vLLM وPagedAttention الذي رفع كثافة الخدمة على نفس العتاد عبر إدارة KV Cache بذكاء [٥].

في نُقطة، عندما نقارن عروضاً لعملاء في مسقط، نفصل ثلاثة أرقام قبل أي توصية: تكلفة الرمز، تكلفة السياق والتخزين، وتكلفة ساعة التصعيد البشري عند فشل السياسات. بدونها، «النموذج الأرخص» وهم محاسبي.

التوفير لا يأتي من الساعة الأولى. يأتي من السنة الثانية حين تثبت حدود البيانات وتنخفض هدر السياق. والسنة الأولى تُدفع بالسيادة والسرعة والقدرة على الضبط.

الأرقام: سنة مقابل ثلاث سنوات (قراءة مالية لا وصف تقني).

الجدول التالي مبني على سيناريو توضيحي لفرقة منتج داخلية بمليوني رمز شهرياً على مهام حوكمة ووثائق — الأرقام الواقعية تختلف؛ الهدف إظهار أن تكوين التكلفة يتبدّل مع الزمن [٦].

FIG. 1 — ILLUSTRATIVE YEAR-ONE TCO SPLIT: API SUBSCRIPTION VS OWNED SLM STACK

مسار عملي على أربع مراحل.

  • المرحلة ١ — قياس: اربط كل طلب برمز وسياق وتصعيد؛ اجمع أربعة أسابيع بيانات قبل شراء عتاد.
  • المرحلة ٢ — حد أدنى قابل للخدمة: نموذج واحد، سياسات وصول، سجلات تدقيق؛ راجع PagedAttention وخدمة LLM.
  • المرحلة ٣ — ضبط التكلفة: دفعات، طول سياق مدروس، استرجاع هجين عند الحاجة؛ راجع البحث الهجين.
  • المرحلة ٤ — مراجعة سنوية: هل ما زال الوزن محلياً يستحق الكفاءة، أم صار جزءاً من منصة مشتركة؟

محاذير صادقة: أين يخسر المحلي في السنة الأولى.

الذكاء الخاص في عُمان لا يفوز تلقائياً على السعر في السنة الأولى لمشروع واحد صغير إذا لم تُدار التشغيل كمنتج: التوفر، التحديثات الأمنية، وامتثال قانون حماية البيانات يكلفان بشراً وساعات.

إن لم يكن لديك فريق يستطيع قياس الجودة والتكلفة معاً، اشترِ API مؤقتاً — لكن اشترِه بعقد يحدّد مكان المعالجة ويمنع تدريباً غير موافق عليه.

الخاتمة والدعوة.

القرار ليس ديناً تقنياً. هو قرار تمويل وحوكمة: من يملك الوزن، من يملك السجل، وأين تنتهي مسؤولية الحادثة. إن لم تُدرج هذه الأسئلة في جدولك، فأنت تقارن شعارات لا تكاليف.

اطلب من موردك — أو من فريقك الداخلي — ورقة واحدة: تفصيل سنة واحدة وثلاث سنوات لنفس الحمل. إن رفض التفصيل، فأنت لا تزال تشتري وعداً لا بنية.

أسئلة شائعة.

  • ما الفرق بين SLM ونموذج كبير عبر API؟ الحجم والموقع: SLM هنا يعني تشغيلاً تحت سيطرتك؛ API يعني اعتماداً على مزود يحدد السياسات والأسعار [٣].
  • هل SLM يكفي للعربية الدارجة؟ قد يكفي إذا ربطته ببيانات وهيكل تقييم؛ راجع فشل البوتات العربية قبل لوم النموذج.
  • متى أختار GPU مثل H100؟ عند أحمال استنتاج متزامنة عالية أو سياق طويل؛ راجع معيار H100 كمرجع سوقي.
  • كيف أقارن العروض بلا خداع؟ نفس الحمل، نفس طول السياق، نفس معدل التصعيد البشري — ثم قارن التكلفة الكاملة لا سطر API وحده [٦].
  • هل أحتاج مركز بيانات في عُمان؟ ليس دائماً؛ لكنك تحتاج عقداً يحدد الولاية القضائية ومسار البيانات؛ اربطه بمقال السيادة الرقمية.

المصادر.

[١] Dettmers et al. — QLoRA: Efficient Finetuning of Quantized LLMs — NeurIPS 2023 / arXiv.

[٢] Frantar et al. — GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers — ICLR 2023 / arXiv.

[٣] Hugging Face — Open LLM Leaderboard (model comparison methodology).

[٤] Lewis et al. — Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks — NeurIPS 2020 / arXiv.

[٥] Kwon et al. — Efficient Memory Management for Large Language Model Serving with PagedAttention (vLLM) — SOSP 2023 / arXiv.

[٦] نقطة — جداول TCO داخلية لمشاريع SLM مقابل API في الخليج، أبريل ٢٠٢٦ (Nuqta internal TCO worksheets, April 2026).

مقالات ذات صلة

شارك المقال

← العودة إلى المجلّةنُقطة · المجلّة