رؤية · بنية تحتيّة·أبريل ٢٠٢٦·١٣ دقيقة قراءة

تشغيل نموذج لغويّ في سلطنة عُمان‏.

فيصل العنقودي · المؤسس · الرئيس التنفيذي

الرؤية، الهندسة، النماذج المفتوحة المُرشَّحة، والتكلفة الحقيقيّة سنةً كاملة. هذا ليس عرضاً تجاريّاً — هو الحساب الذي نكتبه قبل كلّ نقاش مع عميل يسأل: لماذا نبني بدل أن نستأجر؟

منذ عامين وعدد المكالمات التي نتلقّاها حول «استضافة نموذج خاصّ في عُمان» يتضاعف. معظمها يبدأ بعبارة واحدة: «لا نستطيع إرسال بيانات عملائنا خارج البلد.» خلف هذه العبارة، قرار قانونيّ، وقرار تجاريّ، وأحياناً قرار سياديّ. لكنّ السؤال العمليّ الذي يأتي بعدها لا يُجاب عليه بجملة: ما التكلفة الحقيقيّة؟ أيّ نموذج نستعمل؟ كيف نُقدّم الخدمة؟ وكيف نعلم أنّ النقلة تستحقّ؟

هذا المقال محاولة جادّة للإجابة. ليس ملخّصاً تسويقيّاً، بل تصميماً مفتوحاً: نفس الحساب الذي نضعه على الطاولة أمام أيّ عميل يطلب عرضاً. نبدأ بالرؤية، ثمّ نُسمّي النماذج بالاسم، ثمّ نفتح دفتر التكاليف، ونُنهي بالشروط التي تجعل القرار منطقيّاً — أو غير منطقيّ.

الرؤية: لماذا عُمان، وليس مجرّد «خادم محليّ»؟

هناك فرق بين «نستضيف على خادم محليّ» و«نُشغّل نموذجاً لغويّاً داخل السلطنة كجزء من بنية وطنيّة». الأوّل قرار تقنيّ. الثاني موقف. الرؤية التي نعمل عليها تقوم على ثلاثة محاور:

السيادة القانونيّة: قانون حماية البيانات الشخصيّة العُمانيّ (٢٠٢٢) يمنح إطاراً واضحاً. حين يبقى النموذج والبيانات تحت هذا القانون، الامتثال لا يحتاج عقوداً معقّدة مع أطراف أجنبيّة.
الجاهزيّة التحتيّة: مراكز بيانات عُمانيّة من الفئة Tier III/IV متاحة اليوم (مدائن، مسقط، صلالة)، مع اتّصال بالكابلات البحريّة الدوليّة، وطاقة رخيصة نسبيّاً مقارنةً بالخليج الشماليّ.
الموقع الإقليميّ: عُمان محايدة تجاريّاً، قريبة من الأسواق الخليجيّة والهنديّة والإفريقيّة. مركز استدلال في مسقط يخدم بوتات في الرياض، دبي، صلالة، ومومباي بزمن تأخّر أقلّ من ٦٠ ميلي ثانية.

الرؤية العمليّة ليست «خادم في مكتب»، بل: خدمة استدلال (Inference-as-a-Service) مُشغَّلة من عُمان، بأجهزة محلّيّة، بنموذج مفتوح المصدر مضبوط على السياق العربيّ الخليجيّ، مع خطّ أنابيب بيانات يبقى داخل الحدود بالكامل.

النماذج المفتوحة المُرشَّحة‏.

في نُقطة، قيّمنا على مدى الأشهر الماضية أكثر من اثنَي عشر نموذجاً مفتوحاً على مقاييس عربيّة داخليّة (محادثات خليجيّة، ترجمة، تلخيص عقود، استخراج معلومات من نصوص بنكيّة). استقرّينا على خمسة نماذج كمرشّحين جدّيّين، مع توصية أساسيّة واحدة. الشكل التالي يُلخّص المصفوفة:

شكل ١ — النماذج المُرشَّحة. محور س: عدد المعاملات (مليار). محور ص: جودة عربيّة داخليّة (٠-١٠٠). الحجم يعكس تكلفة التشغيل النسبيّة.

شرح التوصية‏.

Qwen2.5-72B-Instruct (التوصية الأساسيّة): توازن ممتاز بين جودة العربيّة، الرخصة السخيّة (Apache 2.0)، والحاجة العتاديّة. يعمل على ٤ بطاقات H100 بدقّة FP8 مع VLLM، بأداء إنتاجيّ.
Jais-70B: الوحيد في القائمة المُدرَّب عربيّاً من البداية (G42 + MBZUAI + Cerebras). الأفضل في اللهجات والنحو الكلاسيكيّ، لكنّه أضعف قليلاً في المهامّ البرمجيّة والاستدلال المنطقيّ.
Qwen2.5-32B: خيار «الطبقة الوسطى» لمهامّ سريعة لا تحتاج أعلى جودة (تصنيف، توجيه، ملخّصات قصيرة). يعمل على بطاقتَي H100، أو ٤ بطاقات L40S.
Llama-3.3-70B: بديل ممتاز حين يُفضَّل نظام Meta البيئيّ، مع ملاحظة أنّ رخصته تُقيّد الاستعمال فوق ٧٠٠ مليون مستخدم نشط شهريّاً (لا تؤثّر علينا عمليّاً).
DeepSeek-V3: نموذج MoE بـ ٦٧١ مليار معامل كليّ و٣٧ مليار نشط. أقوى في الاستدلال والبرمجة. يحتاج عتاداً أكبر (٨ H100) لكنّه يقدّم جودة استثنائيّة حين الحجم مُتاح.

البنية التقنيّة لتقديم الخدمة‏.

تشغيل نموذج ٧٠ مليار معامل لإنتاج حقيقيّ ليس «تحميل النموذج ثمّ تشغيله». هو نظام بثماني طبقات، كلّ طبقة تحلّ مشكلة لا تظهر إلّا تحت الحمل. الرسم التالي يُظهر البنية الكاملة كما نبنيها:

شكل ٢ — بنية الخدمة الكاملة. الخطّ المتّصل: مسار الاستدلال الحيّ. الخطّ المتقطّع: خطّ أنابيب التدريب/الضبط يعمل على عُقدة منفصلة.

ما يستحقّ التوقّف عنده: PagedAttention والتجميع المتواصل (Continuous Batching). هاتان التقنيّتان وحدهما ترفعان الإنتاجيّة ٣-٥ أضعاف مقارنةً بالخدمة الساذجة. بدونهما، نفس العتاد يُقدّم ٢٠٪ من طاقته الفعليّة. هذا فارق بين كلفة/توكن منافسة، وكلفة تبدو خيرها API عالميّ رخيصاً.

الضبط الدقيق (LoRA) يعمل على عُقدة منفصلة، بتكلفة ‎$٧٠٠-١٢٠٠‎ شهريّاً فقط، وينتج نسخاً صغيرة (‎٢٠٠-٥٠٠ ميغا‎ بدل ١٤٠ غيغا) تُحمَّل إلى النموذج الأساسيّ دون إعادة تحميله. هذا يعني أنّنا نُطلق تحسيناً شهريّاً بلا توقّف للخدمة.

التوفير لا يأتي من الساعة الأولى. يأتي من السنة الثانية. والسنة الأولى تُدفع بالسيادة والسرعة والقدرة على الضبط.

التكلفة الحقيقيّة — سنة كاملة‏.

أغلب العروض التي تصل للعميل تتحدّث عن «تكلفة الخادم». هذا ٢٩٪ فقط من المعادلة. الرسم التالي يُظهر تركيب السنة الأولى الكاملة لخدمة إنتاجيّة على عُقدة ‎8×H100‎ مستضافة في مسقط، بحجم يخدم ٤-٦ عملاء متوسّطين متزامنين:

شكل ٣ — تركيب السنة الأولى: ٣٦٥ ألف دولار إجمالاً. الرقم الشهريّ العامل: ٣٠,٤٠٠ دولار.

الحساب الحقيقيّ: كم للمليون توكن؟

على حجم خدمة معتدل (٢٫٥ مليار توكن شهريّاً، أي ٤-٦ عملاء متوسّطين)، كلفتنا الداخليّة للمليون توكن تبلغ: ‎$٣٠,٤٠٠ ÷ ٢٥٠٠ = $١٢٫٢‎. أعلى من API عالميّ بأسعار ٢٠٢٦ ($٨-١٠/م توكن للنماذج الممتازة).

على حجم ٥ مليار توكن شهريّاً (٨-١٢ عميل): ‎$٦٫٠٨/م توكن‎. أقلّ بوضوح.

على حجم ١٠ مليار توكن شهريّاً: ‎$٣٫٠٤/م توكن‎. أقلّ بثلاثة أضعاف.

الاستنتاج الصادق: الذكاء الخاص في عُمان لا يربح سعريّاً في السنة الأولى لعميل واحد. يربح لعدّة عملاء، أو لعميل واحد بحجم كبير، أو في السنة الثانية بعد استهلاك العتاد. وهذا — في أبسط صوره — نموذج البنية التحتيّة المشتركة.

ما لا يظهر في الرقم‏.

زمن التأخّر: API عالميّ يضيف ٢٠٠-٥٠٠ م.ث لكلّ استدعاء من عُمان. خدمة محليّة تحت ٥٠ م.ث. في بوت محادثة، هذا فرق محسوس في التجربة.
الضبط على البيانات الخاصّة: لا يمكن ضبط نماذج API على مستندات بنكيّة سرّيّة. في الذكاء الخاص، الضبط اعتياديّ شهريّ.
الاستقرار السعريّ: أسعار API العالميّة تغيّرت ٥ مرّات في عامَين. العتاد المملوك لا يتقلّب.
عدم تسرّب البيانات للتدريب: كثير من بنود API تسمح ضمنيّاً باستخدام المدخلات لتحسين نماذج مستقبليّة. محليّاً، الأمر محسوم.
استقلاليّة القرار: حين تُقرّر جهة أجنبيّة تغيير شروط الخدمة، أنت رهينة. حين تملك البنية، أنت صاحب القرار.

الخطّة المرحليّة‏.

لا نُوصي أبداً بالبدء بـ ‎٨×H100‎ مباشرةً. التدرّج هو الفرق بين نجاح واستنزاف:

المرحلة ١ (شهر ١-٣): عُقدة تجريبيّة ‎4×L40S‎ أو ‎2×A100‎. CAPEX ‎$٦٠-٨٠ ألف‎، تشغيل شهريّ ‎$٣-٤ ألف‎. تكفي لنموذج ٣٢B وخدمة ٥٠٠م توكن/شهر. هدفها: التحقّق من السيناريوهات، جمع بيانات حقيقيّة، وضبط LoRA الأوّل.
المرحلة ٢ (شهر ٤-٩): ترقية إلى ‎8×H100‎ وإطلاق Qwen2.5-72B إنتاجيّاً. CAPEX إضافيّ ‎$٢٤٠-٢٦٠ ألف‎. اندماج مع ٣-٥ عملاء مدفوعين.
المرحلة ٣ (شهر ١٠+): عُقدة ثانية للاحتياط الجغرافيّ + مرونة الحجم. استهداف ٥ مليار توكن/شهر فأكثر. هنا يتحقّق التوفير السعريّ الفعليّ.

متى يكون القرار منطقيّاً؟

نلخّص المعادلة في خمسة شروط. إن تحقّق أربعة منها، ننصح بالبدء. إن تحقّقت كلّها، البدء واجب:

حجم استعمال كليّ متوقّع يتجاوز ٣ مليارات توكن شهريّاً خلال ١٨ شهراً.
وجود ٢-٤ عملاء على الأقلّ بحاجة سيادة بيانات صريحة (بنوك، صحّة، حكومة، قانون).
استعداد لالتزام مدّة ٢٤ شهراً على الأقلّ — قبلها، CAPEX لا يُستَرَدّ.
فريق تقنيّ قادر على تشغيل بنية أو شراكة مع مزوّد تشغيل (نحن نقدّم هذا).
رؤية تجاريّة واضحة: الذكاء الخاص ليس هدفاً، هو قناة لخدمة مختلفة — بوتات مصرفيّة مخصّصة، مساعدين قانونيّين، أرشيف ذكيّ للوثائق الحكوميّة.

خلاصة — الدعوة‏.

بناء بنية تحتيّة للذكاء الاصطناعي في عُمان ليس مشروعاً تقنيّاً فقط. هو قرار وطنيّ صغير: أن تبقى نماذج الذكاء الاصطناعي التي تخدم البنك العُمانيّ، أو وزارة الصحّة، أو شركة التأمين، تحت قانون عُمانيّ، في مبنى عُمانيّ، يديرها فريق عُمانيّ. الرقم الذي عرضناه — ‎$٣٦٥ ألف سنة أولى، ‎$١٢.٢ للمليون توكن في البداية‎ — ليس رخيصاً. لكنّه واقعيّ، وقابل للتحسين مع الحجم، ولا يحتاج تمويلاً خياليّاً.

في نُقطة، بنينا بالفعل المرحلة الأولى (‎٤×L40S‎) كمنصّة اختبار. نُشغّل عليها اليوم Qwen2.5-32B لعميلَين. نُخطّط للمرحلة الثانية خلال الربع القادم. وإن كنت تقرأ هذا ولديك حالة استعمال تستوفي ثلاثة من الشروط الخمسة أعلاه، فنحن مستعدّون أن نُشاركك الحساب التفصيليّ لحالتك بالذات — مجّاناً، في اجتماع واحد، دون عقد. الأرقام تُبنى سويّاً، أو لا تُبنى.