تشغيل نموذج لغويّ في سلطنة عُمان.
فيصل العنقودي · المؤسس · الرئيس التنفيذي
الرؤية، الهندسة، النماذج المفتوحة المُرشَّحة، والتكلفة الحقيقيّة سنةً كاملة. هذا ليس عرضاً تجاريّاً — هو الحساب الذي نكتبه قبل كلّ نقاش مع عميل يسأل: لماذا نبني بدل أن نستأجر؟
منذ عامين وعدد المكالمات التي نتلقّاها حول «استضافة نموذج خاصّ في عُمان» يتضاعف. معظمها يبدأ بعبارة واحدة: «لا نستطيع إرسال بيانات عملائنا خارج البلد.» خلف هذه العبارة، قرار قانونيّ، وقرار تجاريّ، وأحياناً قرار سياديّ. لكنّ السؤال العمليّ الذي يأتي بعدها لا يُجاب عليه بجملة: ما التكلفة الحقيقيّة؟ أيّ نموذج نستعمل؟ كيف نُقدّم الخدمة؟ وكيف نعلم أنّ النقلة تستحقّ؟
هذا المقال محاولة جادّة للإجابة. ليس ملخّصاً تسويقيّاً، بل تصميماً مفتوحاً: نفس الحساب الذي نضعه على الطاولة أمام أيّ عميل يطلب عرضاً. نبدأ بالرؤية، ثمّ نُسمّي النماذج بالاسم، ثمّ نفتح دفتر التكاليف، ونُنهي بالشروط التي تجعل القرار منطقيّاً — أو غير منطقيّ.
الرؤية: لماذا عُمان، وليس مجرّد «خادم محليّ»؟
هناك فرق بين «نستضيف على خادم محليّ» و«نُشغّل نموذجاً لغويّاً داخل السلطنة كجزء من بنية وطنيّة». الأوّل قرار تقنيّ. الثاني موقف. الرؤية التي نعمل عليها تقوم على ثلاثة محاور:
- السيادة القانونيّة: قانون حماية البيانات الشخصيّة العُمانيّ (٢٠٢٢) يمنح إطاراً واضحاً. حين يبقى النموذج والبيانات تحت هذا القانون، الامتثال لا يحتاج عقوداً معقّدة مع أطراف أجنبيّة.
- الجاهزيّة التحتيّة: مراكز بيانات عُمانيّة من الفئة Tier III/IV متاحة اليوم (مدائن، مسقط، صلالة)، مع اتّصال بالكابلات البحريّة الدوليّة، وطاقة رخيصة نسبيّاً مقارنةً بالخليج الشماليّ.
- الموقع الإقليميّ: عُمان محايدة تجاريّاً، قريبة من الأسواق الخليجيّة والهنديّة والإفريقيّة. مركز استدلال في مسقط يخدم بوتات في الرياض، دبي، صلالة، ومومباي بزمن تأخّر أقلّ من ٦٠ ميلي ثانية.
الرؤية العمليّة ليست «خادم في مكتب»، بل: خدمة استدلال (Inference-as-a-Service) مُشغَّلة من عُمان، بأجهزة محلّيّة، بنموذج مفتوح المصدر مضبوط على السياق العربيّ الخليجيّ، مع خطّ أنابيب بيانات يبقى داخل الحدود بالكامل.
النماذج المفتوحة المُرشَّحة.
في نُقطة، قيّمنا على مدى الأشهر الماضية أكثر من اثنَي عشر نموذجاً مفتوحاً على مقاييس عربيّة داخليّة (محادثات خليجيّة، ترجمة، تلخيص عقود، استخراج معلومات من نصوص بنكيّة). استقرّينا على خمسة نماذج كمرشّحين جدّيّين، مع توصية أساسيّة واحدة. الشكل التالي يُلخّص المصفوفة:
شرح التوصية.
- Qwen2.5-72B-Instruct (التوصية الأساسيّة): توازن ممتاز بين جودة العربيّة، الرخصة السخيّة (Apache 2.0)، والحاجة العتاديّة. يعمل على ٤ بطاقات H100 بدقّة FP8 مع VLLM، بأداء إنتاجيّ.
- Jais-70B: الوحيد في القائمة المُدرَّب عربيّاً من البداية (G42 + MBZUAI + Cerebras). الأفضل في اللهجات والنحو الكلاسيكيّ، لكنّه أضعف قليلاً في المهامّ البرمجيّة والاستدلال المنطقيّ.
- Qwen2.5-32B: خيار «الطبقة الوسطى» لمهامّ سريعة لا تحتاج أعلى جودة (تصنيف، توجيه، ملخّصات قصيرة). يعمل على بطاقتَي H100، أو ٤ بطاقات L40S.
- Llama-3.3-70B: بديل ممتاز حين يُفضَّل نظام Meta البيئيّ، مع ملاحظة أنّ رخصته تُقيّد الاستعمال فوق ٧٠٠ مليون مستخدم نشط شهريّاً (لا تؤثّر علينا عمليّاً).
- DeepSeek-V3: نموذج MoE بـ ٦٧١ مليار معامل كليّ و٣٧ مليار نشط. أقوى في الاستدلال والبرمجة. يحتاج عتاداً أكبر (٨ H100) لكنّه يقدّم جودة استثنائيّة حين الحجم مُتاح.
البنية التقنيّة لتقديم الخدمة.
تشغيل نموذج ٧٠ مليار معامل لإنتاج حقيقيّ ليس «تحميل النموذج ثمّ تشغيله». هو نظام بثماني طبقات، كلّ طبقة تحلّ مشكلة لا تظهر إلّا تحت الحمل. الرسم التالي يُظهر البنية الكاملة كما نبنيها:
ما يستحقّ التوقّف عنده: PagedAttention والتجميع المتواصل (Continuous Batching). هاتان التقنيّتان وحدهما ترفعان الإنتاجيّة ٣-٥ أضعاف مقارنةً بالخدمة الساذجة. بدونهما، نفس العتاد يُقدّم ٢٠٪ من طاقته الفعليّة. هذا فارق بين كلفة/توكن منافسة، وكلفة تبدو خيرها API عالميّ رخيصاً.
الضبط الدقيق (LoRA) يعمل على عُقدة منفصلة، بتكلفة $٧٠٠-١٢٠٠ شهريّاً فقط، وينتج نسخاً صغيرة (٢٠٠-٥٠٠ ميغا بدل ١٤٠ غيغا) تُحمَّل إلى النموذج الأساسيّ دون إعادة تحميله. هذا يعني أنّنا نُطلق تحسيناً شهريّاً بلا توقّف للخدمة.
التوفير لا يأتي من الساعة الأولى. يأتي من السنة الثانية. والسنة الأولى تُدفع بالسيادة والسرعة والقدرة على الضبط.
التكلفة الحقيقيّة — سنة كاملة.
أغلب العروض التي تصل للعميل تتحدّث عن «تكلفة الخادم». هذا ٢٩٪ فقط من المعادلة. الرسم التالي يُظهر تركيب السنة الأولى الكاملة لخدمة إنتاجيّة على عُقدة 8×H100 مستضافة في مسقط، بحجم يخدم ٤-٦ عملاء متوسّطين متزامنين:
الحساب الحقيقيّ: كم للمليون توكن؟
على حجم خدمة معتدل (٢٫٥ مليار توكن شهريّاً، أي ٤-٦ عملاء متوسّطين)، كلفتنا الداخليّة للمليون توكن تبلغ: $٣٠,٤٠٠ ÷ ٢٥٠٠ = $١٢٫٢. أعلى من API عالميّ بأسعار ٢٠٢٦ ($٨-١٠/م توكن للنماذج الممتازة).
على حجم ٥ مليار توكن شهريّاً (٨-١٢ عميل): $٦٫٠٨/م توكن. أقلّ بوضوح.
على حجم ١٠ مليار توكن شهريّاً: $٣٫٠٤/م توكن. أقلّ بثلاثة أضعاف.
الاستنتاج الصادق: الذكاء الخاص في عُمان لا يربح سعريّاً في السنة الأولى لعميل واحد. يربح لعدّة عملاء، أو لعميل واحد بحجم كبير، أو في السنة الثانية بعد استهلاك العتاد. وهذا — في أبسط صوره — نموذج البنية التحتيّة المشتركة.
ما لا يظهر في الرقم.
- زمن التأخّر: API عالميّ يضيف ٢٠٠-٥٠٠ م.ث لكلّ استدعاء من عُمان. خدمة محليّة تحت ٥٠ م.ث. في بوت محادثة، هذا فرق محسوس في التجربة.
- الضبط على البيانات الخاصّة: لا يمكن ضبط نماذج API على مستندات بنكيّة سرّيّة. في الذكاء الخاص، الضبط اعتياديّ شهريّ.
- الاستقرار السعريّ: أسعار API العالميّة تغيّرت ٥ مرّات في عامَين. العتاد المملوك لا يتقلّب.
- عدم تسرّب البيانات للتدريب: كثير من بنود API تسمح ضمنيّاً باستخدام المدخلات لتحسين نماذج مستقبليّة. محليّاً، الأمر محسوم.
- استقلاليّة القرار: حين تُقرّر جهة أجنبيّة تغيير شروط الخدمة، أنت رهينة. حين تملك البنية، أنت صاحب القرار.
الخطّة المرحليّة.
لا نُوصي أبداً بالبدء بـ ٨×H100 مباشرةً. التدرّج هو الفرق بين نجاح واستنزاف:
- المرحلة ١ (شهر ١-٣): عُقدة تجريبيّة 4×L40S أو 2×A100. CAPEX $٦٠-٨٠ ألف، تشغيل شهريّ $٣-٤ ألف. تكفي لنموذج ٣٢B وخدمة ٥٠٠م توكن/شهر. هدفها: التحقّق من السيناريوهات، جمع بيانات حقيقيّة، وضبط LoRA الأوّل.
- المرحلة ٢ (شهر ٤-٩): ترقية إلى 8×H100 وإطلاق Qwen2.5-72B إنتاجيّاً. CAPEX إضافيّ $٢٤٠-٢٦٠ ألف. اندماج مع ٣-٥ عملاء مدفوعين.
- المرحلة ٣ (شهر ١٠+): عُقدة ثانية للاحتياط الجغرافيّ + مرونة الحجم. استهداف ٥ مليار توكن/شهر فأكثر. هنا يتحقّق التوفير السعريّ الفعليّ.
متى يكون القرار منطقيّاً؟
نلخّص المعادلة في خمسة شروط. إن تحقّق أربعة منها، ننصح بالبدء. إن تحقّقت كلّها، البدء واجب:
- حجم استعمال كليّ متوقّع يتجاوز ٣ مليارات توكن شهريّاً خلال ١٨ شهراً.
- وجود ٢-٤ عملاء على الأقلّ بحاجة سيادة بيانات صريحة (بنوك، صحّة، حكومة، قانون).
- استعداد لالتزام مدّة ٢٤ شهراً على الأقلّ — قبلها، CAPEX لا يُستَرَدّ.
- فريق تقنيّ قادر على تشغيل بنية أو شراكة مع مزوّد تشغيل (نحن نقدّم هذا).
- رؤية تجاريّة واضحة: الذكاء الخاص ليس هدفاً، هو قناة لخدمة مختلفة — بوتات مصرفيّة مخصّصة، مساعدين قانونيّين، أرشيف ذكيّ للوثائق الحكوميّة.
خلاصة — الدعوة.
بناء بنية تحتيّة للذكاء الاصطناعي في عُمان ليس مشروعاً تقنيّاً فقط. هو قرار وطنيّ صغير: أن تبقى نماذج الذكاء الاصطناعي التي تخدم البنك العُمانيّ، أو وزارة الصحّة، أو شركة التأمين، تحت قانون عُمانيّ، في مبنى عُمانيّ، يديرها فريق عُمانيّ. الرقم الذي عرضناه — $٣٦٥ ألف سنة أولى، $١٢.٢ للمليون توكن في البداية — ليس رخيصاً. لكنّه واقعيّ، وقابل للتحسين مع الحجم، ولا يحتاج تمويلاً خياليّاً.
في نُقطة، بنينا بالفعل المرحلة الأولى (٤×L40S) كمنصّة اختبار. نُشغّل عليها اليوم Qwen2.5-32B لعميلَين. نُخطّط للمرحلة الثانية خلال الربع القادم. وإن كنت تقرأ هذا ولديك حالة استعمال تستوفي ثلاثة من الشروط الخمسة أعلاه، فنحن مستعدّون أن نُشاركك الحساب التفصيليّ لحالتك بالذات — مجّاناً، في اجتماع واحد، دون عقد. الأرقام تُبنى سويّاً، أو لا تُبنى.
مقالات ذات صلة
- السيادة الرقمية: لماذا يجب أن تبقى بياناتك في عُمان.
حين تُرسِل بيانات عملائك إلى سيرفر في فرانكفورت أو فرجينيا، أنت لا تستضيفها. أنت تُسلِّمها. الفرق ليس تقنيّاً.
- متى يصبح الذكاء الخاص أرخص من API عالميّ؟
السؤال الذي يطرحه كلّ مدير ماليّ قبل الموافقة على مشروع ذكاء اصطناعي. الإجابة ليست «دائماً» ولا «أبداً»، بل منحنى بنقطة تعادل محدّدة. هذا المقال يرسمها.