ذكاء خاص، بنية محليّة
مقالات مختارة عن تشغيل النماذج في السلطنة، جدوى التكلفة، وسيادة البيانات.
الذكاء «الخاص» عندنا يعني: نموذجاً تتحكّم به مؤسستك قانونياً وتقنياً — لا اشتراكاً سحابيّاً يُخرج بياناتك من دائرة الامتثال التي اخترتها.
ثلاثة محاور تتكرّر في مشاريعنا: أين تُخزَّن البيانات، كيف يُخدم النموذج دون هدر في الذاكرة والتكلفة، وما العتاد المرجعي عند حساب الجدوى (من الأدبيات التقنية إلى مراكز البيانات المحليّة).
المقالات أدناه تربط السيادة الرقميّة بهندسة التشغيل والعتاد؛ اقرأها كسلسلة واحدة ثم ارجع لصفحة التقدير أو إلى البريد إذا أردتم تطبيقاً على بيئتكم.
- ما هو الـ vLLM ولماذا يُستخدم في الإنتاج.
vLLM محركٌ مفتوح المصدر لخدمة نماذج اللغة: جدولة، دفعات مستمرة، وذاكرة KV مُنظّمة بـ[PagedAttention](/journal/what-is-pagedattention-llm-serving-2026). الفكرة ليست «تغليف API» فقط — بل رفع كثافة العتاد تحت حملٍ حقيقي [١].
- متى يغلب النموذج الصغير محلياً اشتراك واجهة السحابة.
هذا المقال ليس ضدّ السحابة. نحن نضع جدولاً: متى يكون تشغيل نموذج مفتوح صغير أو متوسط على GPU داخل حدودك أوفر من سطر API شهري — وسنة واحدة لا تكفي لحساب الحقيقة.
- أين تشغّل استدلال نماذج اللغة في الخليج — تأخير، إقامة، وفاتورة واحدة.
القرار ليس «GPU أو API» فقط؛ هو زمن الجولة، وعلاقة المعالج بالبيانات، وما إذا كان العقد يسمح بتدقيق الخروج. هذا المقال يضع مصفوفة قرار للمنشآت التي لا تزال تجمع بين عُمان والإمارات والسعودية في سلسلة واحدة.
- استهلاك الطاقة وبطاقات GPU في مراكز بيانات الخليج.
PUE وفاتورة الكيلوواط ساعة قبل أرقام نفيديا — حر الخليج يشترط تبريداً وحجماً مختلفين عن المرجعيات الباردة
- تشغيل نموذج لغوي في سلطنة عُمان — حساب سنة أولى بلا تهويل.
نضع ورقة واحدة: عتاد، كولوكيشن، ضغط التيار الصناعي، فريق تشغيل، تعطل GPU وتصعيد — ثم نقارنها بمسار اشتراك واجهة يحترم حدود المعالجة وقانون عُمان لحماية البيانات الشخصية.
- ما هو KV Cache في استدلال نماذج اللغة وكيف يقرأ ميزانية الذاكرة؟.
البطاقة ليست كل الحقيقة — جزء من سرعة الاستدلال يأتي من إعادة استخدام مفاتيح وقيم التوليد بدلاً من إعادة حساب الطبقات على كل رمز.
- الفرق بين L40S وA100 وH100 — أي بطاقة لأي مهمة.
ليست المسألة «أقوى شريحة». المسألة مطابقة الـworkload: تدريبٌ ثقيلٌ أم استدلالٌ عالٍ أم تسريعٌ بصريٌ؟ جدولٌ واحدٌ يختصر أين تضع L40S وأين A100 وأين [H100](/journal/nvidia-h100-gpu-ai-standard-2026) — بلا تخمينٍ في العقد [١].
- بروتوكول MCP في المؤسسة: الجسر ليس حدود البيانات.
Model Context Protocol يفسّر كيف تربط أدواتك بنموذج لغوي — لكنه لا يستبدل قرار أين تُعالَج البيانات، ومن يملك السجل، وما إذا كان الاستدلال يغادر شبكتك.
- ما هو GPU H100 ولماذا أصبح معيار الذكاء الاصطناعي.
ليست بطاقة ألعاب في حاسوب مكتب. هي وحدة حوسبة تُقاس بها «ساعة التدريب» و«تكلفة الرمز» في مراكز البيانات. H100 ليس سحراً؛ هو نقطة مرجعية اتفق السوق والأوراق البحثية على نقلها، لأنّ البنية والبرمجيات والسحابة التقطتها معاً.
- ما هو PagedAttention وما الذي غيّره في عالم الـ LLM Serving.
المشكلة في Serving لم تكن دائماً سرعة المعالج، بل هدر الذاكرة في KV Cache. PagedAttention غيّر اللعبة لأنه عامل الذاكرة كصفحات قابلة للتخصيص بدل مساحات متجاورة ضخمة، فقلّ الهدر وارتفعت الإنتاجية على نفس العتاد.
- السيادة الرقمية: لماذا يجب أن تبقى بياناتك في عُمان.
حين تُرسِل بيانات عملائك إلى سيرفر في فرانكفورت أو فرجينيا، أنت لا تستضيفها. أنت تُسلِّمها. الفرق ليس تقنيّاً.
- لماذا لا يوجد ChatGPT خليجي واحداً لا يتلاشى بحلّة مختلفة اليوم.
ليس نقص ابتكار — تجزئة سيادة ومغناطيس أمريكي لرأس المال والطاقة وحرب رقاقات تجعل تجمعاً عمومياً رقيقاً وفق كلاسور عقود وموافقات وصنائع تنظيم مختلفة قبل أن تنضج العلامات التجارية.