الفرق بين L40S وA100 وH100 — أي بطاقة لأي مهمة.
فيصل العنقودي · المؤسس والرئيس التنفيذي
ليست المسألة «أقوى شريحة». المسألة مطابقة الـworkload: تدريبٌ ثقيلٌ أم استدلالٌ عالٍ أم تسريعٌ بصريٌ؟ جدولٌ واحدٌ يختصر أين تضع L40S وأين A100 وأين [H100](/journal/nvidia-h100-gpu-ai-standard-2026) — بلا تخمينٍ في العقد [١].
عروض السحابة تُبرز أسماءً أشبه العملات: L40S، A100، H100. المخاطرة أن تختار «الأحدث» رغم أن أغلب أحمال الاستدلال تحتاج تكثيفاً للذاكرة لا «تدريباً من الصفر» يوميّاً [١].
هذا المقال لا يستبدلُ دليل الـH100 — يكمّله: يضعُ L40S وA100 في نفسِ المقارنةِ التشغيليّةِ [٢].
ثلاث فئات بسرعة.
H100 — عائلة Hopper: مرجعٌ للتدريبٍ الكثيفٍ والاستدلالٍ عند نماذجٍ كبيرةٍ وسياقٍ طويلٍ؛ تكثيفٌ tensorٌ وذاكرةٌ HBM واسعةٌ [٢].
A100 — عائلة Ampere: جيلٌ ما زالَ شائعاً في الحسابٍ العامٍ والتدريبٍ؛ توازنٌ تاريخيٌ بين السعرٍ والبرمجياتٍ [٢].
L40S — Ada Lovelace: غالباً لأحمالٍ أخفّ و«تسريعٍ» ومراكز بياناتٍ تريد كفاءةً لكلّ واطٍ في الاستدلالٍ؛ ليست دائماً البديلَ لـH100 في كلّ تدريبٍ [١].
السؤال الصحيح ليس «أي شريحة». السؤال: «أيّ شريحة تربح نفس الـSLO عند نفس حجم السياق والدفق؟»
مخطط اختيارٍ مُبسّط.
قرارٌ عمليٌ في نُقطة.
نرى في نقطة أن الـpilot يبدأ أحياناً على وحدات أصغر ثم ينتقل — شرط أن تُقاس نفس الـtokens والـlatency [٥].
ربط الاستدلال والتدريب يحدّد هل تدفع بساعات الضبط أم برموز المنتج [٤].
أسئلة شائعة.
- هل L40S «كافٍ» للعربية الثقيلة؟ يعتمد على حجم النموذج والسياق — لا على اسمٍ لغوي [٣].
- هل أستبدل A100 بـH100 دائماً؟ لا — إن كان الاختناق ذاكرةً في الـServing قد يحلّهُ محرّكٌ قبل العتاد [٢].
- كيف أثبت العرض؟ حمّل نفس الـprecision والسائق والمحرّك [٣].
- ماذا عن vLLM؟ يزيد الـthroughput — لا يغيّر فيزياء الشريحة [٢].
- هل ينطبق هذا في عُمان؟ التوريد والعقد يغيّران الـSKU المتاح — راجع السيادة الرقمية [٥].
الخلاصة.
الأرقام في كتالوج NVIDIA تدعم الاتجاه — لا القرار وحده [١][٢].
اطلب من المورّد سطراً واحداً: نفس الحمل، نفس الـbatch، نفس السياق — ثم قارن التكلفة لكل مليون token [٤].
المصادر.
[١] NVIDIA — L40S GPU (product page).
[٢] NVIDIA — H100 / A100 product overviews (data center).
[٣] MLCommons — MLPerf Inference (methodology).
[٤] نقطة — ملاحظاتٌ داخليّةٌ من طلباتٍ عروضٍ GPU، أبريلٌ ٢٠٢٦ (Nuqta internal procurement notes, April 2026).
[٥] نقطة — سياساتٌ تشغيليّةٌ لمراحلٍ pilot→prod، أبريلٌ ٢٠٢٦ (Nuqta internal rollout notes, April 2026).
مقالات ذات صلة
- ما هو GPU H100 ولماذا أصبح معيار الذكاء الاصطناعي.
ليست بطاقة ألعاب في حاسوب مكتب. هي وحدة حوسبة تُقاس بها «ساعة التدريب» و«تكلفة الرمز» في مراكز البيانات. H100 ليس سحراً؛ هو نقطة مرجعية اتفق السوق والأوراق البحثية على نقلها، لأنّ البنية والبرمجيات والسحابة التقطتها معاً.
- الفرق بين Inference والـ Training — من يدفع ماذا.
تدريبٌ مرةٍ — أو آلاف الساعات — يُنقَل ثقلُه مرة. استدلالٌ بلا توقف يُحوِّل تكلفة المشروع إلى سعرٍ لكلّ رمز. هذا المقال يفصل محورَ النقدين، ويمنع اختلاط «ميزانية التجربة» ب«فاتورة المنتج» [١].
- ما هو الـ vLLM ولماذا يُستخدم في الإنتاج.
vLLM محركٌ مفتوح المصدر لخدمة نماذج اللغة: جدولة، دفعات مستمرة، وذاكرة KV مُنظّمة بـ[PagedAttention](/journal/what-is-pagedattention-llm-serving-2026). الفكرة ليست «تغليف API» فقط — بل رفع كثافة العتاد تحت حملٍ حقيقي [١].
- مسرح تجربة الشراء — كيف تُصمَّم عروض ذكاء اصطناعي لا تفشل أبداً.
العروض التجريبية تُدار كمسرح: بيانات نظيفة، أسئلة معروفة، وغياب حوكمة كما ستكون في الإنتاج. هذا المقال يفكّك الخداع البريء ويعطيك إطار قياس يفشل مبكراً بأمان — قبل توقيع العقد.
- نهاية عصر البحث التقليدي — ما يحدث لـ Google في ٢٠٢٦.
هذا ليس نعياً على جوجل. هذا وصف لتحوّل اقتصادي: من يملك النقرة، من يملك الإجابة، ولماذا ميزانية الكلمات المفتاحية وحدها لم تعد تكفي لشرح ما يحدث في ٢٠٢٦.