مقارنة · نماذج·مايو ٢٠٢٦·١٤ دقيقة قراءة

Qwen2.5-72B مقابل GPT-4o — أيّهما أفضل للعربية‏.

قبل أسبوعين، وقف مدير منتج في مسقط بين شاشتين: واحدة تعرض تلخيصاً لعقد فصيح، والثانية تخرج جدولاً من تقرير تحتاج أرقاماً منظمة. نفس المستند، مهمان مختلفان، وكلاهما «عربية» لكن ليسا نفس نوع العبء اللغوي.

هذا النص ليس قائمة أبطال. نحن في نقطة نشغّل نوعي النماذج حسب المخاطر والسعة والتكلفة. ما نشرحه هنا خلاصة قياس داخلي على مجموعة نحو ٤٨٠ وثيقة ومقطع بالعربية بينها عقود حكومية وفصيحة، ومقتطفات عميل بلهجة خليجية، وفقرات أرقام وفواصل عشرية [٦]. الاستنتاج العريض: GPT-4o يتقدم في تلخيص الفصحى والاحتفاظ الدقيق بالأرقام؛ Qwen2.5-72B كان أقوى حسب معيارنا الخاص في فهم اللهجة الخليجية المختلطة في الرسائل بعد ضبط الدفعات — مع كل الفوارق التشغيلية التي تأتي مع نشر داخلي.

ما الذي نسميه «أفضلاً للعربية» في الواقع‏.

العربية ليست مهمة واحدة؛ هي طيف من المهام ولكلٍ منها وزن أخطاء مختلف. تلخيص قانوني مختلف عن استخراج اسم شركة من جملة عميل، وكلاهما مختلف عن التعامل مع الأعداد العشرية بدون حذف أصفار.

لذلك نقيس على سبع غرف اختبار نُعيد صياغتها هنا باختصار مفيد للإداريين: الفصحى؛ الكيانات؛ الحقول الرقمية؛ المصطلحات المتخصصة؛ لهجة الخليج؛ حجم السياق؛ ومحور التكلفة مقابل السيادة [٦].

تلخيص الفصحى المركّز: أعلى دقة نسبية لـGPT-4o في جولاتنا [٦].
استخراج الكيانات: تقارب، مع اختلاف طفيف بين العينات حسب الضبط وليس «السحر» [٦].
الأرقام المالية والعملات: GPT-4o ظلّ أكثر حذراً من فقدان خانات أو فواصل في حالات المزج بين العربية والإنجليزية في نفس الفقرة [٢][٦].
المصطلحات الشرعية أو الإدارية الموحّدة: تقارب بعد توحيد الضبط؛ لا فائزاً مطلقاً بحسب عينة المستند لا الحديث التلفزيوني.
اللهجة الخليجية في رسائل قصيرة: أفضلية لـQwen2.5 في مجموعتنا بعد ضبط أمثلة قليلة وتثبيت الحرارة [١][٦].
السياق الطويل المركّب: أداء GPT-4o أفضل عند دمج فقرات متعددة البنى في جلسة واحدة ضمن حدود منتجاتنا [٢][٦].
التكلفة والسيادة: النموذج المفتوح للوزن يمكن تشغيله حيث تملكون السجلات؛ المنظومة الخارجية تدفع لكل رمز لكن تقلل عبء التشغيل [١][٢][٥].

متى تختار GPT-4o عملياً‏.

نعتمد GPT-4o عندما يكون الإطلاق أسرع من بناء السعة، عندما لا تغادر بياناتكم منطقة ضبط تعاقدي مع OpenAI، عندما تحتاجون أرقاماً دقيقة وتلخيصاً لغوياً مركّزاً في فصحى معقدة، أو عندما لا يملك فريقكم بعد خبرة خدمة نموذج وزن كبير تحت حمل [٢][٦].

المشكلة ليست اسم النموذج على البطاقة؛ المشكلة هل لديكم قياس واحد يُربط التكلفة بدقة المهمة قبل أن تبيعوا القرار للمجلس.

متى يبرّر Qwen2.5-72B وزن التشغيل الداخلي‏.

عند تجاوز حدود معينة من الرموز حيث يصبح سعر الـAPI شهرية يضاهي قسط أجهزة قابل للتدوير؛ عندما لا يمكنكم قانونياً إرسال جزء من المحتوى خارج منشأتكم؛ عندما تحتاجون ضبطاً متكرراً على لهجات داخلية أو أساس معرفي مغلق؛ يصبح نموذج وزن مفتوح وفق رخصته خياراً له حدوده التشغيلية الواضحة [١][٥][٦].

المخطط: جودة مهمة مقابل تكلفة تشغيل تقريبية‏.

FIG. 1 — QUALITATIVE TRADE-OFF: ARABIC TASK QUALITY VS OPERATIONAL COST

كم يكلف عدم القياس‏.

اختاروا معياراً واحداً قبل نقاش الشعار: «دقة على عينة ٢٠٠ مستند» أو «تكلفة لكل مليون رمز عند ٧٠٪ استخدام». ثم اقرأوا الحساب الكامل لتكلفة السنة الأولى كي لا تُقارن اشتراكاً شهرياً ببطاقة وحدة دون فريق [٥]. لمقارنة الصنف الأعلى من العائلات راجعوا الفرق بين GPT-4 وClaude وGemini.

خاتمة: لا «أفضل مطلق» — يوجد «مناسب»‏.

نحن نستخدم النوعين بحسب المهمة: GPT-4o لمختبرات سريعة وممرات فيها أرقام ثقيلة؛ ونماذج وزن مفتوح عند سيادة أعلى أو لهجة داخلية أو حجم رموز يبرّر الكتلة التشغيلية [٦].

إذا لم تستطيعوا كتابة قراركم في جملتين هذا الأسبوع — «المهمة» و«المقياس» — فأنتم لا تزالون تشتريون سرداً تسويقياً لا منتجاً، وتعرفون من أين يبدأ العمل.

أسئلة شائعة‏.

أيهما أفضل للعربية Qwen2 أم GPT-4o؟ لا يوجد فائز مطلق؛ يعتمد على مهمة اللغة وحساسية البيانات وحجم الرموز الذي تدفعون عنه [١][٢][٦].
هل النماذج المفتوحة أرخص دائماً؟ ليست دائماً في السنة الأولى إذ تدخل الأجهزة والفرق؛ التعادل يتحرك مع الحجم [٥].
كم عيّنة كافية قبل الإنتاج؟ مائتا مستند من نوعكم الحقيقي أفضل من آلاف جمل عامة من الإنترنت.
ماذا عن الخصوصية؟ قرار المزود والمسار القانوني قبل اسم النموذج؛ راجعوا بيانات عُمانية على خادم أمريكي.
هل يكفي ضبط الحرارة؟ لا؛ البنية حول الاستدعاء والاختبار على عينات ثابتة هي ما يمنع المفاجآت في الإنتاج.

المصادر‏.

[١] Alibaba Cloud — Qwen2.5 model card & license — Hugging Face Hub.

[٢] OpenAI — GPT-4o announcement and system documentation.

[٣] نقطة — إجراءات ضبط تقييم اللغة العربية (معايير داخلية للتسجيل)، مارس ٢٠٢٦ (Nuqta Arabic eval protocol, March 2026).

[٤] Manning، Raghavan، Schütze — Introduction to Information Retrieval — مرجع لمقاييس تقييم أنظمة النصوص.

[٥] نقطة — ورقة تكامل تكلفة السنة الأولى لمقارنة API مقابل تشغيل وزن مفتوح، مايو ٢٠٢٦ (Nuqta TCO crosswalk, May 2026).

[٦] نقطة — بنشمارك داخلي (~٤٨٠ وثيقة عربية، سبع مهام)، مايو ٢٠٢٦ (Nuqta internal Arabic benchmark snapshot, May 2026).