ذكاء اصطناعي · نماذج·أبريل ٢٠٢٦·٧ دقائق قراءة

ما هو الـ LoRA وكيف يُقلّل تكلفة ضبط النماذج‏.

فيصل العنقودي · المؤسس والرئيس التنفيذي

عندما يقال «ضبط دقيق» قد تتصوّر تحديث مليارات الأوزان في دورة مكلفة. LoRA طريقة تضيف طبقات بِرَنْك منخفض وتُحدِّث حصّة صغيرة جداً من المعاملات — قد تكفي لتحويل سلوك النموذج في مهام ضيّقة دون إعادة نسخ كلّ الأوزان. هذا المقال يشرح المبدأ بلا مبالغة، ومتى ينتقل الوفير من الورقة إلى الاستثمار [١].

سبعون مليار مُعَلِّمة لا تعني «سبعين ملياراً تُعدَّل في كلّ خطوة تدريب» عندما تختار LoRA. كثيرٌ من الميزانيات تُدمر لأنّ الفريق صمّم كأن الضبط يعني دائماً نسخة كاملة من الوزن. هذا المقال ليس ضدّ الضبط الكامل؛ نحن نضع له مكانه. لكنّنا نبني قرار التكلفة على الفرق بين «تحديث كل شيء» و«إضافة محوّل صغير» [١].

للفصل المفهومي: راجع ما هو الـ Fine-tuning ثم ما هو نموذج اللغة الكبير — دليل ٢٠٢٦. هناك نركّز على الاقتصاد: متى تُنقذ LoRA الميزانية ومتى تُضعف الجودة إن تجاهلت حدودها [٥].

تعريف سريع: ماذا تغيّر LoRA فعلياً‏.

LoRA (Low-Rank Adaptation) تُجمد الأوزان الأساسية وتحقن تحديثاً منخفضَ الرتبة داخل المسارات الخطيّة المختارة — غالباً داخل طبقات الانتباه والتغذية الأمامية في Transformer — بمعادلة تفكك التحديث إلى مُضاعِفَين أصغر يربطهما رتقة r صغيرة [١].

الفكرة ليست «نموذجاً جديداً بذاكرةٍ بشرية»؛ هي ضغط: تمثيل التحديث في مساحة أبعاد أصغر. إذا ضُبطت الرتبة والوحدات المستهدفة بذكاء، تقلّ وحدات التخزين ووحدات التدريب بما يكفي لتشغيل دورات تكييف شهرية بلا نشر وزنٍ كاملٍ [٥].

LoRA ليست اختصاراً في الفهم؛ هي اختيارٌ هندسي: نقلُ الجزء الذي يتكرّر تعلّمُه — لا كلّ ما يتكرّر قوله.

الأرقام التي تهمّ ميزانيتك: مقارنةٌ مع الضبط الكامل‏.

في الضبط الكامل تُتدرّب شبهُ كلّ أوزان النموذج المعرّفة — ذاكرة GPU كبيرة، تدرّب أطول، ودمج/تحقق من أدوات النشر. مع LoRA، يُنشر غالباً «محوّل» يُقاس مئات الميغابايتات بدل عشرات إلى مئات الجيغابايت [١].

نسبة المعاملات «القابلة للتدريب» تبقى رمزاً: التطبيقات الجيدة تُديرها كـ% من الوزن الكلي وتربطه برَنك r وطبقات الهدف [١]؛ اربط الادّعاء بقياسٍ داخلي: زمن الدمج، وفر أسبوعي في استدعاءات البرومبت، ونسبة انحرافٍ مُقبولٍ [٥].

FIG. 1 — TRAINABLE FOOTPRINT: FULL FINE-TUNE VS LORA (SCHEMATIC)

QLoRA: حين يلتقي التكميم والضبط منخفض الرتبة‏.

يضيف QLoRA التكميم رباعيَ البت مع محسّناتٍ مُجزّأةٍ (paged) ودمجاً للذاكرة — ما يمكّن جلساتٍ تدريبيةً على وحداتٍ أصغر مما تتطلّبها مسارات FP16 الضخمة [٢].

لكنّ ذلك لا يعني الاستغناء عن عتادٍ يلائم المهمة: تدريبٌ اقتصاديٌ بلا قياسٍ ينتج مهايئاتٍ لائقةً بمتوسّطٍ سوقيٍ — لا ببيئتك — فأعدْ الاعتماد على الاختبار [٣][٤].

مسارٌ عملي: متى تختار LoRA — ومتى تتوقّف‏.

اختر LoRA عند تكرارٍ عالٍ وصيغٍ مُستقرة (قوالب، سياقٌ تنظيمي) بعد أن يقيس البرومبت سقف الجودة [٤].
تجاوز إلى ضبطٍ أوسع أو مزيجٍ (LoRA+ رؤوس) حين تفشل المهمة في الأمان أو التنسيق — إنّها ليست حلاً مُكرّراً برفع الرتبة فحسب [٣].
لا تستبدل LoRA مكان RAG: الحقائق المُتجدّدة تبقى في الاسترجاع؛ راجع دليل RAG قبل تجميد المعرفة في الأوزان [٥].

أسئلة شائعة‏.

ما الفرق بين LoRA وضبطٍ «كامل»؟ الضبط الكامل يحدّث معظم أوزان النموذج؛ LoRA تُدْرج تحديثاً منخفض الرنك يُنشر كمحوّل [١].
هل LoRA تغني عن vLLM؟ لا؛ الأولى تدريبٌ، والثاني خدمةٌ مُرصوفةٌ في الاستدلال [٣].
كيف أختار رَنك r؟ تدرّباً: ابدأ صغيراً وارفع بمقياسٍ مؤسَسٍ — لا بأساطير [٤].
هل QLoRA «آمنٌ دائماً؟» هو اختصارٌ اقتصاديٌ + إجراءٌ: راقب ميول التكميم (quantization) والانحراف على بياناتك [٢].
هل ينبغي الاحتفاظ بمحوّلٍ لكلّ عميل؟ راعِ عزل المهايئات: حدّد التكلفة والنسخ والامتثال (انظر PDPL وAI عند الحساسيّة) [٥].

الخلاصة والدعوة‏.

LoRA تُنزِل فاتورة الضبط — متى وُجِدَت مهمّةٌ مُتكرِّرةٌ وقياسٌ يدفعك للتفكير في التدرّب الكُلي. وإلّا فهي مجرّد مكوّنٍ تدفع ثمنه كأي بندٍ آخر في الجدول [٤].

هذا الأسبوع: صف مهمتك بسطرٍ — أيهما يرتفع مؤشّر الجودة: محوّلٌ رقيقٌ أم تعليماتٌ أطول فقط؟ إن وُضح الجواب، فأنت تعرف من أين تبدأ التجربة.

المصادر‏.

[١] Hu et al. — LoRA: Low-Rank Adaptation of Large Language Models — ICLR 2022.

[٢] Dettmers et al. — QLoRA: Efficient Finetuning of Quantized LLMs — NeurIPS 2023.

[٣] vLLM Team — vLLM documentation.

[٤] Hugging Face — PEFT: LoRA and adapters.

[٥] نقطة — ملاحظاتٌ داخليّةٌ لمسار التكيّف ونشر المهايئات، أبريل ٢٠٢٦ (Nuqta internal PEFT and hosting notes, April 2026).