كيف نقيس جودة بوت محادثة.
فيصل العنقودي · المؤسس · الرئيس التنفيذي
البوت الذي يردّ على ألف رسالة ليس بوتاً جيّداً بالضرورة. هذه هي الأرقام الأربعة التي نقيسها في نُقطة، ولماذا أغلب الناس يقيسون الأرقام الخطأ.
أكثر خطأ نراه في الشركات التي جرّبت بوتات قبلنا: قاست النجاح بعدد الرسائل المُجابة. الرقم يبدو جميلاً في التقرير الشهريّ. «البوت ردّ على ٢,٤٠٠ رسالة.» مجلس الإدارة يصفّق، المدير ينشر لقطة الشاشة على لينكدإن، والعميل الحقيقيّ — خلف الكواليس — يُلغي المتابعة.
الجودة في البوتات لا تُقاس بعدد الردود. تُقاس بنتائج المحادثة. وفي هذا المقال، نشرح كيف نقيسها في نُقطة، بمنهج قابل للتكرار في أيّ شركة.
رقم الغرور: «عدد الرسائل المُجابة».
في أدبيّات القياس، يُسمّى هذا النوع من الأرقام «Vanity Metric» — رقم يرتفع مع الاستخدام بشكل تلقائيّ، ولا يخبرك شيئاً عن القيمة. عدد الرسائل المُجابة يرتفع سواء كان البوت يُجيب إجابات صحيحة أو يردّ بعبارات عامّة لا علاقة لها بالسؤال. في الحالتين، «ردّ».
الصورة التالية تُظهر المشكلة. نفس الألف رسالة التي يراها المدير ككتلة واحدة ناجحة، تتفكّك عند التحليل إلى ثلاث فئات، اثنتان منها فشل صامت:
الأرقام الأربعة التي نقيسها.
بعد اثنتين وعشرين محادثة قياس مع عملاء في قطاعات مختلفة، استقرّينا على أربعة مؤشّرات. ليست كلّ مشروعاتنا تراقبها كلّها، لكنّ أيّ بوت لا يقيس ثلاثة منها على الأقلّ، نعتبره في مرحلة تجريبيّة، لا إنتاجيّة:
- معدّل الحلّ (Resolution Rate): نسبة المحادثات التي انتهت بحلّ دون تحويل لبشريّ، ولم يُعَد سؤالها خلال ٢٤ ساعة.
- معدّل التحويل البشريّ (Handoff Rate): نسبة المحادثات التي حُوِّلت لموظّف. ليس سلبيّاً بالضرورة، لكنّه يكشف حدود البوت.
- معدّل الانقطاع الصامت (Abandonment Rate): نسبة المحادثات التي بدأها العميل، تلقّى ردّاً أو أكثر، ثمّ لم يُكمل. أخطر مؤشّر وأهمّه.
- زمن الوصول للحلّ (Time-to-Resolution): متوسّط الوقت من أوّل رسالة إلى آخر رسالة في محادثة حُلّت فعلاً.
الشكل التالي يُظهر لوحة قياس واقعيّة لبوت في قطاع التجزئة بعد الشهر الثاني. كلّ خطّ أزرق متقطّع هو الهدف الذي اتّفقنا عليه مع العميل قبل الإطلاق:
ما لا يُقاس لا يتحسّن. وما يُقاس بالرقم الخطأ، يسوء بصمت.
كيف نُعرِّف «محادثة محلولة»؟
هذا السؤال، على بساطته، هو نقطة الخلاف الأكبر بيننا وبين بعض العملاء في الأسابيع الأولى. تعريفنا صارم، ومتعمّد:
- لم تُحوَّل المحادثة إلى موظّف بشريّ.
- لم يُعِد العميل السؤال نفسه (أو قريبه الدلاليّ) خلال ٢٤ ساعة.
- لم تحتوِ الرسائل الأخيرة على إشارات فشل ضمنيّة: «ما فهمت»، «يعني؟»، «موظّف من فضلك»، «ما أفهم».
- إن طُلب تقييم، كان التقييم ٤ من ٥ أو أعلى — لا نكتفي بـ ٣ المحايدة.
ملاحظة دقيقة: العميل الذي يقول «شكراً» ثمّ يغادر، لا نعتبر محادثته محلولة تلقائيّاً. «شكراً» في الخليج أدب اجتماعيّ، لا بالضرورة دليل رضا. نبحث عن إشارات أعمق: هل أتمّ الإجراء المقصود (تابع الطلب، حجز، دفع)؟ هل عاد خلال أسبوع بسؤال متعلّق؟ هل ارتفع معدّل استخدامه للقناة؟
ماذا نفعل أسبوعيّاً.
القياس ليس عمليّة آليّة بالكامل. في نُقطة، كلّ أسبوع، نجري ما نسمّيه «مراجعة المئة». نختار عيّنة عشوائيّة من ١٠٠ محادثة، نصنّفها يدويّاً، ونقارن تصنيفنا بتصنيف البوت التلقائيّ. الفجوة بين الاثنين هي البوصلة الحقيقيّة. إن كان البوت يُصنّف ٨٠٪ من المحادثات «محلولة» بينما نصنّفها يدويّاً ٦٠٪، فلوحة القياس تكذب بمعدّل ٢٠ نقطة.
هذه المراجعة اليدويّة مكلفة. ساعة إلى ثلاث ساعات أسبوعيّاً لكلّ بوت. لكنّها الفرق بين منتج يتحسّن ومنتج يخيب بصمت.
ثلاثة أخطاء شائعة في قياس المحادثات.
- قياس المتوسّط دون التوزيع: بوت بمتوسّط رضا ٤.٢ قد يُخفي ٣٠٪ من العملاء يعطون ١ و١ و٢. المتوسّط يُخبرك الوسط، لا الذيول — والذيول هي التي تُلغي اشتراكها.
- قياس بعد انتهاء المحادثة فقط: معظم العملاء لا يُجيبون على استبيان الختام. قِس داخل المحادثة أيضاً: لحظات التوقّف، تكرار نفس السؤال، الإشارات اللغويّة للإحباط.
- قياس عيّنة صغيرة من المحادثات «الجيّدة»: لا تختر المحادثات التي أكملها البوت. اختر عيّنة عشوائيّة تشمل المنقطعة. الفشل يُعلِّم أكثر من النجاح.
مثال حقيقيّ (مُبسَّط).
في الشهر الأوّل لبوت بنكيّ أطلقناه، كان التقرير الآليّ يقول: «٢,٤٠٠ رسالة، متوسّط رضا ٤.٢». بدا كلّ شيء جيّداً. بعد مراجعة يدويّة لعيّنة ١٠٠، اكتشفنا:
- معدّل الحلّ الفعليّ: ٣٨٪ فقط، لا ٨٠٪ كما صنّف البوت.
- معدّل الانقطاع الصامت: ٥٠٪ — نصف العملاء تلقّوا ردّاً أوّل ثمّ اختفوا.
- السبب الجذريّ: البوت كان يردّ بـ «يرجى الانتظار، جاري التحقّق» ثمّ لا يعود أبداً. العميل يظنّ أنّ هناك تحقّقاً جارياً، ثمّ يتخلّى.
الحلّ لم يكن نموذجاً أكبر، ولا بيانات تدريب جديدة. كان قاعدة برمجيّة بسيطة: كلّ ردّ يحتوي «جاري التحقّق» يجب أن يُتبَع تلقائيّاً بردّ خلال ٣٠ ثانية، وإلّا يُحوَّل لبشريّ. في الشهر التالي، ارتفع معدّل الحلّ إلى ٦٤٪، وانخفض الانقطاع إلى ١٩٪.
الفارق لم يأتِ من الذكاء الاصطناعي. أتى من القياس.
خلاصة.
إن قال لك مزوّد بوت «البوت ردّ على X رسالة هذا الشهر»، فهذا ليس تقريراً. هو إعلان. اطلب منه كتابيّاً: معدّل الحلّ، معدّل التحويل، معدّل الانقطاع، وزمن الوصول للحلّ — مع تعريف كلّ واحد منها. إن لم يستطع، فإنّه يقيس رقماً لا يُخبره بشيء.
في نُقطة، لا نُطلق بوتاً قبل أن نبني لوحة قياسه. ليس لأنّنا نحبّ الأرقام، بل لأنّنا رأينا ما يحدث حين تغيب: يستمرّ البوت يعمل لستّة أشهر، ينتج تقارير جميلة، ويخسر العميل ببطء. القياس ليس إضافة. هو النصف الثاني من المنتج.
مقالات ذات صلة
- لماذا يفشل معظم بوتات الذكاء الاصطناعي العربية.
ليست المشكلة في النموذج. المشكلة أنّنا نُدرِّبه على عربيّة لا أحد يتكلّمها، ثمّ نندهش حين لا يفهمنا أحد.
- تشغيل نموذج لغويّ في سلطنة عُمان.
الرؤية، الهندسة، النماذج المفتوحة المُرشَّحة، والتكلفة الحقيقيّة سنةً كاملة. هذا ليس عرضاً تجاريّاً — هو الحساب الذي نكتبه قبل كلّ نقاش مع عميل يسأل: لماذا نبني بدل أن نستأجر؟