معايير تقييم دقة الذكاء الاصطناعي القانوني
«دقة 95٪» جملةٌ تسويقية بلا معنى ما لم تُعرَف طريقة القياس. هذا الدليل يعطيك إطاراً عملياً تقيس به دقة أي أداة قانونية بنفسك، على قضاياك أنت.
فريق قاضي برو•١١ يونيو ٢٠٢٦•٨ دقائق قراءةكل مزوّد يقول إن أداته «دقيقة». لكن الدقة في القانون ليست رقماً واحداً، بل مجموعة أبعاد مختلفة تُقاس كلٌّ منها على حدة. وبدون تعريفٍ واضح لما يُقاس وكيف، يصبح رقم الدقة المعلَن بلا قيمة. هذا المقال يحوّل «الدقة» من شعارٍ إلى معايير قابلة للقياس.
لماذا رقم الدقة المجرّد مضلِّل
حين تقرأ «دقة 95٪»، اسأل: دقة في أي مهمة — بحث أم تحليل أم صياغة؟ على أي عيّنة من القضايا؟ ومن حكَم بأن الإجابة صحيحة؟ رقمٌ بلا هذه التفاصيل قد يقيس مهمةً سهلة على عيّنةٍ مختارة بعناية، فلا يخبرك شيئاً عن أداء الأداة على قضاياك الصعبة الحقيقية.
الأبعاد الخمسة للدقة القانونية
بدل رقمٍ واحد، قِس هذه الأبعاد كلٌّ على حدة:
- صحة الإسناد: نسبة الاستنتاجات التي يكون مصدرها موجوداً فعلاً ويقول ما نُسب إليه. هذا أهم بُعد لأنه يكشف الهلوسة مباشرةً.
- معدل الهلوسة: كم مرة تختلق الأداة مادةً أو حكماً غير موجود؟ الهدف صفر، والأداة الجيدة تقول «لا سند» بدل الاختلاق.
- الانطباق على الواقعة: قد يكون المصدر صحيحاً لكنه لا ينطبق على وقائع قضيتك — قِس صحة الربط بين المصدر والواقعة.
- التغطية: نسبة الجوانب المهمة في القضية التي التقطتها الأداة دون أن تفوتها.
- الاتساق: هل تعطي الأداة الإجابة نفسها للسؤال نفسه عند إعادته؟ التذبذب مؤشّر ضعف.
كيف تبني اختباراً عملياً في مكتبك
- 1اجمع مجموعة اختبار: عشرات الأسئلة والقضايا من مكتبك تعرف إجاباتها الصحيحة مسبقاً، متفاوتة الصعوبة.
- 2ضمِّن «أسئلة فخّ»: أسئلة لا إجابة نظامية لها، لترى هل تختلق الأداة إجابةً أم تعترف بعدم وجود سند.
- 3مرّر المجموعة على الأداة، وسجّل لكل إجابة: هل المصدر موجود؟ هل يقول ما نُسب إليه؟ هل ينطبق؟
- 4احسب نسبةً لكل بُعدٍ من الأبعاد الخمسة بدل رقمٍ إجمالي واحد.
- 5كرّر الاختبار كل فترة، فالأدوات تتغيّر مع تحديثاتها وقد تتحسّن أو تتراجع.
اختبار الفخّ
دور المراجعة العدائية في الدقة
الدقة العالية لا تأتي من النموذج وحده بل من الضوابط المحيطة به. طبقة المراجعة العدائية التي تتحقق من كل استنتاج وتحذف ما لا سند له هي ما يرفع صحة الإسناد ويخفض معدل الهلوسة. لذلك عند تقييم الدقة، اسأل لا عن «كم نسبة الدقة» بل «ما الذي يمنع الأداة من اختلاق مرجع» — راجع التفصيل في هل يُعتمد على الذكاء الاصطناعي في تحليل القضايا.
الخلاصة: قِس بنفسك، على قضاياك
لا تشترِ أداةً برقم دقةٍ في إعلان. ابنِ مجموعة اختبارٍ من قضاياك، وقِس الأبعاد الخمسة، وضمِّن أسئلة فخّ، وكرّر دورياً. ساعةٌ من القياس المنهجي تكشف ما لا تكشفه أي صفحة تسويقية. وهذا تماماً ما ندعوك إليه مع قاضي برو: اختبره على أصعب قضاياك قبل أن تقرّر.
أسئلة حول قياس الدقة
هل يكفي رقم «الدقة» الذي يعلنه المزوّد؟
لا. رقم الدقة المجرّد بلا تعريفٍ لطريقة القياس لا معنى له — دقة في أي مهمة؟ على أي عيّنة؟ وفق أي حَكَم؟ الأهم أن تختبر الأداة بنفسك على قضاياك الحقيقية وفق معايير واضحة بدل الاعتماد على رقمٍ تسويقي.
ما أهم مقياس لدقة أداة قانونية؟
صحة الإسناد: هل المصدر الذي تستشهد به الأداة موجودٌ فعلاً ويقول ما نُسب إليه وينطبق على الواقعة؟ مقياسٌ واحد مثل هذا أنفع من عشرة أرقام عامة، لأنه يكشف الهلوسة مباشرةً.
كيف أبني اختباراً عملياً للدقة؟
اجمع عشرات الأسئلة والقضايا التي تعرف إجاباتها الصحيحة، مرّرها على الأداة، وقِس صحة الإسناد ومعدل الهلوسة والتغطية والانطباق. كرّر الاختبار دورياً، فالأداة تتغيّر مع تحديثاتها.
اختبروا دقتنا على أسئلةٍ تعرفون جوابها
هاتوا مجموعة اختبارٍ من قضاياكم — بما فيها أسئلة الفخّ — وقيسوا صحة إسناد قاضي برو ومعدل هلوسته بأنفسكم.