تخطي إلى المحتوى
روبيكس

التطوير المدفوع بالتقييم.

هيكل التقييم قبل النموذج.

الفئة

روبيكس

متى نوصي به

كل بناء مرحلة 02. لا استثناءات. إذا لم نستطع تحديد التقييمات، لم نستطع تحديد حالة الاستخدام، ولا يجب أن نبني.

ما هو

الإطار، ما يغطيه، والمشكلة التي يعالجها.

انضباط تطوير مستعار من التطوير المدفوع بالاختبارات ومطبق على أنظمة النماذج اللغوية الكبيرة. هيكل التقييم يُبنى قبل ضبط النموذج أو إنهاء الأمر. التقييمات متخصصة بالمجال: الأمانة (هل الإجابة تطابق المصدر)، دقة الاستشهاد (هل المصدر المستشهد به يقول ما تدعيه الإجابة)، التكافؤ ثنائي اللغة (هل النسختان العربية والإنجليزية تقولان نفس الشيء)، معدل الإيجابيات الكاذبة (هل نطلق إنذاراً كاذباً). عتبات التقييم تصبح بوابات إصدار.

لماذا يهم

سبب وجود هذا الإطار في مجموعة أدوات روبيكس، ولماذا تجاوزه اختصار خاطئ.

أنظمة النماذج اللغوية الكبيرة تُعرض جيداً وتُسلم بشكل سيء. الفريق يبني شيئاً يبدو مبهراً في خمس حالات اختبار ويفشل في السادسة عشرة. التطوير المدفوع بالتقييم هو الانضباط الذي يكشف الحالة السادسة عشرة قبل العميل. هو أيضاً ما ينتج ثقة المشغل: الموظفون يتصرفون بناءً على التنبيهات عندما يكون معدل الإيجابيات الكاذبة تحت عتبة إحباطهم.

في المملكة ودول الخليج

سياق إقليمي: PDPL وSDAIA ورؤية 2030 والسعودة وواقع التشغيل الذي يشكل تطبيق الإطار هنا.

في النشر ثنائي اللغة (عربي/إنجليزي)، انضباط التقييم غير قابل للتفاوض. نظام يعمل بنسبة 95% أمانة بالإنجليزية و78% بالعربية ليس نظاماً "مقبولاً غالباً"؛ هو غير صالح للإنتاج. التطوير المدفوع بالتقييم يجعل هذا التفاوت مرئياً ويفرض معالجته.

كيف تطبقه روبيكس

مراحل منهجية روبيكس حيث يُفعّل هذا الإطار، وما نفعله به هناك.

المرحلة 02

البناء. السبرنت 0 لكل بناء مرحلة 02 هو هيكل التقييم. التقييمات المتخصصة بالمجال تُحدد مع العميل، العتبات يُتفق عليها، مجموعة الانحدار تعمل قبل كتابة أي كود نموذج.

المرحلة 03

التوسع. التقييمات تعمل باستمرار في الإنتاج. حالات الاستخدام الجديدة توسع هيكل التقييم بدلاً من استبداله.

أخطاء شائعة

أنماط الفشل التي رأيناها عن قرب، مكتوبة ليتجنبها المشروع التالي.

  • 01

    التعامل مع التقييمات كـ"سنضيفها لاحقاً." لاحقاً يعني أبداً. التقييمات المبنية بعد النظام لا تكون أبداً صادقة مثل التقييمات المبنية قبله.

  • 02

    عتبات التقييم يحددها فريق الهندسة وحده. العتبات تُحدد مع فريق العمليات الذي سيثق (أو لا يثق) بالتنبيهات.

  • 03

    التقييم على مجموعة التدريب. مجموعات الاختبار المحجوزة غير قابلة للتفاوض. نُدوّر المجموعات المحجوزة عبر السبرنتات.