دليل تقني

الدليل الشامل لمراقبة الذكاء الاصطناعي

دليل هندسي لمراقبة أنظمة الذكاء الاصطناعي في الإنتاج: استراتيجيات التسجيل، جمع المقاييس، تتبع الاستدعاءات وتتبع التكاليف.

20 يناير 202618 دقيقة للقراءةفريق هندسة أورنتس

ليش أنظمة الذكاء الاصطناعي تحتاج مراقبة مختلفة

هنا الموضوع عن أنظمة الذكاء الاصطناعي: المراقبة التقليدية ما تكفي. لما الـ REST API عندك يرجع خطأ 500، تعرف شي انكسر. لما الذكاء الاصطناعي عندك يرجع معلومات غلط بثقة، كل شي يبان تمام من الناحية التقنية. لوحات التحكم خضراء، الوقت صحي، ردود HTTP ناجحة. بس المستخدمين عندك ياخذون هراء.

تعلمنا هذا بالطريقة الصعبة. واحد من عملائنا كان عنده وكيل دعم عملاء بدأ يوصي بمنتجات المنافسين. ما في أخطاء في السجلات. ما في ارتفاعات بالوقت. بس بهدوء يعطي نصائح سيئة لثلاث أيام قبل ما أحد ينتبه. هنا أدركنا: مراقبة الذكاء الاصطناعي مش عن التحقق إذا يشتغل. هو عن التحقق إذا فعلاً يشتغل صح.

المراقبة التقليدية تخبرك إذا نظامك حي. مراقبة الذكاء الاصطناعي تخبرك إذا نظامك عاقل.

هذا الدليل يغطي كل اللي تعلمناه عن إبقاء أنظمة الذكاء الاصطناعي قابلة للمراقبة. مش نظرية - ممارسات فعلية نستخدمها في الإنتاج كل يوم.

الأركان الأربعة لمراقبة الذكاء الاصطناعي

خلينا نفككها لما تحتاج فعلاً تتبعه:

الركنشو يغطيليش مهم
التسجيلكل برومبت، رد وخطوة وسيطةالتصحيح لما الأمور تغلط
المقاييسالوقت، استخدام التوكنز، معدلات النجاح، التكاليفتخطيط السعة والميزانية
التتبعدورة حياة الطلب الكاملة عبر الخدماتفهم سير عمل الذكاء الاصطناعي المعقد
الجودةدقة الردود، الصلة، السلامةاكتشاف التدهور قبل المستخدمين

أغلب الفرق تبدأ بالتسجيل، تدرك إنها تحتاج مقاييس للتحكم بالتكاليف، تضيف التتبع لما التصحيح يصير مؤلم، وأخيراً تنفذ مراقبة الجودة بعد حادثة سيئة. وفر على نفسك المتاعب وابني الأربعة من البداية.

التسجيل: خط دفاعك الأول

شو تسجل

كل تفاعل مع الذكاء الاصطناعي لازم يلتقط:

  • الهوية (request ID، session ID، user ID)
  • المدخل (system prompt، user prompt، السياق)
  • تكوين النموذج (النموذج، temperature، max tokens)
  • المخرج (المحتوى، سبب الانتهاء، استدعاءات الأدوات)
  • الأداء (الوقت بالميلي ثانية، التوكنز المدخلة، التوكنز المخرجة)
  • التكلفة (التكلفة المقدرة بالدولار)
  • البيانات الوصفية (الطابع الزمني، البيئة، الإصدار)

تسجيل البيانات الحساسة

هنا يصير الموضوع معقد. تحتاج تسجل البرومبتات للتصحيح، بس البرومبتات غالباً تحتوي بيانات مستخدمين. نهجنا:

  1. تجزئة الحقول الحساسة - خزن hash للبيانات الشخصية، مش القيم الفعلية
  2. تخزين منفصل - البرومبتات الكاملة تروح لمخزن مقيد ومشفر بفترة احتفاظ قصيرة
  3. أخذ العينات - سجل البرومبتات الكاملة لنسبة من الطلبات في الإنتاج فقط
  4. الحذف - استخدم أنماط regex لإزالة أنماط البيانات الشخصية الشائعة قبل التسجيل

المقاييس: الأرقام اللي فعلاً مهمة

المقاييس الأساسية للتتبع

المقياسالنوعشو يخبرك
ai.request.latencyHistogramكم تاخذ الاستدعاءات (p50, p95, p99)
ai.request.tokens.inputCounterاستهلاك التوكنز المدخلة
ai.request.tokens.outputCounterاستهلاك التوكنز المخرجة
ai.request.costCounterتكلفة الدولار بالطلب
ai.request.success_rateGaugeنسبة الإكمالات الناجحة
ai.request.error_rateGaugeالفشل بنوع الخطأ
ai.model.rate_limit_hitsCounterكم مرة تم تقييدك
ai.cache.hit_rateGaugeفعالية الكاش الدلالي

تتبع التكاليف: المقياس اللي ياخذ انتباه الإدارة

خلينا نكون صريحين - التكلفة عادةً اللي تجيب محادثات المراقبة للطاولة. هنا كيف تتبعها صح:

ابني لوحات تحكم تعرض:

  • الإنفاق اليومي/الأسبوعي/الشهري بالنموذج
  • التكلفة بالميزة أو حالة الاستخدام
  • التكلفة بالعميل (لـ B2B)
  • الإنفاق الشهري المتوقع بناءً على المسار الحالي
  • كشف الشذوذ لارتفاعات التكلفة المفاجئة

التتبع: متابعة الخيط

سير عمل الذكاء الاصطناعي ما عاد استدعاءات فردية. هي سلاسل، وكلاء وعمليات معقدة متعددة الخطوات. التتبع يخليك تتبع طلب عبر النظام كامل.

شو يعرضه التتبع الجيد

تتبع مُقاس كويس يكشف:

[تنفيذ الوكيل] 4.2ث
├── [التخطيط] 1.1ث
│   └── [استدعاء LLM: gpt-4] 1.0ث - 234 توكن داخل، 156 توكن خارج
├── [الخطوة 1: استرجاع RAG] 0.3ث
│   ├── [توليد Embedding] 0.1ث
│   └── [بحث Vector] 0.2ث - 5 مستندات استُرجعت
├── [الخطوة 2: تركيب LLM] 2.1ث
│   └── [استدعاء LLM: gpt-4] 2.0ث - 1,456 توكن داخل، 523 توكن خارج
└── [الخطوة 3: تنسيق الرد] 0.7ث
    └── [استدعاء LLM: gpt-4o-mini] 0.6ث - 678 توكن داخل، 234 توكن خارج

الحين لما أحد يبلغ عن رد بطيء، تقدر تشوف بالضبط وين راح الوقت.

تصحيح البرومبتات: الجزء الصعب

هنا وين مراقبة الذكاء الاصطناعي تختلف أكثر عن المراقبة التقليدية. كيف تصحح شي يشتغل بشكل مختلف كل مرة؟

إصدارات البرومبتات

عامل البرومبتات مثل الكود. أعطها إصدارات.

A/B تجربة البرومبتات

ما تقدر تحسن اللي ما تقيسه. شغل تجارب على تغييرات البرومبتات.

تصحيح الردود الفاشلة

لما رد ذكاء اصطناعي يغلط، تحتاج تجيب:

  1. شو كان المدخل؟ - البرومبت الكامل شامل رسالة النظام، السياق ومدخل المستخدم
  2. شو السياق اللي استُرجع؟ - لأنظمة RAG، أي مستندات أثرت على الرد
  3. شو كان تفكير النموذج؟ - إذا تستخدم chain-of-thought، شو الخطوات اللي أخذها
  4. كيف أثرت المعاملات على المخرج؟ - Temperature، top_p، frequency penalty
  5. هل هذي حالة لمرة واحدة أو نمط؟ - ابحث عن مدخلات مشابهة أنتجت فشل مشابه

مراقبة الجودة: هل الذكاء الاصطناعي فعلاً كويس؟

هذا أصعب جزء من مراقبة الذكاء الاصطناعي. المقاييس التقنية ممكن تكون خضراء بينما الذكاء الاصطناعي ينتج هراء.

فحوصات الجودة الآلية

  • طول الرد (داخل النطاق المقبول)
  • ما في URLs مهلوسة
  • التأسيس الواقعي (الادعاءات مدعومة بالسياق المسترجع)
  • فحص السلامة

التقييم بمشاركة بشرية

الفحوصات الآلية تمسك المشاكل الواضحة. لقضايا الجودة الدقيقة، تحتاج مراجعة بشرية:

  • عينة نسبة من الردود للمراجعة البشرية
  • راجع دائماً لما: ثقة منخفضة، تغذية راجعة سلبية من المستخدم، الفحوصات الآلية فشلت، عميل عالي القيمة

التنبيهات: معرفة لما الأمور تغلط

عتبات التنبيه لأنظمة الذكاء الاصطناعي

التنبيهالعتبةالشدةالإجراء
الوقت p95 > 10ث5 دقائق مستمرةتحذيرفحص مزود النموذج
معدل الخطأ > 5%2 دقيقة مستمرةحرجفحص حالة API، failover
ارتفاع التكلفة > 3x الخط الأساسي1 ساعةتحذيرراجع الترافيك، فحص الحلقات
انخفاض جودة > 20%1 ساعةحرجأوقف الميزة، تحقق
ضربات حد المعدل > 10/دقيقة5 دقائقتحذيرخفف السرعة، فحص الإساءة
كشف حقن برومبتأيحرجاعترض الطلب، راجع

بناء رصة المراقبة

الأدوات اللي ننصح فيها

الفئةمفتوح المصدرتجاري
التتبعJaeger، ZipkinDatadog، New Relic
المقاييسPrometheus + GrafanaDatadog، Dynatrace
التسجيلELK Stack، LokiSplunk، Datadog
خاص بالذكاء الاصطناعيLangSmith، PhoenixWeights & Biases، Helicone
التنبيهاتAlertmanagerPagerDuty، OpsGenie

البداية: أول أسبوع

اليوم 1-2: التسجيل الأساسي

  • أضف تسجيل منظم لكل استدعاءات الذكاء الاصطناعي
  • شمّل: النموذج، الوقت، عدد التوكنز، اسم الميزة
  • خزن السجلات في مكان قابل للاستعلام

اليوم 3-4: المقاييس الأساسية

  • أعد عدادات التوكنز والتكاليف
  • أنشئ histograms للوقت بالنموذج والميزة
  • ابني أول لوحة تحكم

اليوم 5: التنبيهات

  • نبه على ارتفاعات معدل الخطأ
  • نبه على شذوذ التكاليف
  • نبه على تدهور الوقت

الأسبوع 2: الجودة والتتبع

  • نفذ فحوصات جودة أساسية
  • أضف تتبع موزع لسير عمل الذكاء الاصطناعي متعدد الخطوات
  • ابدأ جمع تغذية راجعة المستخدمين

الخلاصة

مراقبة الذكاء الاصطناعي ما عادت اختيارية. كلما أنظمة الذكاء الاصطناعي تتعامل مع سير عمل أكثر حرجاً، تحتاج تعرف مش بس إذا تشتغل، بس إذا فعلاً تشتغل صح.

الخبر الحلو: أغلب اللي تحتاجه يمكن بناؤه فوق بنية مراقبة موجودة. OpenTelemetry، Prometheus، تسجيل منظم - هذي الأدوات تشتغل للذكاء الاصطناعي بعد. الفرق هو معرفة شو تقيس وكيف تفسره.

ابدأ بسيط. سجل كل شي. تتبع التكاليف. أضف فحوصات جودة. ابني من هناك.

أفضل وقت لإضافة المراقبة كان قبل ما تطلق. ثاني أفضل وقت هو الحين.

ساعدنا فرق تنتقل من "ما عندنا فكرة شو الذكاء الاصطناعي عندنا يسوي" لـ "مسكنا المشكلة في 3 دقائق" في غضون أسابيع. الاستثمار يدفع عن نفسه أول مرة تصحح مشكلة إنتاج في دقائق بدل ساعات.

إذا تبني أنظمة ذكاء اصطناعي وتبي تتكلم عن استراتيجيات المراقبة، تواصل معنا. شفنا الكثير من أنماط الفشل ومستعدين نشارك اللي تعلمناه.

المواضيع المغطاة

مراقبة الذكاء الاصطناعيمراقبة LLMتصحيح البرومبتاتمقاييس الذكاء الاصطناعيأداء النموذجتتبع التكاليفتتبع الذكاء الاصطناعيذكاء اصطناعي للإنتاجتسجيل الذكاء الاصطناعي

جاهز لبناء أنظمة ذكاء اصطناعي جاهزة للإنتاج؟

فريقنا متخصص في بناء أنظمة ذكاء اصطناعي جاهزة للإنتاج. خلينا نحكي كيف نقدر نساعد.

ابدأ محادثة