دليل تقني

الدليل الشامل لمراقبة الذكاء الاصطناعي

دليل هندسي لمراقبة أنظمة الذكاء الاصطناعي في الإنتاج: استراتيجيات التسجيل، جمع المقاييس، تتبع الاستدعاءات وتتبع التكاليف.

20 يناير 202618 دقيقة للقراءةفريق هندسة أورنتس

ليش أنظمة الذكاء الاصطناعي تحتاج مراقبة مختلفة

هنا الموضوع عن أنظمة الذكاء الاصطناعي: المراقبة التقليدية ما تكفي. لما الـ REST API عندك يرجع خطأ 500، تعرف شي انكسر. لما الذكاء الاصطناعي عندك يرجع معلومات غلط بثقة، كل شي يبان تمام من الناحية التقنية. لوحات التحكم خضراء، الوقت صحي، ردود HTTP ناجحة. بس المستخدمين عندك ياخذون هراء.

تعلمنا هذا بالطريقة الصعبة. واحد من عملائنا كان عنده وكيل دعم عملاء بدأ يوصي بمنتجات المنافسين. ما في أخطاء في السجلات. ما في ارتفاعات بالوقت. بس بهدوء يعطي نصائح سيئة لثلاث أيام قبل ما أحد ينتبه. هنا أدركنا: مراقبة الذكاء الاصطناعي مش عن التحقق إذا يشتغل. هو عن التحقق إذا فعلاً يشتغل صح.

المراقبة التقليدية تخبرك إذا نظامك حي. مراقبة الذكاء الاصطناعي تخبرك إذا نظامك عاقل.

هذا الدليل يغطي كل اللي تعلمناه عن إبقاء أنظمة الذكاء الاصطناعي قابلة للمراقبة. مش نظرية - ممارسات فعلية نستخدمها في الإنتاج كل يوم.

الأركان الأربعة لمراقبة الذكاء الاصطناعي

خلينا نفككها لما تحتاج فعلاً تتبعه:

الركن	شو يغطي	ليش مهم
التسجيل	كل برومبت، رد وخطوة وسيطة	التصحيح لما الأمور تغلط
المقاييس	الوقت، استخدام التوكنز، معدلات النجاح، التكاليف	تخطيط السعة والميزانية
التتبع	دورة حياة الطلب الكاملة عبر الخدمات	فهم سير عمل الذكاء الاصطناعي المعقد
الجودة	دقة الردود، الصلة، السلامة	اكتشاف التدهور قبل المستخدمين

أغلب الفرق تبدأ بالتسجيل، تدرك إنها تحتاج مقاييس للتحكم بالتكاليف، تضيف التتبع لما التصحيح يصير مؤلم، وأخيراً تنفذ مراقبة الجودة بعد حادثة سيئة. وفر على نفسك المتاعب وابني الأربعة من البداية.

التسجيل: خط دفاعك الأول

شو تسجل

كل تفاعل مع الذكاء الاصطناعي لازم يلتقط:

الهوية (request ID، session ID، user ID)
المدخل (system prompt، user prompt، السياق)
تكوين النموذج (النموذج، temperature، max tokens)
المخرج (المحتوى، سبب الانتهاء، استدعاءات الأدوات)
الأداء (الوقت بالميلي ثانية، التوكنز المدخلة، التوكنز المخرجة)
التكلفة (التكلفة المقدرة بالدولار)
البيانات الوصفية (الطابع الزمني، البيئة، الإصدار)

تسجيل البيانات الحساسة

هنا يصير الموضوع معقد. تحتاج تسجل البرومبتات للتصحيح، بس البرومبتات غالباً تحتوي بيانات مستخدمين. نهجنا:

تجزئة الحقول الحساسة - خزن hash للبيانات الشخصية، مش القيم الفعلية
تخزين منفصل - البرومبتات الكاملة تروح لمخزن مقيد ومشفر بفترة احتفاظ قصيرة
أخذ العينات - سجل البرومبتات الكاملة لنسبة من الطلبات في الإنتاج فقط
الحذف - استخدم أنماط regex لإزالة أنماط البيانات الشخصية الشائعة قبل التسجيل

المقاييس: الأرقام اللي فعلاً مهمة

المقاييس الأساسية للتتبع

المقياس	النوع	شو يخبرك
`ai.request.latency`	Histogram	كم تاخذ الاستدعاءات (p50, p95, p99)
`ai.request.tokens.input`	Counter	استهلاك التوكنز المدخلة
`ai.request.tokens.output`	Counter	استهلاك التوكنز المخرجة
`ai.request.cost`	Counter	تكلفة الدولار بالطلب
`ai.request.success_rate`	Gauge	نسبة الإكمالات الناجحة
`ai.request.error_rate`	Gauge	الفشل بنوع الخطأ
`ai.model.rate_limit_hits`	Counter	كم مرة تم تقييدك
`ai.cache.hit_rate`	Gauge	فعالية الكاش الدلالي

تتبع التكاليف: المقياس اللي ياخذ انتباه الإدارة

خلينا نكون صريحين - التكلفة عادةً اللي تجيب محادثات المراقبة للطاولة. هنا كيف تتبعها صح:

ابني لوحات تحكم تعرض:

الإنفاق اليومي/الأسبوعي/الشهري بالنموذج
التكلفة بالميزة أو حالة الاستخدام
التكلفة بالعميل (لـ B2B)
الإنفاق الشهري المتوقع بناءً على المسار الحالي
كشف الشذوذ لارتفاعات التكلفة المفاجئة

التتبع: متابعة الخيط

سير عمل الذكاء الاصطناعي ما عاد استدعاءات فردية. هي سلاسل، وكلاء وعمليات معقدة متعددة الخطوات. التتبع يخليك تتبع طلب عبر النظام كامل.

شو يعرضه التتبع الجيد

تتبع مُقاس كويس يكشف:

[تنفيذ الوكيل] 4.2ث
├── [التخطيط] 1.1ث
│   └── [استدعاء LLM: gpt-4] 1.0ث - 234 توكن داخل، 156 توكن خارج
├── [الخطوة 1: استرجاع RAG] 0.3ث
│   ├── [توليد Embedding] 0.1ث
│   └── [بحث Vector] 0.2ث - 5 مستندات استُرجعت
├── [الخطوة 2: تركيب LLM] 2.1ث
│   └── [استدعاء LLM: gpt-4] 2.0ث - 1,456 توكن داخل، 523 توكن خارج
└── [الخطوة 3: تنسيق الرد] 0.7ث
    └── [استدعاء LLM: gpt-4o-mini] 0.6ث - 678 توكن داخل، 234 توكن خارج

الحين لما أحد يبلغ عن رد بطيء، تقدر تشوف بالضبط وين راح الوقت.

تصحيح البرومبتات: الجزء الصعب

هنا وين مراقبة الذكاء الاصطناعي تختلف أكثر عن المراقبة التقليدية. كيف تصحح شي يشتغل بشكل مختلف كل مرة؟

إصدارات البرومبتات

عامل البرومبتات مثل الكود. أعطها إصدارات.

A/B تجربة البرومبتات

ما تقدر تحسن اللي ما تقيسه. شغل تجارب على تغييرات البرومبتات.

تصحيح الردود الفاشلة

لما رد ذكاء اصطناعي يغلط، تحتاج تجيب:

شو كان المدخل؟ - البرومبت الكامل شامل رسالة النظام، السياق ومدخل المستخدم
شو السياق اللي استُرجع؟ - لأنظمة RAG، أي مستندات أثرت على الرد
شو كان تفكير النموذج؟ - إذا تستخدم chain-of-thought، شو الخطوات اللي أخذها
كيف أثرت المعاملات على المخرج؟ - Temperature، top_p، frequency penalty
هل هذي حالة لمرة واحدة أو نمط؟ - ابحث عن مدخلات مشابهة أنتجت فشل مشابه

مراقبة الجودة: هل الذكاء الاصطناعي فعلاً كويس؟

هذا أصعب جزء من مراقبة الذكاء الاصطناعي. المقاييس التقنية ممكن تكون خضراء بينما الذكاء الاصطناعي ينتج هراء.

فحوصات الجودة الآلية

طول الرد (داخل النطاق المقبول)
ما في URLs مهلوسة
التأسيس الواقعي (الادعاءات مدعومة بالسياق المسترجع)
فحص السلامة

التقييم بمشاركة بشرية

الفحوصات الآلية تمسك المشاكل الواضحة. لقضايا الجودة الدقيقة، تحتاج مراجعة بشرية:

عينة نسبة من الردود للمراجعة البشرية
راجع دائماً لما: ثقة منخفضة، تغذية راجعة سلبية من المستخدم، الفحوصات الآلية فشلت، عميل عالي القيمة

التنبيهات: معرفة لما الأمور تغلط

عتبات التنبيه لأنظمة الذكاء الاصطناعي

التنبيه	العتبة	الشدة	الإجراء
الوقت p95 > 10ث	5 دقائق مستمرة	تحذير	فحص مزود النموذج
معدل الخطأ > 5%	2 دقيقة مستمرة	حرج	فحص حالة API، failover
ارتفاع التكلفة > 3x الخط الأساسي	1 ساعة	تحذير	راجع الترافيك، فحص الحلقات
انخفاض جودة > 20%	1 ساعة	حرج	أوقف الميزة، تحقق
ضربات حد المعدل > 10/دقيقة	5 دقائق	تحذير	خفف السرعة، فحص الإساءة
كشف حقن برومبت	أي	حرج	اعترض الطلب، راجع

بناء رصة المراقبة

الأدوات اللي ننصح فيها

الفئة	مفتوح المصدر	تجاري
التتبع	Jaeger، Zipkin	Datadog، New Relic
المقاييس	Prometheus + Grafana	Datadog، Dynatrace
التسجيل	ELK Stack، Loki	Splunk، Datadog
خاص بالذكاء الاصطناعي	LangSmith، Phoenix	Weights & Biases، Helicone
التنبيهات	Alertmanager	PagerDuty، OpsGenie

البداية: أول أسبوع

اليوم 1-2: التسجيل الأساسي

أضف تسجيل منظم لكل استدعاءات الذكاء الاصطناعي
شمّل: النموذج، الوقت، عدد التوكنز، اسم الميزة
خزن السجلات في مكان قابل للاستعلام

اليوم 3-4: المقاييس الأساسية

أعد عدادات التوكنز والتكاليف
أنشئ histograms للوقت بالنموذج والميزة
ابني أول لوحة تحكم

اليوم 5: التنبيهات

نبه على ارتفاعات معدل الخطأ
نبه على شذوذ التكاليف
نبه على تدهور الوقت

الأسبوع 2: الجودة والتتبع

نفذ فحوصات جودة أساسية
أضف تتبع موزع لسير عمل الذكاء الاصطناعي متعدد الخطوات
ابدأ جمع تغذية راجعة المستخدمين

الخلاصة

مراقبة الذكاء الاصطناعي ما عادت اختيارية. كلما أنظمة الذكاء الاصطناعي تتعامل مع سير عمل أكثر حرجاً، تحتاج تعرف مش بس إذا تشتغل، بس إذا فعلاً تشتغل صح.

الخبر الحلو: أغلب اللي تحتاجه يمكن بناؤه فوق بنية مراقبة موجودة. OpenTelemetry، Prometheus، تسجيل منظم - هذي الأدوات تشتغل للذكاء الاصطناعي بعد. الفرق هو معرفة شو تقيس وكيف تفسره.

ابدأ بسيط. سجل كل شي. تتبع التكاليف. أضف فحوصات جودة. ابني من هناك.

أفضل وقت لإضافة المراقبة كان قبل ما تطلق. ثاني أفضل وقت هو الحين.

ساعدنا فرق تنتقل من "ما عندنا فكرة شو الذكاء الاصطناعي عندنا يسوي" لـ "مسكنا المشكلة في 3 دقائق" في غضون أسابيع. الاستثمار يدفع عن نفسه أول مرة تصحح مشكلة إنتاج في دقائق بدل ساعات.

إذا تبني أنظمة ذكاء اصطناعي وتبي تتكلم عن استراتيجيات المراقبة، تواصل معنا. شفنا الكثير من أنماط الفشل ومستعدين نشارك اللي تعلمناه.

المواضيع المغطاة

مراقبة الذكاء الاصطناعيمراقبة LLMتصحيح البرومبتاتمقاييس الذكاء الاصطناعيأداء النموذجتتبع التكاليفتتبع الذكاء الاصطناعيذكاء اصطناعي للإنتاجتسجيل الذكاء الاصطناعي

جاهز لبناء أنظمة ذكاء اصطناعي جاهزة للإنتاج؟

فريقنا متخصص في بناء أنظمة ذكاء اصطناعي جاهزة للإنتاج. دعنا نتحدث عن كيفية مساعدتك.

ابدأ محادثة