دليل تقني

من النموذج الأولي للذكاء الاصطناعي إلى الإنتاج: الـ 15 شي اللي يتغيرون كلياً

شو اللي يتغير لما تنقل نظام ذكاء اصطناعي من النموذج الأولي للإنتاج. المصادقة، تتبع التكاليف، التعامل مع البيانات الشخصية، النماذج الاحتياطية، المراقبة، الامتثال، وتغير هيكل الفريق.

15 أبريل 202616 دقيقة للقراءةفريق هندسة أورنتس

وهم النموذج الأولي

كل نموذج أولي للذكاء الاصطناعي يشتغل. تنادي API، تمرر prompt، تجيك استجابة. الديمو يبهر أصحاب القرار. الفريق يقدر سبرنتين للإنتاج.

بعد اثناعشر شهر، النظام لسا مش في الإنتاج. مش لأن الذكاء الاصطناعي ما يشتغل. لأن كل شي حواليه ما يشتغل: المصادقة، تحديد المعدل، تتبع التكاليف، التعامل مع البيانات الشخصية، النماذج الاحتياطية، منطق إعادة المحاولة، إدارة الإصدارات، المراقبة، التنبيهات، توثيق الامتثال، النشر متعدد المناطق، التعافي من الكوارث، ودفاتر العمليات.

نموذج الذكاء الاصطناعي يمكن 10% من نظام إنتاج كامل. الـ 90% الثانية هندسة. هذا المقال يغطي الـ 15 شي اللي يتغيرون كلياً لما تنتقل من النموذج الأولي للإنتاج.

لأنماط محددة، شوف أدلتنا عن امتثال الذكاء الاصطناعي لـ GDPR، مراقبة الذكاء الاصطناعي، وتتبع قرارات الذكاء الاصطناعي.

الـ 15 شي

1. المصادقة والتعدد المستأجرين

النموذج الأولي: مفتاح API واحد مكتوب في متغيرات البيئة.

الإنتاج: توكنات JWT مع نطاق المستأجر، إدارة مفاتيح API مع التدوير، التحكم بالوصول حسب الأدوار، تحديد المعدل لكل مستأجر، تتبع الاستخدام لكل مستأجر.

كل طلب ذكاء اصطناعي لازم يحمل هوية المستأجر. كل استجابة لازم تكون محددة النطاق. كل تكلفة لازم تنسب لمستأجر. شوف دليل تصميم الأنظمة متعددة المستأجرين للبنية الكاملة.

2. إدارة التكاليف

النموذج الأولي: 50 دولار بالشهر على بطاقة الائتمان.

الإنتاج: 5,000 لـ 50,000 دولار بالشهر عبر عدة مزودين ونماذج وحالات استخدام. بدون تتبع التكاليف لكل مستأجر، لكل نموذج، لكل حالة استخدام، ما تقدر تسعر منتجك، وتحدد الهدر، أو تتوقع المصاريف.

// تتبع التكلفة لكل طلب
const cost = calculateCost({
    provider: 'openai',
    model: 'gpt-4o',
    promptTokens: response.usage.prompt_tokens,
    completionTokens: response.usage.completion_tokens,
});

await costTracker.record({
    tenantId: ctx.tenantId,
    model: 'gpt-4o',
    useCase: 'customer-support',
    costUsd: cost,
    timestamp: new Date(),
});

3. التعامل مع البيانات الشخصية

النموذج الأولي: بيانات العملاء الخام في كل prompt.

الإنتاج: الترميز الدلالي، حدود الثقة، الاستعادة المبنية على السياسات، سجلات التدقيق بدون بيانات شخصية، الامتثال لـ GDPR. شوف دليل الامتثال لـ GDPR ودليل منع تسريب البيانات للبنية الكاملة.

4. النماذج الاحتياطية

النموذج الأولي: نموذج واحد، مزود واحد. إذا وقع، النظام كله يقع.

الإنتاج: نموذج أساسي مع انتقال تلقائي للنموذج الثانوي. نماذج مختلفة لمهام مختلفة (نموذج سريع للتصنيف، نموذج دقيق للتوليد). تكرار على مستوى المزود.

async function generateWithFallback(prompt: string, options: GenerateOptions): Promise<string> {
    const providers = [
        { provider: 'anthropic', model: 'claude-sonnet-4-20250514' },
        { provider: 'openai', model: 'gpt-4o' },
        { provider: 'local', model: 'llama-3.1-70b' },
    ];

    for (const config of providers) {
        try {
            return await llmClient.generate(prompt, config);
        } catch (error) {
            logger.warn('Provider failed, trying fallback', {
                provider: config.provider,
                error: error.message,
            });
            continue;
        }
    }
    throw new Error('All providers failed');
}

5. تحديد المعدل

النموذج الأولي: بدون حدود.

الإنتاج: حدود معدل لكل مستأجر، حدود لكل نموذج، حدود عامة. بدونها، مهمة batch لمستأجر واحد تشبع الـ API وكل المستأجرين الثانيين يجيهم timeout.

6. منطق إعادة المحاولة

النموذج الأولي: إذا فشل، حاول مرة ثانية يدوياً.

الإنتاج: exponential backoff مع jitter للأعطال المؤقتة. Circuit breaker لانقطاعات المزود. بدون إعادة محاولة لأخطاء التحقق. استراتيجيات مختلفة لأنواع الأعطال المختلفة.

7. إدارة الإصدارات

النموذج الأولي: آخر نموذج، آخر prompt.

الإنتاج: إصدارات نماذج مثبتة، prompts بإصدارات، اختبار A/B بين إصدارات الـ prompt، القدرة على الترجع، مجموعات تقييم تشتغل قبل نشر إصدار prompt جديد.

8. المراقبة والتنبيهات

النموذج الأولي: شوف الكونسول.

الإنتاج: نسب التأخير المئوية (p50, p95, p99)، معدلات الأخطاء حسب المزود، اتجاهات استخدام التوكنات، التكلفة باليوم والأسبوع والشهر، كشف الهلوسات، تقييم الجودة، تنبيه على الشذوذ.

// المقاييس اللي لازم تتبعها
const metrics = {
    latency_ms: response.latencyMs,
    tokens_prompt: response.usage.promptTokens,
    tokens_completion: response.usage.completionTokens,
    cost_usd: response.cost,
    model: response.model,
    provider: response.provider,
    status: response.error ? 'error' : 'success',
    finish_reason: response.finishReason,
    tenant_id: ctx.tenantId,
};

await metricsCollector.record('llm_request', metrics);

شوف دليل مراقبة الذكاء الاصطناعي ودليل أنماط OpenTelemetry في الإنتاج لأنماط التنفيذ.

9. توثيق الامتثال

النموذج الأولي: "نحنا نستخدم GPT-4."

الإنتاج: سجلات معالجة البيانات (GDPR المادة 30)، تقييم تأثير حماية البيانات (المادة 35)، بطاقات النموذج اللي توثق القدرات والقيود، سجلات تدقيق لكل قرار، سجلات الموافقة البشرية للإجراءات عالية القيمة.

شوف دليل تتبع قرارات الذكاء الاصطناعي لبنية التدقيق.

10. التخزين المؤقت

النموذج الأولي: كل طلب يروح لـ LLM.

الإنتاج: تخزين مؤقت دلالي للاستعلامات المتشابهة، تخزين مؤقت للاستجابات المتطابقة، تخزين مؤقت للـ embeddings للمستندات المتكررة. التخزين المؤقت يقلل التكلفة والتأخير بنسبة 30-60% لأحمال العمل النموذجية.

11. التحقق من المدخلات

النموذج الأولي: ثق بمدخلات المستخدم.

الإنتاج: كشف حقن الـ prompt، حدود طول المدخلات، فلترة المحتوى، كشف اللغة، تصنيف النية قبل استدعاءات LLM المكلفة.

12. التحقق من المخرجات

النموذج الأولي: ثق بمخرجات النموذج.

الإنتاج: حارس المخرجات للبيانات الشخصية المهلوسة، التحقق من الاستشهادات مقابل السياق المسترجع، تحليل المخرجات المهيكلة مع التحقق من المخطط، تقييم الثقة، استجابات بديلة للمخرجات منخفضة الجودة.

13. البث المباشر

النموذج الأولي: استنى الرد الكامل، اعرضه.

الإنتاج: ابث التوكنات للمستخدم وهي تتولد. أول توكن يظهر خلال 200-500 مللي ثانية حتى لو الرد الكامل ياخذ 2-5 ثواني. البث يغير التأخير المحسوس بشكل كبير.

14. النشر متعدد المناطق

النموذج الأولي: منطقة واحدة، نشر واحد.

الإنتاج: متطلبات إقامة البيانات (بيانات الاتحاد الأوروبي تبقى في الاتحاد الأوروبي)، تحسين التأخير (خدم من أقرب منطقة)، التعافي من الكوارث (الانتقال للمنطقة الثانوية).

15. تغير الفريق

النموذج الأولي: مهندس ML واحد أو مطور full-stack.

الإنتاج: تحتاج ناس يفهمون العمليات، البنية التحتية، الامتثال، إدارة التكاليف، والمراقبة. خبرة ML/AI ضرورية لكنها مش كافية. الفريق يحتاج:

الدورالنموذج الأوليالإنتاج
مهندس AI/MLيبني تكامل النموذجيدير الـ prompts، التقييمات، اختيار النموذج
مهندس backendمش موجوديبني البنية التحتية: المصادقة، التخزين المؤقت، تحديد المعدل
DevOps/SREمش موجودالمراقبة، النشر، الاستجابة للحوادث
الامتثال/القانونيمش موجودتوثيق GDPR، حوكمة النموذج
المنتجيقيم الديمويحدد مقاييس الجودة، حلقات تغذية راجعة من المستخدمين

قائمة جاهزية الإنتاج

قبل ما تطلق، تحقق من:

الفئةالفحصالحالة
المصادقةمصادقة JWT/مفتاح API على كل endpoint
المصادقةنطاق المستأجر على كل طلب
المصادقةتحديد المعدل لكل مستأجر
التكاليفتتبع التكلفة لكل طلب
التكاليفتنبيهات التكلفة (حدود يومية/أسبوعية)
التكاليفسقف الميزانية لكل مستأجر
البيانات الشخصيةالترميز الدلالي قبل LLM
البيانات الشخصيةبدون بيانات شخصية في السجلات
البيانات الشخصيةحارس المخرجات للبيانات الشخصية المهلوسة
الموثوقيةنموذج احتياطي مُعد
الموثوقيةإعادة المحاولة مع exponential backoff
الموثوقيةCircuit breaker لانقطاعات المزود
المراقبةمقاييس التأخير، معدل الأخطاء، استخدام التوكنات
المراقبةتنبيهات على الشذوذ
المراقبةلوحة تحكم التكاليف
الامتثالسجل معالجة GDPR المادة 30
الامتثالسجل تدقيق القرارات
الامتثالتتبع إصدار النموذج
التخزين المؤقتتخزين مؤقت دلالي للاستعلامات المتشابهة
التحققالتحقق من طول المدخلات والمحتوى
التحققالتحقق من مخطط المخرجات
البثبث التوكنات للعميل

الأخطاء الشائعة

  1. تقدير الجدول الزمني للإنتاج من جدول النموذج الأولي. النموذج الأولي أخذ أسبوعين. الإنتاج ياخذ 6-12 شهر. الذكاء الاصطناعي 10% من الشغل.

  2. بدون تتبع تكاليف من أول يوم. لما تلاحظ إن التكاليف خرجت عن السيطرة، تكون صرفت أكثر من اللازم. تتبع من أول طلب إنتاج.

  3. الاعتماد على مزود واحد. إذا OpenAI وقع، نظامك يقع. عد نماذج احتياطية لمزودين ثانيين.

  4. بدون تحقق من المدخلات. حقن الـ prompt هجوم حقيقي. تحقق ونظف المدخلات قبل ما توصل للـ prompt.

  5. التعامل مع الامتثال كأمر ثانوي. القانوني راح يوقف إطلاقك إذا توثيق GDPR مش جاهز. ابدأ شغل الامتثال بالتوازي مع الهندسة.

  6. بدون تخزين مؤقت دلالي. أسئلة متشابهة من مستخدمين مختلفين تشغل كل المسار كل مرة. التخزين المؤقت الدلالي يقلل التكاليف بشكل كبير.

  7. نشر متجانس. افصل خادم الـ API عن عمليات الـ worker. توليد ذكاء اصطناعي طويل ما لازم يحجز معالجة طلبات HTTP.

  8. بدون مجموعة تقييم. تغيير prompt ممكن يقلل الجودة بطرق ما تلاحظها لين المستخدمين يشتكون. شغل التقييمات قبل ما تنشر تغييرات الـ prompt.

النقاط الرئيسية

  • نموذج الذكاء الاصطناعي 10% من نظام الإنتاج. المصادقة، تتبع التكاليف، التعامل مع البيانات الشخصية، المراقبة، الامتثال، التخزين المؤقت، وهندسة الموثوقية هم الـ 90% الثانية.

  • إدارة التكاليف مش اختيارية. تتبع لكل طلب، لكل مستأجر، لكل نموذج. نبه على الحدود. حط سقف للميزانية. التكاليف تتصاعد أسرع مما تتوقع.

  • المزودين الاحتياطيين يمنعون الانقطاعات. ما فيه مزود LLM واحد عنده 100% uptime. عد انتقال تلقائي.

  • الامتثال يبدأ من أول يوم، مش عند الإطلاق. توثيق GDPR، سجلات التدقيق، وحوكمة النماذج تاخذ وقت. التوازي مع الهندسة يوفر شهور.

  • الفريق يتغير. النموذج الأولي يحتاج مهندس ذكاء اصطناعي. الإنتاج يحتاج ناس عمليات، بنية تحتية، امتثال، ومنتج بالإضافة.

نساعد الفرق تسوي هذا الانتقال كجزء من ممارسة خدمات الذكاء الاصطناعي عندنا. من مراجعة بنية النموذج الأولي لنشر الإنتاج الكامل، تواصل مع فريقنا أو اطلب عرض سعر. شوف كمان صفحة المنهجية لطريقتنا في التعامل مع مشاريع الذكاء الاصطناعي.

المواضيع المغطاة

ذكاء اصطناعي إنتاجنشر LLM في الإنتاجتوسيع الذكاء الاصطناعيبنية تحتية للذكاء الاصطناعيمن الديمو للإنتاجعمليات الذكاء الاصطناعيمراقبة LLMإدارة تكاليف الذكاء الاصطناعي

جاهز لبناء أنظمة ذكاء اصطناعي جاهزة للإنتاج؟

فريقنا متخصص في بناء أنظمة ذكاء اصطناعي جاهزة للإنتاج. خلينا نحكي كيف نقدر نساعد.

ابدأ محادثة