Technical Guide

أنظمة RAG للمؤسسات: غوص تقني عميق

دليل تقني شامل لبناء أنظمة التوليد المعزز بالاسترجاع الجاهزة للإنتاج على نطاق واسع. تعلم خطوط استيعاب المستندات، استراتيجيات التقطيع، نماذج Embedding، تحسين الاسترجاع، إعادة الترتيب والبحث الهجين من مهندسين نشروا RAG في الإنتاج.

21 فبراير 202619 دقيقة للقراءةفريق هندسة أورنتس

ليش RAG؟ المشكلة اللي فعلاً نحلها

خليني أكون صريح: LLMs قوية بس عندها مشكلة أساسية. هي تعرف بس اللي اتدربت عليه، وهذي المعرفة عندها تاريخ انتهاء. اسأل GPT-4 عن أرباح الربع الثالث لشركتك أو توثيق الـ API الداخلي عندك، وراح تاخذ "ما عندي معلومات عن هذا" مهذب أو أسوأ، هلوسة واثقة.

RAG يحل هذا بإعطاء النموذج وصول لبياناتك وقت الاستنتاج. بدل ما تأمل النموذج حفظ المعلومات الصحيحة، تسترجع المستندات المتعلقة وتدخلها مباشرة في البرومبت. مفهوم بسيط، بس الشيطان في تفاصيل التنفيذ.

بنينا أنظمة RAG تتعامل مع ملايين المستندات عبر عشرات النشر المؤسسي. هنا اللي تعلمناه عن تشغيلها على نطاق واسع.

RAG مش بس عن إضافة مستندات للبرومبت. هو عن بناء نظام استرجاع يجد باستمرار المعلومات الصحيحة، حتى لما المستخدمين يسألون أسئلة بطرق غير متوقعة.

خط أنابيب RAG: البنية من البداية للنهاية

قبل ما نغوص في المكونات، خلينا نفهم كيف كل شي يتصل. نظام RAG للإنتاج عنده مرحلتين رئيسيتين:

مرحلة الاستيعاب (Offline)

المستندات → المعالجة المسبقة → التقطيع → Embedding → تخزين Vector

مرحلة الاستعلام (Online)

استعلام المستخدم → معالجة الاستعلام → الاسترجاع → إعادة الترتيب → توليد LLM

المرحلة	متى تشتغل	متطلبات الوقت	الهدف الأساسي
الاستيعاب	Batch/مجدول	دقائق لساعات مقبولة	تعظيم إمكانية الاستدعاء
الاستعلام	لحظي	أقل من ثانية	الدقة + السرعة

استيعاب المستندات: تجهيز بياناتك لـ RAG

موصلات المصادر: وين بياناتك موجودة

بيانات المؤسسات متفرقة في كل مكان. بنينا موصلات لـ:

نوع المصدر	أمثلة	التحديات
تخزين المستندات	SharePoint، Google Drive، S3	ضوابط الوصول، المزامنة التزايدية
قواعد البيانات	PostgreSQL، MongoDB، Snowflake	تخطيط المخطط، تعقيد الاستعلام
منصات SaaS	Salesforce، Zendesk، Confluence	حدود معدل API، pagination
التواصل	Slack، Teams، Email	الخصوصية، سياق الخيوط
مستودعات الكود	GitHub، GitLab	علاقات الملفات، تاريخ الإصدارات

استراتيجيات التقطيع: قلب الاسترجاع الجيد

هنا وين أغلب تطبيقات RAG تفشل. التقطيع السيء يؤدي لاسترجاع سيء، وما في كمية من إعادة الترتيب الفاخرة تقدر تصلح قطع مكسورة أساساً.

ليش حجم القطعة مهم

القطع الصغيرة زيادة تفقد السياق. القطع الكبيرة زيادة تخفف الصلة وتضيع مساحة نافذة السياق الثمينة.

حجم القطعة	الإيجابيات	السلبيات	الأفضل لـ
صغير (100-200 توكن)	دقة عالية	يفقد السياق	FAQ، تعريفات
متوسط (300-500 توكن)	متوازن	متوسط في كل شي	قواعد المعرفة العامة
كبير (500-1000 توكن)	سياق غني	دقة أقل، غالي	توثيق تقني

أساليب التقطيع اللي فعلاً نستخدمها

1. التقسيم العودي بالأحرف (الأساس)

أبسط طريقة: قسم على الفقرات، ثم الجمل، ثم الأحرف إذا احتجت. يشتغل جيد بشكل مفاجئ للمستندات المتجانسة.

2. التقطيع الدلالي (أفضل للمحتوى المتنوع)

بدل الأحجام الثابتة، اكتشف تحولات الموضوع باستخدام embeddings. لما التشابه الدلالي بين جمل متتالية ينخفض بشكل كبير، ابدأ قطعة جديدة.

3. التقطيع الواعي بهيكل المستند (الأفضل للتوثيق التقني)

استخدم هيكل المستند: العناوين، الأقسام، كتل الكود. تعريف دالة لازم يبقى مع بعض. قسم مع أقسامه الفرعية يشكل وحدة طبيعية.

عنصر المستند	استراتيجية التقطيع
العناوين (H1, H2)	استخدم كحدود قطع
كتل الكود	احتفظ فيها سليمة، شمّل السياق المحيط
الجداول	استخرج كبيانات منظمة + وصف نصي
القوائم	احتفظ مع السياق السابق
الفقرات	احترم كوحدات دنيا

نماذج Embedding: تحويل النص لـ Vectors

نموذج الـ embedding عندك يحدد كيف التشابه الدلالي يتطابق مع الصلة الفعلية. اختر غلط، والاستعلامات ما راح تجد المستندات المطابقة حتى لما موجودة.

مقارنة النماذج

النموذج	الأبعاد	نقاط القوة	نقاط الضعف	التكلفة
OpenAI text-embedding-3-large	3072	جودة ممتازة، متعدد اللغات	اعتماد على API، تكلفة على النطاق	~$0.13/1M توكن
OpenAI text-embedding-3-small	1536	جودة جيدة، أسرع	جودة أقل قليلاً	~$0.02/1M توكن
Cohere embed-v3	1024	قوي متعدد اللغات	اعتماد على API	~$0.10/1M توكن
BGE-large-en-v1.5	1024	مستضاف ذاتياً، سريع	مركز على الإنجليزية	مستضاف ذاتياً

قواعد بيانات Vector: التخزين والبحث على نطاق واسع

قاعدة بيانات vector عندك تتعامل مع العمل الثقيل لبحث التشابه. الاختيار مهم جداً على النطاق.

مصفوفة المقارنة

قاعدة البيانات	النوع	أقصى سكيل	التصفية	نقاط القوة
Pinecone	مُدار	1B+ vectors	ممتازة	سهل البداية، auto-scaling
Weaviate	مستضاف ذاتياً/سحابي	100M+	جيدة	GraphQL API، بحث هجين
Qdrant	مستضاف ذاتياً/سحابي	100M+	ممتازة	الأداء، مبني بـ Rust
Milvus	مستضاف ذاتياً	1B+	جيدة	السكيل، دعم GPU
pgvector	امتداد PostgreSQL	10M	أساسية	البساطة، بنية موجودة

تحسين الاسترجاع: إيجاد المستندات الصحيحة

تحويل الاستعلام

المستخدمين ما يسألون أسئلة بالطريقة اللي المستندات مكتوبة فيها. تحويل الاستعلام يسد هذي الفجوة.

التقنية	كيف تشتغل	متى تستخدم
توسيع الاستعلام	إضافة مرادفات ومصطلحات متعلقة	مجالات تقنية بمصطلحات متنوعة
HyDE	توليد جواب افتراضي، embed هذاك	لما الاستعلامات مختلفة جداً عن المستندات
تفكيك الاستعلام	تقسيم استعلامات معقدة لاستعلامات فرعية	أسئلة متعددة الأجزاء
إعادة كتابة الاستعلام	LLM يعيد كتابة الاستعلام لاسترجاع أفضل	استعلامات محادثية/غامضة

البحث الهجين: دمج Vector + Keyword

البحث بـ vector الصرف يفوت المطابقات الحرفية. البحث بالكلمات الصرف يفوت التشابه الدلالي. الهجين يدمج الاثنين.

النهج	وزن Vector	وزن Keyword	الأفضل لـ
Vector-أول	0.8	0.2	معرفة عامة
متوازن	0.5	0.5	محتوى مختلط
Keyword-أول	0.2	0.8	تقني بمصطلحات دقيقة
Reciprocal Rank Fusion	ديناميكي	ديناميكي	توزيع استعلامات غير معروف

إعادة الترتيب: الدقة لما تهم

الاسترجاع الأولي يرمي شبكة واسعة. إعادة الترتيب تستخدم نموذج أغلى لترتيب أفضل المرشحين بدقة.

نماذج إعادة الترتيب

النموذج	النهج	الوقت	الجودة
Cohere Rerank	Cross-encoder API	~100ms	ممتازة
BGE-reranker-large	Cross-encoder مستضاف ذاتياً	~50ms	جيدة جداً
ColBERT	Late interaction	~30ms	جيدة
إعادة ترتيب مبنية على LLM	Scoring بالبرومبت	~500ms	ممتازة بس بطيئة

اعتبارات الإنتاج

المراقبة والمتابعة

ما تقدر تحسن اللي ما تقيسه. تتبع هذي المقاييس:

المقياس	شو يخبرك	الهدف
وقت الاسترجاع (p50, p99)	تجربة المستخدم	<200ms p99
Recall@k	هل المستندات المتعلقة في النتائج؟	>95%
MRR	هل المستند الصحيح قريب من الأول؟	>0.7
معدل نسب LLM	هل LLM يستخدم السياق المسترجع؟	>80%
تغذية راجعة المستخدم	جودة من البداية للنهاية	>90% إيجابي

استراتيجيات الكاش

RAG يتضمن عمليات غالية. كاش بشكل عدواني:

المكون	استراتيجية الكاش	TTL
Query embeddings	LRU مع dedupe دلالي	1 ساعة
نتائج البحث	Query hash → النتائج	15 دقيقة
قطع المستندات	دائم لحد ما المستند يتغير	-
ردود LLM	Query + context hash	5 دقائق

أرقام الأداء من الواقع

من نشراتنا في الإنتاج:

المقياس	قبل التحسين	بعد التحسين
وقت الاستعلام (p50)	850ms	180ms
وقت الاستعلام (p99)	2.5s	450ms
دقة الاسترجاع	72%	94%
رضا المستخدم	68%	91%
التكلفة بالاستعلام	$0.08	$0.03

أكبر المكاسب جات من:

استراتيجية تقطيع مناسبة (مش صغير زيادة، مش كبير زيادة)
بحث هجين بأوزان مضبوطة
كاش عدواني على طبقات متعددة
إعادة ترتيب للاستعلامات الحرجة للدقة

البداية

إذا تبني أول نظام RAG عندك:

ابدأ بسيط: استخدم قاعدة بيانات vector مُدارة، نموذج embedding جاهز، تقطيع أساسي
قس كل شي: أعد المراقبة من اليوم الأول
ابني مجموعة اختبار: أنشئ أزواج استعلام-مستند لقياس جودة الاسترجاع
كرر بناءً على البيانات: ما تفرط بالهندسة؛ حسّن اللي القياسات تبين إنه مكسور

RAG مش مشكلة محلولة. هو مجموعة مقايضات بين الوقت، الدقة والتكلفة. أفضل الأنظمة هي اللي تسوي هذي المقايضات بوعي وتقيس النتائج.

ساعدنا عشرات المنظمات تبني أنظمة RAG اللي فعلاً تشتغل في الإنتاج. إذا تعاني مع جودة الاسترجاع أو تحديات السكيل، بنكون سعداء نشارك اللي تعلمناه.

Topics covered

RAGالتوليد المعزز بالاسترجاعقواعد بيانات Vectorنماذج Embeddingتقطيع المستنداتالبحث الهجينإعادة الترتيبذكاء اصطناعي للمؤسساتالبحث الدلالياسترجاع المعرفة

Ready to implement agentic AI?

Our team specializes in building production-ready AI systems. Let's discuss how we can help you leverage agentic AI for your enterprise.

Start a conversation