Retrieval-Augmented Generation

RAG, für den Produktivbetrieb entwickelt, nicht für Demos

Ein einzelner RAG-Typ scheitert bei Enterprise-Skalierung. Wir entwerfen die richtige Kombination.

Retrieval-Augmented Generation verankert ein Sprachmodell in Ihren freigegebenen Daten, damit Antworten korrekt und nachvollziehbar bleiben. Bei Enterprise-Skalierung reicht eine naive Vektorsuche nicht aus: Produkte, Dokumente, Kunden und Partnersysteme benötigen jeweils eine andere Retrieval-Strategie. Wir entwerfen, bauen und betreiben die richtige Kombination, in der EU gehostet, mit Ihrem Code und ohne Lock-in.

Warum ein einzelner RAG-Typ nicht ausreicht

Retrieval-Augmented Generation (RAG) verbindet ein Sprachmodell mit Ihren eigenen Daten, sodass es aus freigegebenen Quellen antwortet, statt zu raten. Eine Demo führt eine einzige Vektorsuche über einen Ordner mit Text aus. Ein Produktivsystem bei Enterprise-Skalierung schichtet spezialisiertes Retrieval pro Datentyp, fusioniert Keyword- und Vektorsuche, durchläuft Knowledge-Graphen für Beziehungen und leitet jede Anfrage an die richtige Strategie weiter. Wir entwickeln genau diese vollständige Taxonomie, fundiert, berechtigungsbewusst und standardmäßig auditierbar.

  • Fundierte Antworten mit Quellenangaben, keine Halluzinationen
  • Berechtigungsbewusstes Retrieval, eingegrenzt bevor das Modell die Daten sieht
  • Hybrides, graphbasiertes und agentisches Retrieval, keine einzelne Vektorsuche
  • In der EU gehostet, Ihr Code, modellneutral, ohne Lock-in

Wie RAG funktioniert, von Anfang bis Ende

Von Ihren Daten zu einer fundierten Antwort: aufgenommen und eingebettet, abgerufen über Hybrid- und Graphsuche, neu gewichtet, dann generiert und geprüft.

Your dataDB, docs, APIsEmbed + chunkpermission-scopedVector searchKeyword (BM25)Knowledge graphRerank + contextLLMGrounded answerwith citationsGuardrails + evaluation + audit on every step

Hybrides Retrieval fusioniert Vektor-, Keyword- und Graphsuche. Eine Schicht aus Guardrails, Evaluierung und Audit umschließt jeden Schritt, bevor die Antwort zurückgegeben wird.

Die RAG-Taxonomie

Spezialisiertes RAG, auf das Problem abgestimmt

Moderne KI-Architekturen nutzen eine Taxonomie von Retrieval-Mustern. Wir entwickeln über alle drei Familien hinweg und kombinieren sie je Datenobjekt.

Kern-Architektur und Algorithmik

Die Retrieval-Grundlagen, ausgewählt nach Datenform und nach der erforderlichen Genauigkeit der Übereinstimmung.

Naive / Standard RAG

Einstufige Vektorsuche über Text-Chunks.

Einfacher FAQ-Abgleich

GraphRAG

Knowledge-Graphen verknüpfen Entitäten, zum Beispiel einen Kunden mit gekauften Produkten über eine Transaktionskante.

Beziehungen und Entitäten

Hybrid RAG

Fusioniert Keyword-Suche (BM25) mit Vektorähnlichkeit.

Exakter SKU- und Code-Abgleich

Hierarchical RAG (RAPTOR)

Fasst Text rekursiv zu Eltern-Kind-Bäumen zusammen.

Lange Verträge und Handbücher

Multimodal RAG

Ruft gleichzeitig über Text, Bilder, Video und Audio ab.

Fotos zu Produktlistings

Agentische und dynamische Schleifen

Schleifen, die entscheiden, prüfen und weiterleiten, für Antworten aus mehreren Quellen und für die Qualitätssicherung.

Agentic RAG

Werkzeuggestützte Agenten planen mehrstufiges Retrieval über getrennte Datensilos hinweg.

Systemübergreifende Antworten

Corrective RAG (CRAG)

Ein Evaluator bewertet die Retrieval-Qualität und greift auf eine andere Quelle zurück, wenn sie schlecht ist.

Genauigkeitsgarantien

Self-RAG

Das Modell kritisiert seine eigene Ausgabe und ruft bei Bedarf erneut ab.

Echtzeit-Qualitätskontrolle

Adaptive RAG

Ein Router liest zuerst die Anfrage und schickt sie dann auf einen günstigen oder einen aufwendigen Pfad.

Kosten- und Latenzsteuerung

Kontext- und Eingabe-Engineering

Jeder Abschnitt und jeder Dialogschritt wird so aufbereitet, dass er den passenden Kontext trägt, bevor er eingebettet wird.

Conversational RAG

Berücksichtigt die vollständige Dialoghistorie, damit Rückfragen ihren Bezug behalten.

Mehrstufige Assistenten

Contextual Retrieval

Stellt jedem Chunk vor dem Embedding den globalen Dokumentkontext voran.

Keine gebrochenen semantischen Bezüge

HyDE

Generiert zuerst eine hypothetische Antwort und sucht dann damit, um Vokabularlücken zu überbrücken.

Umgangssprache zu internen Begriffen

GraphRAG: Antworten, die Beziehungen folgen

Eine Vektorsuche allein findet Text, der ähnlich aussieht. GraphRAG ergänzt eine Schicht aus Entitäten und typisierten Beziehungen, sodass das System Fragen beantworten kann, die davon abhängen, wie Ihre Daten zusammenhängen: ein Kunde zu seinen Bestellungen, eine Bestellung zu ihren Produkten, ein Produkt zu seiner Richtlinie. Bei Daten aus Commerce, Support und Engineering ist das der Unterschied zwischen einer plausiblen Vermutung und einer korrekten, nachvollziehbaren Antwort.

placedviewedboughtcitesCustomerOrderDocumentJacketShoesPolicy

Ein Knowledge-Graph verknüpft Entitäten über typisierte Kanten, sodass eine Anfrage von einem Kunden bis zu den genauen Produkten und Dokumenten navigieren kann, die die Antwort fundieren.

RAG auf Ihre Datenobjekte abbilden

Um zu skalieren, wird jeder Entitätstyp der Retrieval-Architektur zugeordnet, die zu ihm passt. So strukturieren wir Retrieval für eine Enterprise-Commerce-Plattform.

Optimale RAG-StrategieWarum diese Wahl entscheidend ist
E-Commerce-ProdukteHybrid RAG + GraphRAGVerhindert, dass die semantische Suche Bestandszahlen halluziniert oder die falsche Größe oder SKU zuordnet.
DokumenteHierarchical RAG + ConversationalFasst vollständige Handbücher und Verträge korrekt zusammen und behält dabei den Dialogfaden bei.
KundenGraphRAG + kontextbewusstFindet strukturelle Verbindungen über die Bestellhistorie, um personalisierte Kaufpfade sichtbar zu machen.
Agenturen und PartnerAgentic RAGHolt Daten aktiv von Drittplattformen über Live-Werkzeugnutzung mit Audit.

Beispiele für eine Commerce-Plattform gezeigt; dieselbe Zuordnungsmethode gilt für Daten aus Fertigung, Finanzwesen und öffentlichem Sektor.

Produktiver Zielzustand

Structured Agentic RAG

Im Produktivbetrieb wählen Sie nicht einen RAG-Typ aus. Ein Adaptive-RAG-Router sitzt darüber und schickt jede Anfrage auf den richtigen Pfad.

QueryAdaptive routerclassify + routeSimple lookupGraph traversalAgentic toolslive APIsGuardrail + evalAnswer

Der Router klassifiziert jede Anfrage und schickt sie dann an eine einfache Abfrage, eine Graph-Traversierung oder agentische Live-Werkzeuge, die über Guardrails und Evaluierung wieder zusammenlaufen.

Wie ist mein Versandstatus?

Agentic RAGfragt die Logistik-API live ab.

Gibt es Jacken, die zu den Schuhen passen, die ich letzten Monat gekauft habe?

GraphRAGwertet den Kaufgraphen von Kunde zu Produkt aus.

Was jedes Team erhält

RAG-Entscheidungen sehen von jedem Platz aus anders aus. Hier ist, worauf es für die Menschen ankommt, die die Architektur abzeichnen.

CTOs und IT-Verantwortliche

Sie brauchen Antworten, die in Ihren Systemen fundiert sind, keinen Chatbot, der Richtlinien erfindet.

Eine benannte Retrieval-Architektur, läuft in Ihrer Cloud, DSGVO-konform, mit Evaluierungen bei jeder Änderung.

Enterprise und Einkauf

Ein Einkaufsgremium muss prüfen können, wie das System zu einer Antwort gelangt.

Quellenangaben, berechtigungsbewusstes Retrieval und ein Audit-Log, mit AVV- und TOM-Bereitschaft.

Startup-CTOs und Gründer

Sie wollen funktionierendes Retrieval in Wochen, kein Forschungsprojekt.

Ein pragmatisches Hybrid- oder Agentic RAG, ausgeliefert in einem 90-Tage-Pilot und dann skaliert.

Agenturen und Partner

Ihr Kunde braucht erstklassige RAG-Arbeit, geliefert unter Ihrer Marke.

White-Label-Retrieval-Engineering, dieselbe Disziplin hinter unserer Open-Source-Arbeit.

Öffentlich prüfbares Engineering

Läuft auf dieser Website

Live

Der Assistent auf dieser Website ist ein agentisches, werkzeugnutzendes System, das wir gebaut haben und in Produktion betreiben, kein Demo hinter einem Login.

Vendure Data Hub

Open Source

Ein Vendure-Commerce-Plugin, das wir gebaut und veröffentlicht haben, öffentlich auf GitHub. Zwei unserer elf entwickelten Bundles sind öffentlich.

Auf GitHub ansehen

Pimcore Asset Pilot

Open Source

Ein Pimcore-Asset-Bundle, das wir gebaut und veröffentlicht haben, öffentlich auf GitHub und vollständig einsehbar.

Auf GitHub ansehen

Wann RAG nicht die Antwort ist

  • Reine numerische Echtzeitwahrheit, zum Beispiel Live-Bestandszahlen, gehört in eine direkte Abfrage, nicht ins Retrieval.
  • Den Ton oder das Kernverhalten des Modells zu ändern ist eine Fine-Tuning-Aufgabe, keine RAG-Aufgabe.
  • Eine winzige statische Wissensbasis lässt sich womöglich günstiger direkt im Prompt unterbringen.
  • Aufgaben ohne eine Wahrheitsquelle, an der man sich fundieren kann, sind kein Retrieval-Problem.

Fragen, die Teams zu RAG stellen

Sie gliedern sich in drei Familien: Kern-Architekturmuster (Naive, GraphRAG, Hybrid, Hierarchical bzw. RAPTOR, Multimodal), agentische und dynamische Schleifen (Agentic RAG, Corrective bzw. CRAG, Self-RAG, Adaptive RAG) und Kontext-Engineering (Conversational, Contextual Retrieval, HyDE). Produktivsysteme kombinieren mehrere davon.
Agentic RAG gibt dem System werkzeuggestützte Agenten, die mehrstufiges Retrieval über getrennte Datenquellen hinweg planen, einschließlich Live-APIs, statt einer einzelnen Vektorabfrage. Es ist das richtige Muster, wenn eine Antwort Daten aus mehr als einem System benötigt.
Vektor-RAG eignet sich am besten für unscharfe Textähnlichkeit. GraphRAG eignet sich am besten, wenn die Antwort von Beziehungen zwischen Entitäten abhängt, zum Beispiel die Verknüpfung eines Kunden mit Produkten über die Kaufhistorie. Die meisten Enterprise-Systeme nutzen beides hinter einem Router.
RAG verankert das Modell in aktuellen, freigegebenen Daten und hält Antworten nachvollziehbar. Fine-Tuning ändert den Ton, den Stil oder die Domänenlogik des Modells. Sie lösen unterschiedliche Probleme und laufen oft zusammen; wir beraten, was in welchem Fall passt.
Produkte nutzen Hybrid RAG plus GraphRAG, damit exakte SKUs und Bestände nicht halluziniert werden; Dokumente nutzen Hierarchical RAG; Kunden nutzen GraphRAG; Partnersysteme nutzen Agentic RAG. Ein Adaptive-Router verbindet sie miteinander.
Retrieval ist die Grundlage. Der Produktivbetrieb braucht zudem Evaluierung, Guardrails, berechtigungsbewussten Kontext, Observability und Routing. Wir entwickeln das vollständige System, in der EU gehostet, mit Ihrem Code und ohne Anbieter-Lock-in.

Verankern Sie Ihre KI in Ihren eigenen Daten

Sagen Sie uns, wie Ihre Systeme und Daten aussehen. Wir bilden die passende Retrieval-Architektur ab und einen Weg in den Produktivbetrieb.

Mit wem Sie arbeiten

HRB 288224
Eingetragen in München
15+
Jahre, gründergeführt
DE · EN · AR
Liefersprachen
2
Open Source auf GitHub
EU
Datenresidenz, Frankfurt
AVV/DPA
Unterschriftsbereit, Art. 28

Engagement-Stufen

Oronts arbeitet mit ernsthaften Teams, die Senior-Delivery brauchen, kein Billig-Outsourcing.

Production Pilot
ab 25k EUR
Individualsoftware- und KI-Projekte
ab 50k EUR
Laufende technische Retainer
ab 15k EUR/Monat

Der genaue Preis hängt von Umfang, Verantwortung, Liefergeschwindigkeit, Teamgröße, Integrationen, Support-Erwartungen und Produktionsrisiko ab.