Production-AI-Engineering

Jenseits von RAG: KI, die den Produktivbetrieb übersteht

RAG ist die Grundlinie. Production AI ist Software-Engineering rund um ein probabilistisches Modell.

Die meisten Teams können eine RAG-Demo bauen. Deutlich weniger können beurteilen, ob eine Änderung das System besser oder schlechter gemacht hat, um ein ausfallendes Modell herumrouten oder eine Prompt-Injection stoppen, bevor sie den Kern erreicht. Wir entwickeln das vollständige System: agentische Schleifen, Evaluation, Modelloptimierung, LLMOps und Guardrails, EU-gehostet, mit Ihrem Code und ohne Lock-in.

Was eine Demo von einem Produktivsystem trennt

Eine Retrieval-Demo durchsucht einen Ordner mit PDFs und gibt zurück, was ähnlich aussieht. Ein produktives KI-System synchronisiert Graph-, Vektor- und SQL-Daten mit Live-APIs, leitet jede Anfrage durch eine adaptive Schleife, bewertet die Qualität bei jedem Deploy mit automatisierten Evals und greift auf ein günstigeres Modell oder eine andere Quelle zurück, wenn etwas ausfällt. Production-AI-Engineering ist die Disziplin, zuverlässige Software rund um eine unzuverlässige, teure und nicht-deterministische Komponente zu bauen. Genau das ist unsere Arbeit.

  • Automatisierte Evals, die Regressionen erkennen, bevor es die Nutzer tun
  • Guardrails gegen Prompt-Injection und PII-Abfluss
  • Modell-Gateways mit Routing, Caching und Fallback
  • EU-gehostet, modellneutral, Ihr Code, kein Lock-in

Demo-Bauer vs. Production-AI-Engineer

Der Abstand zwischen einem Prototyp, der gut aussah, und einem System, das unter Last, Angriff und Änderung standhält.

Demo-Bauer (nur RAG)Production-AI-Engineer
DatenumfangDurchsucht einen Ordner mit statischen Text-PDFs.Synchronisiert Graph- und Vektor-Stores, SQL-Tabellen und Live-SaaS-APIs.
SystemflussPrompt, Suche, Antwort.Adaptiver Router, Multi-Agent-Schleife, Guardrail-Prüfung.
TestingEin paar Prompts probiert und es sah gut aus.Eine CI-Suite semantischer Testfälle, die bei jedem Deploy bewertet wird.
FehlerverhaltenBricht still ab oder halluziniert ungebremst.Automatischer Fallback auf ein günstigeres Modell oder eine zweite Quelle.

RAG ist Grundvoraussetzung. In den Spalten rechts wird die produktive Zuverlässigkeit gewonnen oder verloren.

Agenten entscheiden, handeln, beobachten

RAG ist eine lineare Pipeline. Ein Agent durchläuft eine Schleife: einen Schritt planen, ein echtes Tool aufrufen, das Ergebnis beobachten und erneut entscheiden, mit Zustand und einem menschlichen Freigabepunkt bei folgenreichen Aktionen.

iterate until donePlanDecideActcall a toolObserveCommitwith approvalTools and APIsState and memory persist across steps; a human gate guards consequential actions

Zustand und Memory tragen den Kontext über die Schritte hinweg. Ein menschlicher Freigabepunkt sitzt bei folgenreichen Aktionen, und jeder Tool-Aufruf ist begrenzt und auditiert.

Die fünf Säulen

Was Production-AI-Engineering abdeckt

Jenseits von Prompts und Retrieval machen fünf Disziplinen aus einer Demo ein System, das Sie betreiben, dem Sie vertrauen und das Sie verändern können.

Agentische KI und Tool-Calling

Entscheidungsschleifen, die echte Tools aufrufen, keine einmalige Pipeline.

  • Zuverlässige JSON-Tool-Aufrufe in echte APIs
  • Multi-Agent-Rollen, Zustand und Übergaben
  • Begrenzte, auditierte Tool-Nutzung
  • Keine Endlosschleifen oder Kontextdrift

Evaluation und Testing

Deterministisches Testen für nicht-deterministische Systeme. Die größte Kompetenzlücke.

  • Automatisierte Evals mit Ragas oder TruLens
  • Faithfulness, Antwortrelevanz, Context Precision
  • LLM-as-a-judge gegen Ground Truth
  • CI-Gates bei jeder Änderung

Modelloptimierung

Wenn Prompting und RAG den Ton oder die Domänenlogik nicht treffen, ändern Sie das Modell.

  • LoRA- und QLoRA-Fine-Tuning
  • Quantisierung für Latenz und Kosten
  • Offene Modelle wie Llama und Mistral
  • Domänenton und -verhalten

LLMOps und Produktivinfrastruktur

Behandeln Sie das Modell als volatilen, teuren Backend-Service.

  • Modell-Gateways und Routing (LiteLLM, Portkey)
  • Semantisches Caching und Fallback
  • Strukturierte Ausgabe mit Pydantic
  • Guardrails für PII und Prompt-Injection

Fortgeschrittenes Kontextmanagement

Informationen so strukturieren, dass das Modell immer den richtigen Kontext sieht.

  • Programmatische Prompt-Optimierung (DSPy)
  • Kontextuelles Retrieval
  • Budgetierung des Kontextfensters
  • Mit Metadaten angereicherte Chunks
Die Toolchain

Der Produktions-KI-Stack, mit dem wir entwickeln

Modellneutral und standardmäßig offen. Wir wählen pro Ebene das passende Werkzeug und übergeben es als Ihren Code.

Orchestrierung

  • LangGraph
  • CrewAI
  • Mastra
  • Vercel AI SDK

Evaluation

  • Ragas
  • TruLens
  • LangSmith
  • promptfoo

Serving und Betrieb

  • LiteLLM
  • Portkey
  • vLLM
  • Ray

Guardrails und Struktur

  • Pydantic
  • NeMo Guardrails
  • Llama Guard
  • DSPy

Die Produktivschleife

Jede Änderung durchläuft dieselbe Schleife: bauen, evaluieren, routen, absichern, beobachten und das Gelernte zurückspeisen.

learn and iterateBuildEvaluateRagas, evalsGatewayroute, cache, fallbackGuardrailsPII, injectionServeObservetrace, costEvaluation gates every deploy; observability feeds the next iteration

Die Evaluation gibt den Deploy frei, das Gateway übernimmt Routing, Caching und Fallback, Guardrails prüfen Ein- und Ausgaben, und Observability speist die nächste Iteration.

Was produktionsreif für Sie bedeutet

Dasselbe System liest sich von jedem Platz anders. Hier ist, was Production-AI-Engineering pro Rolle liefert.

CTOs und IT-Verantwortliche

Ein Prototyp hat alle beeindruckt und ist dann im Produktivbetrieb gescheitert.

Evals, Routing und Guardrails, damit das System unter Last, Angriff und Änderung standhält.

Enterprise und Einkauf

Security und Audit müssen wissen, wie das System ausfällt, nicht nur, wie es funktioniert.

Dokumentierte Fallback-Pfade, Guardrails, Audit-Logs sowie AVV- und TOM-Bereitschaft.

Startup-CTOs und Gründer

Sie haben schnell geliefert, und jetzt driften Qualität und Kosten.

Ein Eval-Harness und ein Modell-Gateway, die Kosten senken und Regressionen beim Skalieren verhindern.

Agenturen und Partner

Ihr Kunde braucht produktionsreife KI unter Ihrer Marke.

Senior-LLMOps und Evaluation-Engineering, white-label geliefert mit derselben Disziplin wie unsere Open-Source-Arbeit.

Öffentlich prüfbares Engineering

Läuft auf dieser Website

Live

Der Assistent auf dieser Website ist ein agentisches, werkzeugnutzendes System, das wir gebaut haben und in Produktion betreiben, kein Demo hinter einem Login.

Vendure Data Hub

Open Source

Ein Vendure-Commerce-Plugin, das wir gebaut und veröffentlicht haben, öffentlich auf GitHub. Zwei unserer elf entwickelten Bundles sind öffentlich.

Auf GitHub ansehen

Pimcore Asset Pilot

Open Source

Ein Pimcore-Asset-Bundle, das wir gebaut und veröffentlicht haben, öffentlich auf GitHub und vollständig einsehbar.

Auf GitHub ansehen

Wann diese Tiefe überzogen ist

  • Ein einmaliger interner Prototyp, der nie echte Nutzer oder Last sehen wird.
  • Ein einfaches Single-Prompt-Feature ohne Tools, Retrieval oder Qualitätsanspruch.
  • Ein Wegwerf-Proof-of-Concept, dessen Ziel das Lernen ist, nicht das Ausliefern.
  • Ein Team, das noch nicht definiert hat, wie eine gute Antwort aussieht.

Fragen, die Teams zu Production AI stellen

RAG ist die Grundlinie. Im Produktivbetrieb braucht es zusätzlich Evaluation, Guardrails, Modell-Routing, strukturierte Ausgabe und Observability. Wir entwickeln das vollständige System, damit es zuverlässig bleibt, während sich Daten, Modelle und Last ändern.
Prompting und RAG verankern das Modell in aktuellen Daten. Fine-Tuning (LoRA, QLoRA) ändert Ton, Stil oder Domänenlogik. Sie lösen unterschiedliche Probleme und laufen oft zusammen; wir beraten, was zu welchem Fall passt, statt standardmäßig zur teuren Option zu greifen.
Evals sind automatisierte Tests für nicht-deterministische Systeme. Frameworks wie Ragas und TruLens bewerten Antworten nach Faithfulness, Relevanz und Context Precision, oft mit einem größeren Modell als Judge, sodass eine Codeänderung gemessen und nicht geraten wird.
LLMOps ist die Infrastruktur, um Sprachmodelle im großen Maßstab zu betreiben: Gateways für Routing und Fallback, semantisches Caching zur Kostensenkung, Durchsetzung strukturierter Ausgaben, Guardrails für Sicherheit und Observability. Es behandelt das Modell als volatiles, teures Backend.
Guardrails umschließen das Modell: Ein- und Ausgabefilter, PII-Maskierung und Policy-Prüfungen fangen Prompt-Injection und sensible Daten ab, bevor sie den Kern erreichen oder verlassen. Folgenreiche Aktionen durchlaufen zusätzlich einen menschlichen Freigabepunkt.
Oft nicht. Prompting und RAG lösen die meisten Fälle. Fine-Tuning rechtfertigt seine Kosten, wenn Sie einen bestimmten Ton, ein Domänenverhalten oder ein kleines, günstiges offenes Modell in Ihrer eigenen Umgebung brauchen. Diese Entscheidung treffen wir mit Ihnen auf Basis von Belegen, nicht von Hype.

Machen Sie Ihre KI produktionsreif

Sagen Sie uns, wo Ihr KI-Prototyp heute steht. Wir mappen die Evals, Guardrails und Infrastruktur, um ihn in den Produktivbetrieb zu bringen.

Mit wem Sie arbeiten

HRB 288224
Eingetragen in München
15+
Jahre, gründergeführt
DE · EN · AR
Liefersprachen
2
Open Source auf GitHub
EU
Datenresidenz, Frankfurt
AVV/DPA
Unterschriftsbereit, Art. 28

Engagement-Stufen

Oronts arbeitet mit ernsthaften Teams, die Senior-Delivery brauchen, kein Billig-Outsourcing.

Production Pilot
ab 25k EUR
Individualsoftware- und KI-Projekte
ab 50k EUR
Laufende technische Retainer
ab 15k EUR/Monat

Der genaue Preis hängt von Umfang, Verantwortung, Liefergeschwindigkeit, Teamgröße, Integrationen, Support-Erwartungen und Produktionsrisiko ab.