Production-AI-Engineering

Jenseits von RAG: KI, die den Produktivbetrieb übersteht

RAG ist die Grundlinie. Production AI ist Software-Engineering rund um ein probabilistisches Modell.

Die meisten Teams können eine RAG-Demo bauen. Deutlich weniger können beurteilen, ob eine Änderung das System besser oder schlechter gemacht hat, um ein ausfallendes Modell herumrouten oder eine Prompt-Injection stoppen, bevor sie den Kern erreicht. Wir entwickeln das vollständige System: agentische Schleifen, Evaluation, Modelloptimierung, LLMOps und Guardrails, EU-gehostet, mit Ihrem Code und ohne Lock-in.

Mit einem Engineer sprechen Unsere KI-Arbeit ansehen

Was eine Demo von einem Produktivsystem trennt

Eine Retrieval-Demo durchsucht einen Ordner mit PDFs und gibt zurück, was ähnlich aussieht. Ein produktives KI-System synchronisiert Graph-, Vektor- und SQL-Daten mit Live-APIs, leitet jede Anfrage durch eine adaptive Schleife, bewertet die Qualität bei jedem Deploy mit automatisierten Evals und greift auf ein günstigeres Modell oder eine andere Quelle zurück, wenn etwas ausfällt. Production-AI-Engineering ist die Disziplin, zuverlässige Software rund um eine unzuverlässige, teure und nicht-deterministische Komponente zu bauen. Genau das ist unsere Arbeit.

Automatisierte Evals, die Regressionen erkennen, bevor es die Nutzer tun
Guardrails gegen Prompt-Injection und PII-Abfluss
Modell-Gateways mit Routing, Caching und Fallback
EU-gehostet, modellneutral, Ihr Code, kein Lock-in

Demo-Bauer vs. Production-AI-Engineer

Der Abstand zwischen einem Prototyp, der gut aussah, und einem System, das unter Last, Angriff und Änderung standhält.

	Demo-Bauer (nur RAG)	Production-AI-Engineer
Datenumfang	Durchsucht einen Ordner mit statischen Text-PDFs.	Synchronisiert Graph- und Vektor-Stores, SQL-Tabellen und Live-SaaS-APIs.
Systemfluss	Prompt, Suche, Antwort.	Adaptiver Router, Multi-Agent-Schleife, Guardrail-Prüfung.
Testing	Ein paar Prompts probiert und es sah gut aus.	Eine CI-Suite semantischer Testfälle, die bei jedem Deploy bewertet wird.
Fehlerverhalten	Bricht still ab oder halluziniert ungebremst.	Automatischer Fallback auf ein günstigeres Modell oder eine zweite Quelle.

RAG ist Grundvoraussetzung. In den Spalten rechts wird die produktive Zuverlässigkeit gewonnen oder verloren.

Agenten entscheiden, handeln, beobachten

RAG ist eine lineare Pipeline. Ein Agent durchläuft eine Schleife: einen Schritt planen, ein echtes Tool aufrufen, das Ergebnis beobachten und erneut entscheiden, mit Zustand und einem menschlichen Freigabepunkt bei folgenreichen Aktionen.

Zustand und Memory tragen den Kontext über die Schritte hinweg. Ein menschlicher Freigabepunkt sitzt bei folgenreichen Aktionen, und jeder Tool-Aufruf ist begrenzt und auditiert.

Die fünf Säulen

Was Production-AI-Engineering abdeckt

Jenseits von Prompts und Retrieval machen fünf Disziplinen aus einer Demo ein System, das Sie betreiben, dem Sie vertrauen und das Sie verändern können.

Agentische KI und Tool-Calling

Entscheidungsschleifen, die echte Tools aufrufen, keine einmalige Pipeline.

Zuverlässige JSON-Tool-Aufrufe in echte APIs
Multi-Agent-Rollen, Zustand und Übergaben
Begrenzte, auditierte Tool-Nutzung
Keine Endlosschleifen oder Kontextdrift

Evaluation und Testing

Deterministisches Testen für nicht-deterministische Systeme. Die größte Kompetenzlücke.

Automatisierte Evals mit Ragas oder TruLens
Faithfulness, Antwortrelevanz, Context Precision
LLM-as-a-judge gegen Ground Truth
CI-Gates bei jeder Änderung

Modelloptimierung

Wenn Prompting und RAG den Ton oder die Domänenlogik nicht treffen, ändern Sie das Modell.

LoRA- und QLoRA-Fine-Tuning
Quantisierung für Latenz und Kosten
Offene Modelle wie Llama und Mistral
Domänenton und -verhalten

LLMOps und Produktivinfrastruktur

Behandeln Sie das Modell als volatilen, teuren Backend-Service.

Modell-Gateways und Routing (LiteLLM, Portkey)
Semantisches Caching und Fallback
Strukturierte Ausgabe mit Pydantic
Guardrails für PII und Prompt-Injection

Fortgeschrittenes Kontextmanagement

Informationen so strukturieren, dass das Modell immer den richtigen Kontext sieht.

Programmatische Prompt-Optimierung (DSPy)
Kontextuelles Retrieval
Budgetierung des Kontextfensters
Mit Metadaten angereicherte Chunks

Die Toolchain

Der Produktions-KI-Stack, mit dem wir entwickeln

Modellneutral und standardmäßig offen. Wir wählen pro Ebene das passende Werkzeug und übergeben es als Ihren Code.

Orchestrierung

LangGraph
CrewAI
Mastra
Vercel AI SDK

Evaluation

Ragas
TruLens
LangSmith
promptfoo

Serving und Betrieb

LiteLLM
Portkey
vLLM
Ray

Guardrails und Struktur

Pydantic
NeMo Guardrails
Llama Guard
DSPy

Die Produktivschleife

Jede Änderung durchläuft dieselbe Schleife: bauen, evaluieren, routen, absichern, beobachten und das Gelernte zurückspeisen.

Die Evaluation gibt den Deploy frei, das Gateway übernimmt Routing, Caching und Fallback, Guardrails prüfen Ein- und Ausgaben, und Observability speist die nächste Iteration.

Was produktionsreif für Sie bedeutet

Dasselbe System liest sich von jedem Platz anders. Hier ist, was Production-AI-Engineering pro Rolle liefert.

CTOs und IT-Verantwortliche

Ein Prototyp hat alle beeindruckt und ist dann im Produktivbetrieb gescheitert.

Evals, Routing und Guardrails, damit das System unter Last, Angriff und Änderung standhält.

Enterprise und Einkauf

Security und Audit müssen wissen, wie das System ausfällt, nicht nur, wie es funktioniert.

Dokumentierte Fallback-Pfade, Guardrails, Audit-Logs sowie AVV- und TOM-Bereitschaft.

Startup-CTOs und Gründer

Sie haben schnell geliefert, und jetzt driften Qualität und Kosten.

Ein Eval-Harness und ein Modell-Gateway, die Kosten senken und Regressionen beim Skalieren verhindern.

Agenturen und Partner

Ihr Kunde braucht produktionsreife KI unter Ihrer Marke.

Senior-LLMOps und Evaluation-Engineering, white-label geliefert mit derselben Disziplin wie unsere Open-Source-Arbeit.

Öffentlich prüfbares Engineering

Läuft auf dieser Website

Live

Der Assistent auf dieser Website ist ein agentisches, werkzeugnutzendes System, das wir gebaut haben und in Produktion betreiben, kein Demo hinter einem Login.

Vendure Data Hub

Open Source

Ein Vendure-Commerce-Plugin, das wir gebaut und veröffentlicht haben, öffentlich auf GitHub. Zwei unserer elf entwickelten Bundles sind öffentlich.

Auf GitHub ansehen

Pimcore Asset Pilot

Open Source

Ein Pimcore-Asset-Bundle, das wir gebaut und veröffentlicht haben, öffentlich auf GitHub und vollständig einsehbar.

Auf GitHub ansehen

Wann diese Tiefe überzogen ist

Ein einmaliger interner Prototyp, der nie echte Nutzer oder Last sehen wird.
Ein einfaches Single-Prompt-Feature ohne Tools, Retrieval oder Qualitätsanspruch.
Ein Wegwerf-Proof-of-Concept, dessen Ziel das Lernen ist, nicht das Ausliefern.
Ein Team, das noch nicht definiert hat, wie eine gute Antwort aussieht.

Fragen, die Teams zu Production AI stellen

RAG ist die Grundlinie. Im Produktivbetrieb braucht es zusätzlich Evaluation, Guardrails, Modell-Routing, strukturierte Ausgabe und Observability. Wir entwickeln das vollständige System, damit es zuverlässig bleibt, während sich Daten, Modelle und Last ändern.

Prompting und RAG verankern das Modell in aktuellen Daten. Fine-Tuning (LoRA, QLoRA) ändert Ton, Stil oder Domänenlogik. Sie lösen unterschiedliche Probleme und laufen oft zusammen; wir beraten, was zu welchem Fall passt, statt standardmäßig zur teuren Option zu greifen.

Evals sind automatisierte Tests für nicht-deterministische Systeme. Frameworks wie Ragas und TruLens bewerten Antworten nach Faithfulness, Relevanz und Context Precision, oft mit einem größeren Modell als Judge, sodass eine Codeänderung gemessen und nicht geraten wird.

LLMOps ist die Infrastruktur, um Sprachmodelle im großen Maßstab zu betreiben: Gateways für Routing und Fallback, semantisches Caching zur Kostensenkung, Durchsetzung strukturierter Ausgaben, Guardrails für Sicherheit und Observability. Es behandelt das Modell als volatiles, teures Backend.

Guardrails umschließen das Modell: Ein- und Ausgabefilter, PII-Maskierung und Policy-Prüfungen fangen Prompt-Injection und sensible Daten ab, bevor sie den Kern erreichen oder verlassen. Folgenreiche Aktionen durchlaufen zusätzlich einen menschlichen Freigabepunkt.

Oft nicht. Prompting und RAG lösen die meisten Fälle. Fine-Tuning rechtfertigt seine Kosten, wenn Sie einen bestimmten Ton, ein Domänenverhalten oder ein kleines, günstiges offenes Modell in Ihrer eigenen Umgebung brauchen. Diese Entscheidung treffen wir mit Ihnen auf Basis von Belegen, nicht von Hype.

Den AI-Stack erkunden

RAG-Systeme

Agentische Frameworks

Enterprise-KI

Machen Sie Ihre KI produktionsreif

Sagen Sie uns, wo Ihr KI-Prototyp heute steht. Wir mappen die Evals, Guardrails und Infrastruktur, um ihn in den Produktivbetrieb zu bringen.

Mit einem Engineer sprechen

Unsere KI-Arbeit ansehen

Mit wem Sie arbeiten

HRB 288224

Eingetragen in München

15+

Jahre, gründergeführt

DE · EN · AR

Liefersprachen

Open Source auf GitHub

Datenresidenz, Frankfurt

AVV/DPA

Unterschriftsbereit, Art. 28

Engagement-Stufen

Oronts arbeitet mit ernsthaften Teams, die Senior-Delivery brauchen, kein Billig-Outsourcing.

Production Pilot: ab 25k EUR
Individualsoftware- und KI-Projekte: ab 50k EUR
Laufende technische Retainer: ab 15k EUR/Monat

Der genaue Preis hängt von Umfang, Verantwortung, Liefergeschwindigkeit, Teamgröße, Integrationen, Support-Erwartungen und Produktionsrisiko ab.

Den 90-Tage Production Pilot anfragen