Cost Optimization · 5 Min Lesezeit

KI-Modellkosten um 60% reduzieren mit Smart Routing

Wenn jede Anfrage auf das leistungsfähigste — und teuerste — Modell trifft, wachsen die Kosten schnell. Die meisten Workloads sind gemischt: einfache Klassifizierungs- oder Formatierungsaufgaben, die ein schnelles $0,10/M-Token-Modell lösen kann, neben komplexen Analysen, die wirklich ein Top-Modell brauchen.

Mycelis Smart Routing ermöglicht die Konfiguration von Regeln, die entscheiden, welches Modell jede Anfrage bearbeitet. Die Anwendung sendet alle Calls an denselben Endpunkt mit demselben Agent-Slug — das Gateway erledigt das Routing transparent.

Wie es funktioniert

Jeder Mycelis-Agent hat eine Routing-Konfiguration. Anfragen werden von oben nach unten gegen die Regeln ausgewertet. Die erste passende Regel bestimmt, welches Modell die Anfrage erhält. Ein Fallback-Modell übernimmt alles ohne Treffer.

Beispiel: Keyword-basiertes Routing

Der einfachste Ansatz. Keywords für "einfache" Aufgaben in eine Regel aufnehmen, die an ein schnelles, günstiges Modell weiterleitet:

Agenten im Mycelis-Dashboard öffnen
Routing in den Agenten-Einstellungen aufrufen
Regel hinzufügen:
- Match: Anfrage enthält eines von — zusammenfassen, klassifizieren, formatieren, übersetzen, extrahieren, auflisten
- Weiterleiten an: Schnelles Modell (z.B. gpt-4o-mini, claude-haiku-4-5 oder ein self-hosted Open-Source-Modell)
Fallback auf das leistungsstarke Modell setzen (z.B. claude-sonnet-4-6, gpt-4o)

Eine Anfrage wie "Klassifiziere dieses Support-Ticket als Bug, Feature-Request oder Frage" wird an das günstige Modell geleitet. Komplexe analytische Prompts treffen das leistungsstarke Modell.

Beispiel: Kostenoptimiertes Round-Robin

Für Workloads ähnlicher Komplexität, bei denen Durchschnittskosten minimiert werden sollen:

Mehrere Modelle zur Modellliste des Agenten hinzufügen
Routing-Strategie auf Kostenoptimiert setzen
Mycelis bevorzugt das günstigste Modell, das innerhalb des Latenz-Schwellenwerts antwortet

Eignet sich gut für Embedding-Generierung, Batch-Zusammenfassungen und Content-Tagging-Pipelines.

Wirkung messen

Nach dem Deployment der Routing-Regeln unter Workspace → Nutzung → Kostenaufschlüsselung prüfen:

Nach Agent filtern
Kosten pro Anfrage vor und nach vergleichen (Datumsauswahl nutzen)
Das Modell-Verteilungs-Diagramm zeigt, wie viel Prozent der Anfragen an welches Modell gingen

Eine gut abgestimmte Routing-Konfiguration spart typischerweise 40–70% der Token-Kosten bei gemischten Workloads.

Kombination mit Budget-Kontrollen

Um unerwartete Spitzen zu verhindern, Budget-Cap ergänzen:

Zu Workspace-Einstellungen → Budget navigieren
Monatliches Limit in Credits setzen
Verhalten bei Limit-Erreichen wählen: Anfragen blockieren, an Fallback weiterleiten oder Admin benachrichtigen

Das ergibt Kostenoptimierung (Routing) und Kostenschutz (Budget-Cap) im selben Workspace.

Tipps

Permissiv starten. Zuerst eine breite Catch-All-Regel hinzufügen und überwachen, welche Anfragen matchen. Routing-Regeln basierend auf echten Traffic-Mustern verschärfen.
Modellauswahl loggen. Request-Logging in den Agenten-Einstellungen aktivieren, um zu sehen, welches Modell jede Anfrage bearbeitet hat.
Vor Deployment testen. Das Test-Prompt-Panel in den Agenten-Einstellungen nutzen, um zu prüfen, ob ein Beispiel-Prompt ans erwartete Modell geroutet wird.

← Vorherige RAG-Agent mit Mycelis-Wissensbasen aufbauen Nächste → Claude Code mit dem Mycelis API-Gateway verwenden

Produkte

Compute

Intelligence

Integration

Use Cases

Entwickler & Private

KMU

Enterprise

Ressourcen

Lernen

Community & Updates