KI-Modellkosten um 60% reduzieren mit Smart Routing
Wenn jede Anfrage auf das leistungsfähigste — und teuerste — Modell trifft, wachsen die Kosten schnell. Die meisten Workloads sind gemischt: einfache Klassifizierungs- oder Formatierungsaufgaben, die ein schnelles $0,10/M-Token-Modell lösen kann, neben komplexen Analysen, die wirklich ein Top-Modell brauchen.
Mycelis Smart Routing ermöglicht die Konfiguration von Regeln, die entscheiden, welches Modell jede Anfrage bearbeitet. Die Anwendung sendet alle Calls an denselben Endpunkt mit demselben Agent-Slug — das Gateway erledigt das Routing transparent.
Wie es funktioniert
Jeder Mycelis-Agent hat eine Routing-Konfiguration. Anfragen werden von oben nach unten gegen die Regeln ausgewertet. Die erste passende Regel bestimmt, welches Modell die Anfrage erhält. Ein Fallback-Modell übernimmt alles ohne Treffer.
Beispiel: Keyword-basiertes Routing
Der einfachste Ansatz. Keywords für "einfache" Aufgaben in eine Regel aufnehmen, die an ein schnelles, günstiges Modell weiterleitet:
- Agenten im Mycelis-Dashboard öffnen
- Routing in den Agenten-Einstellungen aufrufen
- Regel hinzufügen:
- Match: Anfrage enthält eines von —
zusammenfassen,klassifizieren,formatieren,übersetzen,extrahieren,auflisten - Weiterleiten an: Schnelles Modell (z.B.
gpt-4o-mini,claude-haiku-4-5oder ein self-hosted Open-Source-Modell)
- Match: Anfrage enthält eines von —
- Fallback auf das leistungsstarke Modell setzen (z.B.
claude-sonnet-4-6,gpt-4o)
Eine Anfrage wie "Klassifiziere dieses Support-Ticket als Bug, Feature-Request oder Frage" wird an das günstige Modell geleitet. Komplexe analytische Prompts treffen das leistungsstarke Modell.
Beispiel: Kostenoptimiertes Round-Robin
Für Workloads ähnlicher Komplexität, bei denen Durchschnittskosten minimiert werden sollen:
- Mehrere Modelle zur Modellliste des Agenten hinzufügen
- Routing-Strategie auf Kostenoptimiert setzen
- Mycelis bevorzugt das günstigste Modell, das innerhalb des Latenz-Schwellenwerts antwortet
Eignet sich gut für Embedding-Generierung, Batch-Zusammenfassungen und Content-Tagging-Pipelines.
Wirkung messen
Nach dem Deployment der Routing-Regeln unter Workspace → Nutzung → Kostenaufschlüsselung prüfen:
- Nach Agent filtern
- Kosten pro Anfrage vor und nach vergleichen (Datumsauswahl nutzen)
- Das Modell-Verteilungs-Diagramm zeigt, wie viel Prozent der Anfragen an welches Modell gingen
Eine gut abgestimmte Routing-Konfiguration spart typischerweise 40–70% der Token-Kosten bei gemischten Workloads.
Kombination mit Budget-Kontrollen
Um unerwartete Spitzen zu verhindern, Budget-Cap ergänzen:
- Zu Workspace-Einstellungen → Budget navigieren
- Monatliches Limit in Credits setzen
- Verhalten bei Limit-Erreichen wählen: Anfragen blockieren, an Fallback weiterleiten oder Admin benachrichtigen
Das ergibt Kostenoptimierung (Routing) und Kostenschutz (Budget-Cap) im selben Workspace.
Tipps
- Permissiv starten. Zuerst eine breite Catch-All-Regel hinzufügen und überwachen, welche Anfragen matchen. Routing-Regeln basierend auf echten Traffic-Mustern verschärfen.
- Modellauswahl loggen. Request-Logging in den Agenten-Einstellungen aktivieren, um zu sehen, welches Modell jede Anfrage bearbeitet hat.
- Vor Deployment testen. Das Test-Prompt-Panel in den Agenten-Einstellungen nutzen, um zu prüfen, ob ein Beispiel-Prompt ans erwartete Modell geroutet wird.