Plattform

Produkte

Private KI-Infrastruktur — von Compute bis Agenten.

Zielgruppen

Use Cases

Für Enterprise, KMU und private Entwickler.

Wissen & Support

Ressourcen

Alles, was du brauchst, um erfolgreich mit Mycelis zu arbeiten.

Cost Optimization · 5 Min Lesezeit

KI-Modellkosten um 60% reduzieren mit Smart Routing

Wenn jede Anfrage auf das leistungsfähigste — und teuerste — Modell trifft, wachsen die Kosten schnell. Die meisten Workloads sind gemischt: einfache Klassifizierungs- oder Formatierungsaufgaben, die ein schnelles $0,10/M-Token-Modell lösen kann, neben komplexen Analysen, die wirklich ein Top-Modell brauchen.

Mycelis Smart Routing ermöglicht die Konfiguration von Regeln, die entscheiden, welches Modell jede Anfrage bearbeitet. Die Anwendung sendet alle Calls an denselben Endpunkt mit demselben Agent-Slug — das Gateway erledigt das Routing transparent.

Wie es funktioniert

Jeder Mycelis-Agent hat eine Routing-Konfiguration. Anfragen werden von oben nach unten gegen die Regeln ausgewertet. Die erste passende Regel bestimmt, welches Modell die Anfrage erhält. Ein Fallback-Modell übernimmt alles ohne Treffer.

Beispiel: Keyword-basiertes Routing

Der einfachste Ansatz. Keywords für "einfache" Aufgaben in eine Regel aufnehmen, die an ein schnelles, günstiges Modell weiterleitet:

  1. Agenten im Mycelis-Dashboard öffnen
  2. Routing in den Agenten-Einstellungen aufrufen
  3. Regel hinzufügen:
    • Match: Anfrage enthält eines von — zusammenfassen, klassifizieren, formatieren, übersetzen, extrahieren, auflisten
    • Weiterleiten an: Schnelles Modell (z.B. gpt-4o-mini, claude-haiku-4-5 oder ein self-hosted Open-Source-Modell)
  4. Fallback auf das leistungsstarke Modell setzen (z.B. claude-sonnet-4-6, gpt-4o)

Eine Anfrage wie "Klassifiziere dieses Support-Ticket als Bug, Feature-Request oder Frage" wird an das günstige Modell geleitet. Komplexe analytische Prompts treffen das leistungsstarke Modell.

Beispiel: Kostenoptimiertes Round-Robin

Für Workloads ähnlicher Komplexität, bei denen Durchschnittskosten minimiert werden sollen:

  1. Mehrere Modelle zur Modellliste des Agenten hinzufügen
  2. Routing-Strategie auf Kostenoptimiert setzen
  3. Mycelis bevorzugt das günstigste Modell, das innerhalb des Latenz-Schwellenwerts antwortet

Eignet sich gut für Embedding-Generierung, Batch-Zusammenfassungen und Content-Tagging-Pipelines.

Wirkung messen

Nach dem Deployment der Routing-Regeln unter Workspace → Nutzung → Kostenaufschlüsselung prüfen:

  • Nach Agent filtern
  • Kosten pro Anfrage vor und nach vergleichen (Datumsauswahl nutzen)
  • Das Modell-Verteilungs-Diagramm zeigt, wie viel Prozent der Anfragen an welches Modell gingen

Eine gut abgestimmte Routing-Konfiguration spart typischerweise 40–70% der Token-Kosten bei gemischten Workloads.

Kombination mit Budget-Kontrollen

Um unerwartete Spitzen zu verhindern, Budget-Cap ergänzen:

  1. Zu Workspace-Einstellungen → Budget navigieren
  2. Monatliches Limit in Credits setzen
  3. Verhalten bei Limit-Erreichen wählen: Anfragen blockieren, an Fallback weiterleiten oder Admin benachrichtigen

Das ergibt Kostenoptimierung (Routing) und Kostenschutz (Budget-Cap) im selben Workspace.

Tipps

  • Permissiv starten. Zuerst eine breite Catch-All-Regel hinzufügen und überwachen, welche Anfragen matchen. Routing-Regeln basierend auf echten Traffic-Mustern verschärfen.
  • Modellauswahl loggen. Request-Logging in den Agenten-Einstellungen aktivieren, um zu sehen, welches Modell jede Anfrage bearbeitet hat.
  • Vor Deployment testen. Das Test-Prompt-Panel in den Agenten-Einstellungen nutzen, um zu prüfen, ob ein Beispiel-Prompt ans erwartete Modell geroutet wird.