Intelligence

Agents & Smart Routing —
Ein Slug, alle Modelle.

Definiere Regeln — Mycelis wählt automatisch das günstigste passende Modell. Durchschnittlich 80% Kostenersparnis ohne eine Zeile Code zu ändern.

Kostenlos starten Dokumentation

Das VirtualModel-Konzept

Ein VirtualModel ist ein benannter Endpunkt in deinem Workspace — z.B. my-assistant. Statt direkt ein Modell anzusprechen, gibst du nur diesen Namen an. Mycelis wertet deine Routing-Regeln aus und entscheidet bei jeder Anfrage, welches Deployment die Aufgabe am günstigsten löst.

Dein Code bleibt identisch — nur das VirtualModel-Deployment wechselt intern zwischen Modellen.

Smart Routing Regeln

Token-Budget

Anfragen mit weniger als 500 Input-Token → kleines Modell (z.B. Llama 8B). Mehr als 500 Token → leistungsstarkes Modell (z.B. GPT-4o).

Latenz-Optimierung

Zeitkritische Anfragen (stream=true, kurze Prompts) → schnellstes verfügbares Modell. Hintergrund-Jobs → günstigstes Modell.

Keyword-Matching

Prompts mit 'Code' oder 'SQL' → spezialisiertes Coding-Modell. Allgemeine Fragen → Standard-Deployment.

A/B Routing

70% der Anfragen → Modell A, 30% → Modell B. Für Qualitätsvergleiche ohne Code-Änderung.

Durchschnittlich 80% Kostenersparnis

In typischen Produktions-Workloads sind 60–80% aller Anfragen kurze, einfache Tasks (Klassifizierung, Extraktion, kurze Zusammenfassungen). Diese können von kleinen, günstigen Modellen wie Llama 3.1 8B erledigt werden — bei gleicher Ausgabequalität.

~890 €

nur GPT-4o / Monat

~178 €

mit Smart Routing / Monat

Code-Beispiel — VirtualModel nutzen

Python

from openai import OpenAI

client = OpenAI(
    base_url="https://api.mycelis.io/proxy/v1",
    api_key="pat_..."
)

# Ändere nur den model-Parameter auf deinen VirtualModel-Namen
response = client.chat.completions.create(
    model="my-assistant",  # Mycelis routet automatisch
    messages=[{"role": "user", "content": "Fasse den Vertrag zusammen."}]
)
# Routing: kurze Anfrage → Llama 3.1 8B (0,39€/h)
# statt → GPT-4o (0,005€/1k Token)

Direkte RAG-Anbindung

Verbinde deine Knowledge Bases direkt mit Agents. Bei jeder Anfrage durchsucht Mycelis automatisch die relevanten Dokumente und fügt sie als Kontext ein — ohne eigene Vektorsuche-Implementierung.

Häufige Fragen

Was ist ein VirtualModel?

Ein VirtualModel ist ein benannter Endpunkt (z.B. 'mein-assistent'), der intern Anfragen nach konfigurierten Regeln an verschiedene Modelle weiterleitet. Dein Code bleibt unverändert.

Kann ich eigene Routing-Regeln definieren?

Ja. Im Dashboard definierst du Regeln basierend auf Token-Anzahl, Latenz-Anforderungen, Keywords im Prompt oder A/B-Split-Prozentsätzen.

Entstehen Zusatzkosten für Smart Routing?

Nein. Smart Routing ist in jedem Deployment enthalten. Du zahlst nur für die tatsächlich genutzten Modell-Ressourcen (GPU-Stunden oder Token).

Funktioniert RAG mit allen Modellen?

Ja. RAG-Dokumente werden als Kontext in den Prompt eingefügt — das funktioniert mit allen Modellen, die Chat-Completions unterstützen.

Produkte

Compute

Intelligence

Integration

Use Cases

Enterprise

KMU

Entwickler & Private

Ressourcen

Lernen

Community & Updates

Support

Agents & Smart Routing —
Ein Slug, alle Modelle.

Token-Budget

Latenz-Optimierung

Keyword-Matching

A/B Routing

Durchschnittlich 80% Kostenersparnis

Direkte RAG-Anbindung

80% günstiger — gleiche Qualität.

Produkte

Compute

Intelligence

Integration

Use Cases

Enterprise

KMU

Entwickler & Private

Ressourcen

Lernen

Community & Updates

Support

Agents & Smart Routing —Ein Slug, alle Modelle.

Token-Budget

Latenz-Optimierung

Keyword-Matching

A/B Routing

Durchschnittlich 80% Kostenersparnis

Direkte RAG-Anbindung

80% günstiger — gleiche Qualität.

Agents & Smart Routing —
Ein Slug, alle Modelle.