Plattform

Produkte

Private KI-Infrastruktur — von Compute bis Agenten.

Zielgruppen

Use Cases

Für Enterprise, KMU und private Entwickler.

Wissen & Support

Ressourcen

Alles, was du brauchst, um erfolgreich mit Mycelis zu arbeiten.

Compute

GPU Instances —
Dedizierte KI-Compute-Kapazität.

Deploye Open-Source-Modelle auf dedizierter GPU-Hardware. Stündlich abgerechnet, OpenAI-kompatibler Endpunkt, keine geteilten Ressourcen.

Verfügbare GPUs

GPU VRAM Geeignet für Preis / Stunde
NVIDIA RTX 4090 24 GB Llama 3.1 8B, Mistral 7B, Qwen 7B 0,39 €
NVIDIA RTX A6000 48 GB Llama 3.1 70B (Q4), Mixtral 8x7B 0,79 €
NVIDIA A100 80GB 80 GB Llama 3.1 70B (FP16), 405B (Q4) 1,99 €
NVIDIA H100 SXM 80 GB HBM3 Llama 3.1 405B, Training Auf Anfrage

Alle Preise netto, zzgl. MwSt. Stündliche Abrechnung, jederzeit kündbar.

Unterstützte Open-Source-Modelle

Llama 3.1 8B
Llama 3.1 70B
Llama 3.1 405B
Mistral 7B
Mixtral 8x7B
Qwen 2.5 7B
Qwen 2.5 72B
DeepSeek Coder
Phi-3 Mini

Setup in 60 Sekunden

1

GPU & Modell wählen

Wähle GPU-Typ und Modell im Dashboard. Mycelis startet die Instanz automatisch.

2

API-Key generieren

Erstelle einen Personal Access Token (PAT) — dauert unter 10 Sekunden.

3

Direkt loslegen

Ändere base_url und api_key in deinem bestehenden Code. Fertig.

OpenAI-kompatibler Endpunkt

Python
from openai import OpenAI

client = OpenAI(
    base_url="https://api.mycelis.io/proxy/v1",
    api_key="pat_..."  # dein Personal Access Token
)

response = client.chat.completions.create(
    model="llama-3.1-70b",  # dein Deployment-Name
    messages=[{"role": "user", "content": "Hallo!"}]
)
print(response.choices[0].message.content)

DSGVO-konform by Design

Alle GPU-Instanzen laufen auf dedizierter Hardware — keine geteilten Ressourcen, keine Datenweiterleitung an Dritte. Prompts und Responses werden nicht dauerhaft gespeichert. Rechenzentren in der EU. Vollständige Datenhoheit liegt beim Nutzer.

Häufige Fragen

Welche GPUs sind verfügbar?

RTX 4090 (0,39 €/h), RTX A6000 (0,79 €/h), A100 80GB (1,99 €/h). H100 SXM auf Anfrage für Trainings-Workloads.

Kann ich mehrere Modelle auf einer GPU-Instanz hosten?

Jede Instanz betreibt genau ein Deployment. Für mehrere Modelle kannst du mehrere Instanzen starten — oder VirtualModels mit Smart Routing verwenden, um zwischen Instanzen zu wechseln.

Wie werden Instanzen abgerechnet?

Stündlich, auf die Minute genau. Eine Instanz, die 2,5 Stunden läuft, wird mit 2,5 × Stundensatz abgerechnet. Kein Minimum, keine Setup-Gebühr.

Kann ich das Modell nach dem Deploy wechseln?

Nein — ein Deployment ist einem Modell fest zugeordnet. Für ein anderes Modell startest du einfach eine neue Instanz und kannst die alte stoppen.

Bereit dein erstes Modell zu deployen?

Keine Kreditkarte erforderlich. Startguthaben inklusive.

Kostenlos starten