Compute

GPU Instances —
Dedizierte KI-Compute-Kapazität.

Deploye Open-Source-Modelle auf dedizierter GPU-Hardware. Stündlich abgerechnet, OpenAI-kompatibler Endpunkt, keine geteilten Ressourcen.

Kostenlos starten Quickstart-Guide

Verfügbare GPUs

GPU	VRAM	Geeignet für	Preis / Stunde
NVIDIA RTX 4090	24 GB	Llama 3.1 8B, Mistral 7B, Qwen 7B	0,39 €
NVIDIA RTX A6000	48 GB	Llama 3.1 70B (Q4), Mixtral 8x7B	0,79 €
NVIDIA A100 80GB	80 GB	Llama 3.1 70B (FP16), 405B (Q4)	1,99 €
NVIDIA H100 SXM	80 GB HBM3	Llama 3.1 405B, Training	Auf Anfrage

Alle Preise netto, zzgl. MwSt. Stündliche Abrechnung, jederzeit kündbar.

Unterstützte Open-Source-Modelle

Llama 3.1 8B

Llama 3.1 70B

Llama 3.1 405B

Mistral 7B

Mixtral 8x7B

Qwen 2.5 7B

Qwen 2.5 72B

DeepSeek Coder

Phi-3 Mini

Setup in 60 Sekunden

1

GPU & Modell wählen

Wähle GPU-Typ und Modell im Dashboard. Mycelis startet die Instanz automatisch.

2

API-Key generieren

Erstelle einen Personal Access Token (PAT) — dauert unter 10 Sekunden.

3

Direkt loslegen

Ändere base_url und api_key in deinem bestehenden Code. Fertig.

OpenAI-kompatibler Endpunkt

Python

from openai import OpenAI

client = OpenAI(
    base_url="https://api.mycelis.io/proxy/v1",
    api_key="pat_..."  # dein Personal Access Token
)

response = client.chat.completions.create(
    model="llama-3.1-70b",  # dein Deployment-Name
    messages=[{"role": "user", "content": "Hallo!"}]
)
print(response.choices[0].message.content)

DSGVO-konform by Design

Alle GPU-Instanzen laufen auf dedizierter Hardware — keine geteilten Ressourcen, keine Datenweiterleitung an Dritte. Prompts und Responses werden nicht dauerhaft gespeichert. Rechenzentren in der EU. Vollständige Datenhoheit liegt beim Nutzer.

Häufige Fragen

Welche GPUs sind verfügbar?

RTX 4090 (0,39 €/h), RTX A6000 (0,79 €/h), A100 80GB (1,99 €/h). H100 SXM auf Anfrage für Trainings-Workloads.

Kann ich mehrere Modelle auf einer GPU-Instanz hosten?

Jede Instanz betreibt genau ein Deployment. Für mehrere Modelle kannst du mehrere Instanzen starten — oder VirtualModels mit Smart Routing verwenden, um zwischen Instanzen zu wechseln.

Wie werden Instanzen abgerechnet?

Stündlich, auf die Minute genau. Eine Instanz, die 2,5 Stunden läuft, wird mit 2,5 × Stundensatz abgerechnet. Kein Minimum, keine Setup-Gebühr.

Kann ich das Modell nach dem Deploy wechseln?

Nein — ein Deployment ist einem Modell fest zugeordnet. Für ein anderes Modell startest du einfach eine neue Instanz und kannst die alte stoppen.

Produkte

Compute

Intelligence

Integration

Use Cases

Enterprise

KMU

Entwickler & Private

Ressourcen

Lernen

Community & Updates

Support

GPU Instances —
Dedizierte KI-Compute-Kapazität.

GPU & Modell wählen

API-Key generieren

Direkt loslegen

DSGVO-konform by Design

Bereit dein erstes Modell zu deployen?

Produkte

Compute

Intelligence

Integration

Use Cases

Enterprise

KMU

Entwickler & Private

Ressourcen

Lernen

Community & Updates

Support

GPU Instances —Dedizierte KI-Compute-Kapazität.

GPU & Modell wählen

API-Key generieren

Direkt loslegen

DSGVO-konform by Design

Bereit dein erstes Modell zu deployen?

GPU Instances —
Dedizierte KI-Compute-Kapazität.