Inference-Provider

OpenAI-kompatible Endpoints (Ollama, vLLM, Exo, mlx-lm) mit Hardware-Zuordnung. „Verbindung testen" ruft /v1/models live ab.

Name	Typ	Endpoint	Hardware	Sampling-Intervall
ExoBender	exo	http://100.64.0.2:52415	kim	1000 ms
ExoCluster	exo	http://100.64.0.2:52415	bender zoidberg	1000 ms
Ollama	ollama	http://100.64.0.4:11434/	kim	1000 ms
liteLLM	litellm-bridge	http://100.64.0.4:4000/	kim	1000 ms
llama-tq3	ollama	http://100.64.0.4:8090/	kim	1000 ms

Provider bearbeiten

Eintrag aktualisieren

Name *

Typ *

Endpoint-URL *

Basis-URL des OpenAI-kompatiblen Endpoints. Test ruft /v1/models daran an.

API-Key (Env-Variablen-Name)

Nur der Name der Variable. Wert lebt im Prozess-Environment, niemals in der DB (Konzept §9.5).

Zugeordnete Hardware

bender kim zoidberg

Multi-Select für Cluster-Provider (z. B. Exo mit mehreren Macs).

Telemetrie-Sampling-Intervall (ms)

100–60000 ms. Default 1000 (1 Hz).

Sampling-Params (JSON)

LLM-Inferenz-Parameter (temperature, top_p, top_k …) — leer = Adapter-Defaults.

Provider-spezifische Konfiguration (JSON)

Verbindung testen

Noch kein Test ausgeführt.