Run #75
mlx-community/Qwen3-Coder-Next
4bit
· ExoCluster
· gestartet 2026-05-13 17:22:43
running
Aktueller Adapter
swe_bench.swe_bench_lite
Samples
724 / 724
(100%)
Errors
0
Letzter Heartbeat
vor 2s
Cold-Start TTFT
Baseline — Streaming-Performance & Sanity · v1.0.0
Wie schnell antwortet das Modell auf den ersten Token-Stream nach Aufruf?
412ms
TTFT (p50)
·
100% pass
1 ok
·
0 failed
Sanity — Substring-Checks
Baseline — Streaming-Performance & Sanity · v1.0.0
Liefert der Endpoint überhaupt korrekte Antworten auf einfachste Fragen?
100%
10 ok
·
0 failed
Throughput — Tokens/sec
Baseline — Streaming-Performance & Sanity · v1.0.0
Wie viele Tokens pro Sekunde liefert das Modell unter realistischer Last?
54.7t/s
Tokens/sec (p50)
·
100% pass
6 ok
·
0 failed
Single-Turn Function Calling
BFCL · Berkeley Function Calling Leaderboard · v1.0.0+v4-layout-aliases+reasoning
Ruft das Modell die richtige Funktion mit den richtigen Argumenten auf?
0%
0 ok
·
707 failed
GSM8K — Grundschulmathe
lm-evaluation-harness · v1.0.0+humaneval-removed+gen-kwargs-pairing
Kann das Modell mehrstufig rechnen und Zwischenergebnisse halten?
—
0 ok
·
0 failed
SWE-bench Lite — Issue-Repair
SWE-bench Lite · v1.0.0+patch-apply-detection
Kann das Modell echte Bugs in echten Codebasen fixen?
—
0 ok
·
0 failed
›
Live-View
läuft
beendet
Heartbeat
kein Heartbeat
elapsed
Cancel angefordert
/
(%)
/
· err
Keine Sub-Benchmarks erfasst.
Noch keine Events.
Run beendet. Scrolle nach unten zur KI-Auswertung oder lade den vollständigen Event-Verlauf.
KI-Bewertung
Wartet auf Run-Ende — KI-Bewertung wird automatisch generiert.
Stärken & Schwächen
Auf Basis der Pass-Raten dieses RunsStärken
Keine Sub-Benchmarks im "good"-Bereich.
Schwächen
- Single-Turn Function Calling (0%)
Telemetrie
GPU-Auslastung (%)
Knoten:
VRAM (MB)
Knoten:
Snapshots
›
Konfiguration
{
"name": "Qwen-3-Coder ALL",
"provider_id": null,
"model_id": null,
"benchmarks": [
{
"adapter_key": "bfcl",
"sub_benchmarks": [
"single_turn"
],
"threshold_override": null,
"params": {
"bfcl_preset": "quick"
}
},
{
"adapter_key": "lm_eval_harness",
"sub_benchmarks": [
"gsm8k"
],
"threshold_override": null
},
{
"adapter_key": "swe_bench",
"sub_benchmarks": [
"swe_bench_lite"
],
"threshold_override": null,
"params": {
"swe_bench_preset": "lite_smoke"
}
}
],
"tags": [],
"notes": null,
"model": {
"base_name": "mlx-community/Qwen3-Coder-Next",
"quantization": "4bit",
"format": "other",
"source_url": null,
"build_notes": null,
"checksum": null
}
}
›
Provider
{
"name": "ExoCluster",
"type": "exo",
"endpoint_url": "http://100.64.0.2:52415",
"api_key_env_var": null,
"sampling_params": [],
"provider_specific": [],
"telemetry_sample_interval_ms": 1000
}
›
Hardware
[
{
"name": "bender",
"hostname": "192.168.3.147",
"gpu_description": "Mac Mini M4 Pro 20C",
"cpu": "M4 Pro",
"ram": "64 GB",
"storage": "2TB",
"network": null,
"notes": null
},
{
"name": "zoidberg",
"hostname": "192.168.3.79",
"gpu_description": "Mac Mini M4 Pro 20C",
"cpu": "M4 Pro",
"ram": "64GB",
"storage": "2TB",
"network": null,
"notes": null
}
]
›
System
{
"php_version": "8.4.21",
"os": "Linux",
"os_release": "6.8.0-111-generic",
"symfony_version": "7.4.10",
"provider_version_hint": null,
"recorded_at": "2026-05-13T17:22:43+02:00"
}
Log-Verzeichnis
/home/webuser/htdocs/llmbench.mandarin.dev/dev/app/var/logs/runs/75