Samples · baseline.cold_start
Run #75 · Adapter v1.0.0 · 0/1 Samples angezeigt
· Score 100%
KI-Auswertung
Generiert 2026-05-13 21:37 · claude-sonnet-4-6Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) fehlerfrei bestanden. Das Modell antwortete korrekt und ohne Verzögerungsprobleme auf den minimalen Testprompt.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures
- Korrekte, präzise Antwort ohne überschüssige Tokens ("OK" auf "Antworte nur mit OK.")
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage zur TTFT-Stabilität
- Kein numerischer TTFT-Wert in den Metriken vorhanden, sodass kein Latenz-Vergleich möglich ist
Auffälligkeiten
Keine Fehler-Muster erkennbar. Der einzige Testfall ist trivial kurz, was zwar den Best-Case abbildet, aber keine Aussage über Verhalten bei langen oder komplexen Prompts zulässt.
Empfehlung
Den Benchmark mit mindestens 10–20 Samples unterschiedlicher Prompt-Länge und -Komplexität wiederholen und dabei explizite TTFT-Messwerte (in Millisekunden) in den Metriken erfassen, um eine aussagekräftige Latenz-Baseline für das Modell `mlx-community/Qwen3-Coder-Next` zu etablieren.
Übersicht
1 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 439
p95: 439
mean: 439
Tokens/s
p50: 4.6
mean: 4.6
TTFT (ms)
p50: 412
p95: 412
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Filter zurücksetzen, um die 1 Samples zu sehen.
| |||||||
0 von 1 Samples · Limit 200
‹ Vorherige