Samples · baseline.cold_start
Run #67 · Adapter v1.0.0 · 1/1 Samples angezeigt
· Score 100%
KI-Auswertung
Generiert 2026-05-12 19:40 · claude-sonnet-4-6Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte beim ersten Stream-Token korrekt und fehlerfrei eine Antwort.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures
- Korrekte Instruktionsbefolgung beim minimalen Prompt ("Antworte nur mit OK" → "OK")
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage zur TTFT-Stabilität
- Kein tatsächlicher Latenzwert (Millisekunden) in den Metriken dokumentiert, nur binäres Pass/Fail
Auffälligkeiten
Keine Muster in Failures erkennbar, da ausschließlich ein Success vorliegt. Der Test deckt lediglich den einfachsten möglichen Fall ab (einsilbige Antwort auf minimalen Prompt), was komplexere Cold-Start-Szenarien mit längeren Prompts oder Token-intensiven Antworten unberücksichtigt lässt.
Empfehlung
Den Benchmark um mindestens 5–10 Wiederholungen mit variierenden Prompt-Längen und -Komplexitäten erweitern sowie tatsächliche TTFT-Messwerte in Millisekunden erfassen, um Ausreißer und Jitter im Cold-Start-Verhalten des Modells `mlx-community/Qwen3-Coder-Next` zuverlässig beurteilen zu können.
Übersicht
1 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 326
p95: 326
mean: 326
Tokens/s
p50: 6.1
mean: 6.1
TTFT (ms)
p50: 309
p95: 309
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| cold_start.0 | passed | Antworte nur mit OK. | 326 ms | 6.1 | 309 ms | ||
|
Lade Detail …
|
|||||||