Samples · baseline.cold_start

Run #67 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 19:40 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte beim ersten Stream-Token korrekt und fehlerfrei eine Antwort.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures
  • Korrekte Instruktionsbefolgung beim minimalen Prompt ("Antworte nur mit OK" → "OK")

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage zur TTFT-Stabilität
  • Kein tatsächlicher Latenzwert (Millisekunden) in den Metriken dokumentiert, nur binäres Pass/Fail

Auffälligkeiten

Keine Muster in Failures erkennbar, da ausschließlich ein Success vorliegt. Der Test deckt lediglich den einfachsten möglichen Fall ab (einsilbige Antwort auf minimalen Prompt), was komplexere Cold-Start-Szenarien mit längeren Prompts oder Token-intensiven Antworten unberücksichtigt lässt.

Empfehlung

Den Benchmark um mindestens 5–10 Wiederholungen mit variierenden Prompt-Längen und -Komplexitäten erweitern sowie tatsächliche TTFT-Messwerte in Millisekunden erfassen, um Ausreißer und Jitter im Cold-Start-Verhalten des Modells `mlx-community/Qwen3-Coder-Next` zuverlässig beurteilen zu können.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 326 p95: 326 mean: 326
Tokens/s
p50: 6.1 mean: 6.1
TTFT (ms)
p50: 309 p95: 309
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
cold_start.0 passed 100% Antworte nur mit OK. 326 ms 6.1 309 ms
Lade Detail …