Samples · baseline.cold_start

Run #57 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-11 19:02 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete auf die erste Stream-Anfrage korrekt und ohne Fehler.

Stärken

  • Perfekte Pass-Rate (1/1) ohne Fehler oder Fehlschläge
  • Exakte, instruktionstreue Antwort ("OK") ohne überflüssige Tokens oder Abweichungen vom Format

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
  • Kein konkreter Latenzwert (ms) im Report enthalten, sodass die eigentliche Kernmetrik nicht bewertet werden kann

Auffälligkeiten

Keine Failures oder Errors vorhanden. Der Prompt war bewusst minimal gehalten ("Antworte nur mit OK"), was zwar ideal für TTFT-Messung ist, aber keine Rückschlüsse auf das Verhalten bei komplexeren Anfragen erlaubt. Das Fehlen numerischer Latenzdaten im Output ist auffällig für einen Benchmark, dessen erklärtes Ziel die Messung der Time-To-First-Token ist.

Empfehlung

Den Benchmark um mindestens 5–10 Wiederholungen mit demselben minimalen Prompt erweitern und die tatsächlichen TTFT-Werte in Millisekunden im Report erfassen, um Ausreißer und Varianz des Cold-Start-Verhaltens des Modells `mlx-community/Qwen3-Coder-Next` zuverlässig beurteilen zu können.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 508 p95: 508 mean: 508
Tokens/s
p50: 3.9 mean: 3.9
TTFT (ms)
p50: 464 p95: 464
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
cold_start.0 passed 100% Antworte nur mit OK. 508 ms 3.9 464 ms
Lade Detail …