Samples · baseline.cold_start

Run #57 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-11 19:02 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete auf die erste Stream-Anfrage korrekt und ohne Fehler.

Stärken

Perfekte Pass-Rate (1/1) ohne Fehler oder Fehlschläge
Exakte, instruktionstreue Antwort ("OK") ohne überflüssige Tokens oder Abweichungen vom Format

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
Kein konkreter Latenzwert (ms) im Report enthalten, sodass die eigentliche Kernmetrik nicht bewertet werden kann

Auffälligkeiten

Keine Failures oder Errors vorhanden. Der Prompt war bewusst minimal gehalten ("Antworte nur mit OK"), was zwar ideal für TTFT-Messung ist, aber keine Rückschlüsse auf das Verhalten bei komplexeren Anfragen erlaubt. Das Fehlen numerischer Latenzdaten im Output ist auffällig für einen Benchmark, dessen erklärtes Ziel die Messung der Time-To-First-Token ist.

Empfehlung

Den Benchmark um mindestens 5–10 Wiederholungen mit demselben minimalen Prompt erweitern und die tatsächlichen TTFT-Werte in Millisekunden im Report erfassen, um Ausreißer und Varianz des Cold-Start-Verhaltens des Modells `mlx-community/Qwen3-Coder-Next` zuverlässig beurteilen zu können.

Übersicht

1 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 508 p95: 508 mean: 508

Tokens/s

p50: 3.9 mean: 3.9

TTFT (ms)

p50: 464 p95: 464

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	cold_start.0	passed	100%	Antworte nur mit OK.	508 ms	3.9	464 ms
Lade Detail …