Samples · baseline.cold_start

Run #26 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-10 17:12 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte auf den minimalen Prompt „Antworte nur mit OK." korrekt und ohne Fehler die erwartete Antwort.

Stärken

Perfekte Pass-Rate (1/1) ohne Fehler oder Failures
Modell folgt der Instruktion exakt und produziert keine überschüssigen Tokens

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen
Kein absoluter TTFT-Zahlenwert im Report — die eigentliche Latenzmetrik ist nicht quantifizierbar

Auffälligkeiten

Keine Fehler oder Muster erkennbar. Bei einer einzigen Messung ist eine Mustererkennung strukturell nicht möglich. Es ist unklar, ob der Benchmark tatsächlich die Latenz bis zum ersten Stream-Token misst oder nur die funktionale Korrektheit der Antwort.

Empfehlung

Den Benchmark um mindestens 10–20 Wiederholungen erweitern und die tatsächlichen TTFT-Werte in Millisekunden als Metrik erfassen und auswerten. Ohne rohe Zeitwerte misst der Test de facto nur Antwort-Korrektheit, nicht Cold-Start-Latenz — das widerspricht dem erklärten Ziel des Sub-Benchmarks.

Übersicht

1 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 151 p95: 151 mean: 151

Tokens/s

p50: 6.6 mean: 6.6

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	cold_start.0	passed	100%	Antworte nur mit OK.	151 ms	6.6	—
Lade Detail …