Samples · baseline.cold_start

Run #25 · Adapter v1.0.0 · 0/1 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-10 16:15 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) vollständig bestanden. Das Modell reagierte korrekt und ohne Fehler auf den minimalen Testprompt.

Stärken

Keine Errors und keine Failures bei der Erstanfrage
Antwort präzise und regelkonform: nur "OK", ohne überflüssige Tokens

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
Konkrete Latenzmesswerte (ms) fehlen in der Auswertung, sodass kein absoluter Vergleichswert vorliegt

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Der Prompt ist trivial kurz und kontextfrei, was die Aussagekraft über das Verhalten bei realen Anfragen einschränkt.

Empfehlung

Den Cold-Start-Benchmark auf mindestens 10–20 Wiederholungen mit variierenden Promptlängen ausweiten, um Latenz-Ausreißer und Warmup-Effekte sichtbar zu machen. Zusätzlich sollten absolute TTFT-Werte (p50, p95) erfasst und in die Auswertung einbezogen werden.

Übersicht

1 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 203 p95: 203 mean: 203

Tokens/s

p50: 4.9 mean: 4.9

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Filter zurücksetzen, um die 1 Samples zu sehen.

0 von 1 Samples · Limit 200 Nächste ›