Samples · baseline.cold_start

Run #64 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-12 02:18 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte beim einzigen Testfall sofort die korrekte Antwort ohne Fehler.

Stärken

Vollständige Fehlerfreiheit: keine Errors, keine Failures
Korrekte und minimale Antwort auf einen einfachen Prompt

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage
Kein tatsächlicher TTFT-Messwert (in Millisekunden) in den Metriken erfasst

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Der Benchmark misst laut Beschreibung die Latenz bis zum ersten Stream-Token, jedoch enthält die Ausgabe keinen numerischen Zeitwert — es wurde lediglich die Korrektheit der Antwort bewertet. Dies widerspricht dem eigentlichen Ziel des Sub-Benchmarks.

Empfehlung

Den Benchmark erweitern: Erstens sollte die tatsächliche TTFT-Dauer in Millisekunden als Metrik erfasst und ausgegeben werden, da ohne diesen Wert keine Aussage über die Latenz möglich ist. Zweitens sollte die Stichprobengröße auf mindestens 10–20 Anfragen erhöht werden, um Schwankungen im Cold-Start-Verhalten (z. B. durch Modell-Loading oder Cache-Effekte) sichtbar zu machen.

Übersicht

1 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 502 p95: 502 mean: 502

Tokens/s

p50: 4 mean: 4

TTFT (ms)

p50: 472 p95: 472

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	cold_start.0	passed	100%	Antworte nur mit OK.	502 ms	4	472 ms
Lade Detail …