Samples · baseline.cold_start

Run #51 · Adapter v1.0.0 · 0/1 Samples angezeigt

KI-Auswertung

Generiert 2026-05-11 15:55 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) fehlerfrei abgeschlossen. Das Modell reagierte korrekt und ohne Fehler auf die einzige gestellte Anfrage.

Stärken

Vollständige Fehlerfreiheit: keine Errors, keine Failures
Korrekte, präzise Antwort ohne Halluzination oder Format-Abweichung

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage zur TTFT-Stabilität
Kein numerischer Score (score: null) vorhanden, daher keine quantitative Latenz-Bewertung möglich

Auffälligkeiten

Keine Failure-Muster erkennbar, da ausschließlich ein einzelner Erfolgsfall vorliegt. Der Prompt war trivial kurz ("Antworte nur mit OK."), was keine Rückschlüsse auf das Verhalten bei komplexeren oder längeren Inputs zulässt. Die fehlende Score-Metrik deutet darauf hin, dass die eigentliche TTFT-Messung (in Millisekunden) nicht erfasst oder nicht weitergegeben wurde.

Empfehlung

Den Benchmark mit mindestens 20–50 Wiederholungen und variierenden Prompt-Längen erneut ausführen sowie die konkrete TTFT-Messung (z. B. in Millisekunden) als numerischen Score implementieren, um belastbare Aussagen zur Latenz und deren Stabilität unter Last treffen zu können.

Übersicht

1 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 372 p95: 372 mean: 372

Tokens/s

p50: 107.5 mean: 107.5

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
Keine Samples Filter zurücksetzen, um die 1 Samples zu sehen.

0 von 1 Samples · Limit 200 Nächste ›