Samples · baseline.cold_start

Run #70 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-13 03:58 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) bestanden. Das Modell lieferte auf den minimalen Prompt „Antworte nur mit OK." korrekt und ohne Fehler die erwartete Antwort.

Stärken

Fehlerfreie Ausführung: weder Errors noch Failures aufgezeichnet
Korrekte und präzise Antwort ohne überflüssige Tokens oder Abweichungen vom erwarteten Format

Schwächen

Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen über die tatsächliche TTFT-Stabilität
Keine konkreten Latenzmesswerte (ms) im Report vorhanden, was eine quantitative Bewertung unmöglich macht

Auffälligkeiten

Keine Muster erkennbar, da nur ein einzelner Testfall vorliegt. Der Prompt ist bewusst minimal gehalten, was keine Aussagen über das Verhalten bei komplexeren oder längeren Eingaben zulässt. Es ist unklar, ob „Cold-Start" tatsächlich einen Kaltstart ohne gecachte Modelldaten abbildet oder ob der Adapter dies nicht explizit kontrolliert.

Empfehlung

Den Benchmark auf mindestens 10–20 Wiederholungen ausweiten und dabei tatsächliche TTFT-Messwerte in Millisekunden erfassen, um Varianz und Ausreißer zu erkennen. Zusätzlich sollte geprüft werden, ob der Kaltstart-Zustand reproduzierbar erzwungen wird (z.B. durch Model-Unload vor jedem Lauf), damit der Sub-Benchmark seinen beschriebenen Zweck zuverlässig erfüllt.

Übersicht

1 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 370 p95: 370 mean: 370

Tokens/s

p50: 5.4 mean: 5.4

TTFT (ms)

p50: 342 p95: 342

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	cold_start.0	passed	100%	Antworte nur mit OK.	370 ms	5.4	342 ms
Lade Detail …