Samples · baseline.cold_start

Run #63 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%

KI-Auswertung

Generiert 2026-05-12 02:17 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete korrekt und ohne Fehler auf den einzigen Testfall.

Stärken

Vollständige Fehlerfreiheit: keine Errors, keine Failures
Korrekte und präzise Antwort auf die Instruktion ("OK" ohne Zusätze)

Schwächen

Stichprobengröße von nur einem Prompt erlaubt keine belastbare statistische Aussage
Der Test misst lediglich Korrektheit, nicht die tatsächliche TTFT-Latenz in Millisekunden

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Die Beschreibung des Benchmarks zielt auf Latenz (Time-To-First-Token), jedoch enthält die Auswertung keine konkreten Zeitwerte — nur ein binäres Pass/Fail-Ergebnis.

Empfehlung

Den Benchmark um quantitative Latenz-Metriken (TTFT in ms, Perzentile p50/p95) sowie eine größere Anzahl von Prompts unterschiedlicher Länge und Komplexität erweitern, um belastbare Aussagen über das tatsächliche Cold-Start-Verhalten des Modells treffen zu können.

Übersicht

1 Samples

Verteilung

Score-Histogramm

0.0 ────── 1.0

Latenz (ms)

p50: 489 p95: 489 mean: 489

Tokens/s

p50: 4.1 mean: 4.1

TTFT (ms)

p50: 463 p95: 463

	Frage-ID	Status	Score	Prompt	Latenz	Tokens/s	TTFT
	cold_start.0	passed	100%	Antworte nur mit OK.	489 ms	4.1	463 ms
Lade Detail …