Samples · baseline.cold_start

Run #25 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-10 16:15 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) vollständig bestanden. Das Modell reagierte korrekt und ohne Fehler auf den minimalen Testprompt.

Stärken

  • Keine Errors und keine Failures bei der Erstanfrage
  • Antwort präzise und regelkonform: nur "OK", ohne überflüssige Tokens

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
  • Konkrete Latenzmesswerte (ms) fehlen in der Auswertung, sodass kein absoluter Vergleichswert vorliegt

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Der Prompt ist trivial kurz und kontextfrei, was die Aussagekraft über das Verhalten bei realen Anfragen einschränkt.

Empfehlung

Den Cold-Start-Benchmark auf mindestens 10–20 Wiederholungen mit variierenden Promptlängen ausweiten, um Latenz-Ausreißer und Warmup-Effekte sichtbar zu machen. Zusätzlich sollten absolute TTFT-Werte (p50, p95) erfasst und in die Auswertung einbezogen werden.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 203 p95: 203 mean: 203
Tokens/s
p50: 4.9 mean: 4.9
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
cold_start.0 passed 100% Antworte nur mit OK. 203 ms 4.9
Lade Detail …