Samples · baseline.cold_start

Run #70 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-13 03:58 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) bestanden. Das Modell lieferte auf den minimalen Prompt „Antworte nur mit OK." korrekt und ohne Fehler die erwartete Antwort.

Stärken

  • Fehlerfreie Ausführung: weder Errors noch Failures aufgezeichnet
  • Korrekte und präzise Antwort ohne überflüssige Tokens oder Abweichungen vom erwarteten Format

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen über die tatsächliche TTFT-Stabilität
  • Keine konkreten Latenzmesswerte (ms) im Report vorhanden, was eine quantitative Bewertung unmöglich macht

Auffälligkeiten

Keine Muster erkennbar, da nur ein einzelner Testfall vorliegt. Der Prompt ist bewusst minimal gehalten, was keine Aussagen über das Verhalten bei komplexeren oder längeren Eingaben zulässt. Es ist unklar, ob „Cold-Start" tatsächlich einen Kaltstart ohne gecachte Modelldaten abbildet oder ob der Adapter dies nicht explizit kontrolliert.

Empfehlung

Den Benchmark auf mindestens 10–20 Wiederholungen ausweiten und dabei tatsächliche TTFT-Messwerte in Millisekunden erfassen, um Varianz und Ausreißer zu erkennen. Zusätzlich sollte geprüft werden, ob der Kaltstart-Zustand reproduzierbar erzwungen wird (z.B. durch Model-Unload vor jedem Lauf), damit der Sub-Benchmark seinen beschriebenen Zweck zuverlässig erfüllt.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 370 p95: 370 mean: 370
Tokens/s
p50: 5.4 mean: 5.4
TTFT (ms)
p50: 342 p95: 342
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
cold_start.0 passed 100% Antworte nur mit OK. 370 ms 5.4 342 ms
Lade Detail …