Samples · baseline.cold_start

Run #26 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-10 17:12 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte auf den minimalen Prompt „Antworte nur mit OK." korrekt und ohne Fehler die erwartete Antwort.

Stärken

  • Perfekte Pass-Rate (1/1) ohne Fehler oder Failures
  • Modell folgt der Instruktion exakt und produziert keine überschüssigen Tokens

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen
  • Kein absoluter TTFT-Zahlenwert im Report — die eigentliche Latenzmetrik ist nicht quantifizierbar

Auffälligkeiten

Keine Fehler oder Muster erkennbar. Bei einer einzigen Messung ist eine Mustererkennung strukturell nicht möglich. Es ist unklar, ob der Benchmark tatsächlich die Latenz bis zum ersten Stream-Token misst oder nur die funktionale Korrektheit der Antwort.

Empfehlung

Den Benchmark um mindestens 10–20 Wiederholungen erweitern und die tatsächlichen TTFT-Werte in Millisekunden als Metrik erfassen und auswerten. Ohne rohe Zeitwerte misst der Test de facto nur Antwort-Korrektheit, nicht Cold-Start-Latenz — das widerspricht dem erklärten Ziel des Sub-Benchmarks.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 151 p95: 151 mean: 151
Tokens/s
p50: 6.6 mean: 6.6
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
cold_start.0 passed 100% Antworte nur mit OK. 151 ms 6.6
Lade Detail …