Samples · baseline.cold_start

Run #64 · Adapter v1.0.0 · 1/1 Samples angezeigt · Score 100%
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-12 02:18 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte beim einzigen Testfall sofort die korrekte Antwort ohne Fehler.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures
  • Korrekte und minimale Antwort auf einen einfachen Prompt

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage
  • Kein tatsächlicher TTFT-Messwert (in Millisekunden) in den Metriken erfasst

Auffälligkeiten

Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Der Benchmark misst laut Beschreibung die Latenz bis zum ersten Stream-Token, jedoch enthält die Ausgabe keinen numerischen Zeitwert — es wurde lediglich die Korrektheit der Antwort bewertet. Dies widerspricht dem eigentlichen Ziel des Sub-Benchmarks.

Empfehlung

Den Benchmark erweitern: Erstens sollte die tatsächliche TTFT-Dauer in Millisekunden als Metrik erfasst und ausgegeben werden, da ohne diesen Wert keine Aussage über die Latenz möglich ist. Zweitens sollte die Stichprobengröße auf mindestens 10–20 Anfragen erhöht werden, um Schwankungen im Cold-Start-Verhalten (z. B. durch Modell-Loading oder Cache-Effekte) sichtbar zu machen.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 502 p95: 502 mean: 502
Tokens/s
p50: 4 mean: 4
TTFT (ms)
p50: 472 p95: 472
Status Score-Schwelle Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
cold_start.0 passed 100% Antworte nur mit OK. 502 ms 4 472 ms
Lade Detail …