Samples · baseline.cold_start

Run #52 · Adapter v1.0.0 · 0/1 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-11 15:56 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Test wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete korrekt und ohne Fehler auf die einzige Testanfrage.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures
  • Korrekte und minimale Antwort auf eine eindeutige Instruktion ("OK" auf "Antworte nur mit OK")

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
  • Kein Score-Wert vorhanden, sodass keine quantitative Latenz-Messung ausgewertet werden kann

Auffälligkeiten

Keine Muster in Failures erkennbar, da ausschließlich ein Success vorliegt. Der Test deckt nur den trivialsten Fall ab (einsilbige Antwort auf eine eindeutige Kurzanweisung) und gibt keinen Aufschluss über Verhalten bei komplexeren Prompts oder langen Outputs.

Empfehlung

Den Cold-Start-Benchmark um mehrere Wiederholungen und unterschiedliche Prompt-Typen erweitern (z. B. längere Antworten, mehrsprachige Eingaben), um belastbare TTFT-Werte zu ermitteln. Zudem sollte der `score`-Wert mit einer tatsächlichen Zeitstempel-Messung befüllt werden, damit Latenz-Vergleiche zwischen Modellen oder Quantisierungsstufen möglich sind.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 114 p95: 114 mean: 114
Tokens/s
p50: 17.5 mean: 17.5
Status Score-Schwelle Zurücksetzen Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Filter zurücksetzen, um die 1 Samples zu sehen.
0 von 1 Samples · Limit 200 Nächste ›