Samples · baseline.cold_start

Run #51 · Adapter v1.0.0 · 0/1 Samples angezeigt
‹ Zurück zum Run-Detail

KI-Auswertung

Generiert 2026-05-11 15:55 · claude-sonnet-4-6

Zusammenfassung

Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) fehlerfrei abgeschlossen. Das Modell reagierte korrekt und ohne Fehler auf die einzige gestellte Anfrage.

Stärken

  • Vollständige Fehlerfreiheit: keine Errors, keine Failures
  • Korrekte, präzise Antwort ohne Halluzination oder Format-Abweichung

Schwächen

  • Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage zur TTFT-Stabilität
  • Kein numerischer Score (score: null) vorhanden, daher keine quantitative Latenz-Bewertung möglich

Auffälligkeiten

Keine Failure-Muster erkennbar, da ausschließlich ein einzelner Erfolgsfall vorliegt. Der Prompt war trivial kurz ("Antworte nur mit OK."), was keine Rückschlüsse auf das Verhalten bei komplexeren oder längeren Inputs zulässt. Die fehlende Score-Metrik deutet darauf hin, dass die eigentliche TTFT-Messung (in Millisekunden) nicht erfasst oder nicht weitergegeben wurde.

Empfehlung

Den Benchmark mit mindestens 20–50 Wiederholungen und variierenden Prompt-Längen erneut ausführen sowie die konkrete TTFT-Messung (z. B. in Millisekunden) als numerischen Score implementieren, um belastbare Aussagen zur Latenz und deren Stabilität unter Last treffen zu können.

Übersicht

1 Samples
Verteilung
1
Score-Histogramm
0 – 0.1: 0 0.1 – 0.2: 0 0.2 – 0.3: 0 0.3 – 0.4: 0 0.4 – 0.5: 0 0.5 – 0.6: 0 0.6 – 0.7: 0 0.7 – 0.8: 0 0.8 – 0.9: 0 0.9 – 1: 1
0.0 ────── 1.0
Latenz (ms)
p50: 372 p95: 372 mean: 372
Tokens/s
p50: 107.5 mean: 107.5
Status Score-Schwelle Zurücksetzen Score < 0.5
Frage-ID Status Score Prompt Latenz Tokens/s TTFT
Keine Samples
Filter zurücksetzen, um die 1 Samples zu sehen.
0 von 1 Samples · Limit 200 Nächste ›