Samples · baseline.cold_start
Run #25 · Adapter v1.0.0 · 0/1 Samples angezeigt
· Score 100%
KI-Auswertung
Generiert 2026-05-10 16:15 · claude-sonnet-4-6Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) vollständig bestanden. Das Modell reagierte korrekt und ohne Fehler auf den minimalen Testprompt.
Stärken
- Keine Errors und keine Failures bei der Erstanfrage
- Antwort präzise und regelkonform: nur "OK", ohne überflüssige Tokens
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage über die tatsächliche TTFT-Stabilität
- Konkrete Latenzmesswerte (ms) fehlen in der Auswertung, sodass kein absoluter Vergleichswert vorliegt
Auffälligkeiten
Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Der Prompt ist trivial kurz und kontextfrei, was die Aussagekraft über das Verhalten bei realen Anfragen einschränkt.
Empfehlung
Den Cold-Start-Benchmark auf mindestens 10–20 Wiederholungen mit variierenden Promptlängen ausweiten, um Latenz-Ausreißer und Warmup-Effekte sichtbar zu machen. Zusätzlich sollten absolute TTFT-Werte (p50, p95) erfasst und in die Auswertung einbezogen werden.
Übersicht
1 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 203
p95: 203
mean: 203
Tokens/s
p50: 4.9
mean: 4.9
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
|
Keine Samples
Filter zurücksetzen, um die 1 Samples zu sehen.
| |||||||
0 von 1 Samples · Limit 200
Nächste ›