Samples · baseline.cold_start
Run #26 · Adapter v1.0.0 · 1/1 Samples angezeigt
· Score 100%
KI-Auswertung
Generiert 2026-05-10 17:12 · claude-sonnet-4-6Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte auf den minimalen Prompt „Antworte nur mit OK." korrekt und ohne Fehler die erwartete Antwort.
Stärken
- Perfekte Pass-Rate (1/1) ohne Fehler oder Failures
- Modell folgt der Instruktion exakt und produziert keine überschüssigen Tokens
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen
- Kein absoluter TTFT-Zahlenwert im Report — die eigentliche Latenzmetrik ist nicht quantifizierbar
Auffälligkeiten
Keine Fehler oder Muster erkennbar. Bei einer einzigen Messung ist eine Mustererkennung strukturell nicht möglich. Es ist unklar, ob der Benchmark tatsächlich die Latenz bis zum ersten Stream-Token misst oder nur die funktionale Korrektheit der Antwort.
Empfehlung
Den Benchmark um mindestens 10–20 Wiederholungen erweitern und die tatsächlichen TTFT-Werte in Millisekunden als Metrik erfassen und auswerten. Ohne rohe Zeitwerte misst der Test de facto nur Antwort-Korrektheit, nicht Cold-Start-Latenz — das widerspricht dem erklärten Ziel des Sub-Benchmarks.
Übersicht
1 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 151
p95: 151
mean: 151
Tokens/s
p50: 6.6
mean: 6.6
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| cold_start.0 | passed | Antworte nur mit OK. | 151 ms | 6.6 | — | ||
|
Lade Detail …
|
|||||||