Samples · baseline.cold_start
Run #63 · Adapter v1.0.0 · 1/1 Samples angezeigt
· Score 100%
KI-Auswertung
Generiert 2026-05-12 02:17 · claude-sonnet-4-6Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell antwortete korrekt und ohne Fehler auf den einzigen Testfall.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures
- Korrekte und präzise Antwort auf die Instruktion ("OK" ohne Zusätze)
Schwächen
- Stichprobengröße von nur einem Prompt erlaubt keine belastbare statistische Aussage
- Der Test misst lediglich Korrektheit, nicht die tatsächliche TTFT-Latenz in Millisekunden
Auffälligkeiten
Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Die Beschreibung des Benchmarks zielt auf Latenz (Time-To-First-Token), jedoch enthält die Auswertung keine konkreten Zeitwerte — nur ein binäres Pass/Fail-Ergebnis.
Empfehlung
Den Benchmark um quantitative Latenz-Metriken (TTFT in ms, Perzentile p50/p95) sowie eine größere Anzahl von Prompts unterschiedlicher Länge und Komplexität erweitern, um belastbare Aussagen über das tatsächliche Cold-Start-Verhalten des Modells treffen zu können.
Übersicht
1 SamplesVerteilung
Score-Histogramm
0.0 ────── 1.0
Latenz (ms)
p50: 489
p95: 489
mean: 489
Tokens/s
p50: 4.1
mean: 4.1
TTFT (ms)
p50: 463
p95: 463
| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| cold_start.0 | passed | Antworte nur mit OK. | 489 ms | 4.1 | 463 ms | ||
|
Lade Detail …
|
|||||||