Samples · baseline.cold_start
KI-Auswertung
Generiert 2026-05-12 02:18 · claude-sonnet-4-6Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % bestanden. Das Modell lieferte beim einzigen Testfall sofort die korrekte Antwort ohne Fehler.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures
- Korrekte und minimale Antwort auf einen einfachen Prompt
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage
- Kein tatsächlicher TTFT-Messwert (in Millisekunden) in den Metriken erfasst
Auffälligkeiten
Keine Muster erkennbar, da nur ein einziger Testfall vorliegt. Der Benchmark misst laut Beschreibung die Latenz bis zum ersten Stream-Token, jedoch enthält die Ausgabe keinen numerischen Zeitwert — es wurde lediglich die Korrektheit der Antwort bewertet. Dies widerspricht dem eigentlichen Ziel des Sub-Benchmarks.
Empfehlung
Den Benchmark erweitern: Erstens sollte die tatsächliche TTFT-Dauer in Millisekunden als Metrik erfasst und ausgegeben werden, da ohne diesen Wert keine Aussage über die Latenz möglich ist. Zweitens sollte die Stichprobengröße auf mindestens 10–20 Anfragen erhöht werden, um Schwankungen im Cold-Start-Verhalten (z. B. durch Modell-Loading oder Cache-Effekte) sichtbar zu machen.
Übersicht
1 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| cold_start.0 | passed | Antworte nur mit OK. | 502 ms | 4 | 472 ms | ||
|
Lade Detail …
|
|||||||