Samples · baseline.cold_start
KI-Auswertung
Generiert 2026-05-13 03:58 · claude-sonnet-4-6Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) bestanden. Das Modell lieferte auf den minimalen Prompt „Antworte nur mit OK." korrekt und ohne Fehler die erwartete Antwort.
Stärken
- Fehlerfreie Ausführung: weder Errors noch Failures aufgezeichnet
- Korrekte und präzise Antwort ohne überflüssige Tokens oder Abweichungen vom erwarteten Format
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbaren Aussagen über die tatsächliche TTFT-Stabilität
- Keine konkreten Latenzmesswerte (ms) im Report vorhanden, was eine quantitative Bewertung unmöglich macht
Auffälligkeiten
Keine Muster erkennbar, da nur ein einzelner Testfall vorliegt. Der Prompt ist bewusst minimal gehalten, was keine Aussagen über das Verhalten bei komplexeren oder längeren Eingaben zulässt. Es ist unklar, ob „Cold-Start" tatsächlich einen Kaltstart ohne gecachte Modelldaten abbildet oder ob der Adapter dies nicht explizit kontrolliert.
Empfehlung
Den Benchmark auf mindestens 10–20 Wiederholungen ausweiten und dabei tatsächliche TTFT-Messwerte in Millisekunden erfassen, um Varianz und Ausreißer zu erkennen. Zusätzlich sollte geprüft werden, ob der Kaltstart-Zustand reproduzierbar erzwungen wird (z.B. durch Model-Unload vor jedem Lauf), damit der Sub-Benchmark seinen beschriebenen Zweck zuverlässig erfüllt.
Übersicht
1 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| cold_start.0 | passed | Antworte nur mit OK. | 370 ms | 5.4 | 342 ms | ||
|
Lade Detail …
|
|||||||