Samples · baseline.cold_start
KI-Auswertung
Generiert 2026-05-11 15:55 · claude-sonnet-4-6Zusammenfassung
Der Cold-Start-TTFT-Benchmark wurde mit einer Pass-Rate von 100 % (1/1) fehlerfrei abgeschlossen. Das Modell reagierte korrekt und ohne Fehler auf die einzige gestellte Anfrage.
Stärken
- Vollständige Fehlerfreiheit: keine Errors, keine Failures
- Korrekte, präzise Antwort ohne Halluzination oder Format-Abweichung
Schwächen
- Stichprobengröße von n=1 erlaubt keine statistisch belastbare Aussage zur TTFT-Stabilität
- Kein numerischer Score (score: null) vorhanden, daher keine quantitative Latenz-Bewertung möglich
Auffälligkeiten
Keine Failure-Muster erkennbar, da ausschließlich ein einzelner Erfolgsfall vorliegt. Der Prompt war trivial kurz ("Antworte nur mit OK."), was keine Rückschlüsse auf das Verhalten bei komplexeren oder längeren Inputs zulässt. Die fehlende Score-Metrik deutet darauf hin, dass die eigentliche TTFT-Messung (in Millisekunden) nicht erfasst oder nicht weitergegeben wurde.
Empfehlung
Den Benchmark mit mindestens 20–50 Wiederholungen und variierenden Prompt-Längen erneut ausführen sowie die konkrete TTFT-Messung (z. B. in Millisekunden) als numerischen Score implementieren, um belastbare Aussagen zur Latenz und deren Stabilität unter Last treffen zu können.
Übersicht
1 Samples| Frage-ID | Status | Score | Prompt | Latenz | Tokens/s | TTFT | |
|---|---|---|---|---|---|---|---|
| cold_start.0 | passed | Antworte nur mit OK. | 372 ms | 107.5 | — | ||
|
Lade Detail …
|
|||||||